کتاب تحلیل دادههای اقتصادی نوشتهی گری کوپ، مهمترین الگوهای اقتصادسنجی مدرن را بررسی میکند. کتاب تحلیل دادههای اقتص
583 108 5MB
Persian Pages 384 [385] Year 1397
Table of contents :
پیشگفتار مترجمان
پیشگفتار چاپ چهارم
پیشگفتار چاپ سوم
پیشگفتار چاپ دوم
پیشگفتار چاپ اول
فصل 1: مقدمه
فصل 2: مبانی کار با دادهها
فصل 3: همبستگی
فصل 4: معرفی رگرسیون ساده
فصل 5: جنبههای آماری رگرسیون
فصل 6: رگرسیون چندگانه
فصل 7: رگرسیون با متغیرهای مجازی
فصل 8: الگوهای انتخاب کیفی
فصل 9: رگرسیون با وقفه زمانی: الگوهای با وقفه توزیعی
فصل 10: تحلیل سری زمانی تک متغیره
فصل 11: رگرسیون با متغیرهای سری زمانی
فصل 12: کاربرد الگوهای سری زمانی در اقتصاد کلان و مدیریت مالی
فصل 13: محدویتها و راهحلها
ضمیمه الف: شیوه نوشتن یک مقاله
ضمیمه ب: فهرست راهنمای دادهها
بهنام آنکه جان را فکرت آموخت
سرشناســه :کوپ ،گــری /Koop, Gary /عنوان و نــام پدیدآور :تحلیل دادههای اقتصــادی :درک الگوهای اقتصادسنجی بدون نیاز به پیشینه ریاضی /گری کوپ؛ مانی موتمنی ،آرش هادیزاده /مشخصات نشر :تهران: انتشــارات دنیای اقتصاد /1397 ،مشخصات ظاهری 384 :ص :.جدول ،نمودار؛ 21/5 ×14/5سم /.فروست: اقتصاد /شابک /978-600-497-023-5 :وضعیت فهرستنویسی :فیپا /یادداشت :عنوان اصلیAnalysis : /.of economic data,4th ed, 2013عنوان دیگر :درک الگوهای اقتصادســنجی بدون نیاز به پیشینه ریاضی/ موضوع :اقتصادســنجی /موضوع /Econometrics :شناســه افزوده :موتمنی ،مانی ،-1360 ،مترجم /شناسه افزوده :هــادیزاده ،آرش ، -1360 ،مترجم /ردهبندی کنگــره3 1397 :ت9ک /HB141 /ردهبندی دیویی: / 330/015195شماره کتابشناسی ملی5318950 :
1397
اقتصاد
تحلیل دادههای اقتصادی
درک الگوهای اقتصادسنجی بدون نیاز به پیشینه ریاضی
گری کوپ مرتجامن؛ مانی مومتنی؛ عضو هیات علمی دانشگاه مازندران ،دانشکده اقتصاد و علوم اداری یزاده؛ عضو هیات علمی دانشگاه آزاد اسالمی -واحد قزوین آرش هاد
تحلیل دادههای اقتصادی (درک الگوهای اقتصادســنجی بدون نیاز به پیشینه ریاضی) /ناشر :انتشارات دنیای اقتصــاد /مولف :گری کوپ /مترجم :مانی موتمنی (عضو هیات علمی دانشــگاه مازندران ،دانشــکده اقتصاد و علوم اداری) /آرش هادیزاده (عضو هیات علمی دانشــگاه آزاد اســامی -واحد قزوین) /طراح جلد و یونیفورم: حسن کریمزاده /صفحهآرا :مریم فتاحی /مدیر تولید :انوشه صادقی آزاد /نوبت چاپ :اول /1397-شمارگان: 500نسخه /شابک /978-600-497-023-5 :چاپ :پردیس /تمام حقوق این اثر محفوظ و متعلق به نشردنیای اقتصاد اســت /نشانی انتشارات :تهران ،خیابان مطهری ،بین سنایی و میرزای شیرازی ،شماره ،370طبقه سوم/ تلفن / 87762136 :نشانی فروشگاه :تهران ،خیابان قائممقام فراهانی ،ضلع شمال غربی میدان شعاع ،شماره /108 تلفن /87762747 :پست الکترونیک /book@den. ir :پایگاه اینترنتیbook. den. ir :
در این کتاب میخوانید
1 3 15 1 7 1 9 21
پیشگفتار مترجمان پیشگفتار چاپ چهارم پیشگفتار چاپ سوم پیشگفتار چاپ دوم پیشگفتار چاپ اول
فصل 1 مقدمه سازماندهی کتاب پیشینه مورد نیاز پیوست :1-1مفاهیم ریاضی مورد استفاده در این کتاب
28 3 0 3 1
3 7 3 9 4 0 4 1 42 4 6 49 5 1 5 4 57 61
فصل 2 مبانی کار با دادهها انواع دادههای اقتصادی تفاوت بین دادههای کیفی و کمی پَنِل دیتا یا دادههای پنلی تبدیل دادهها :سطوح در مقابل نرخهای رشد اعداد شاخص گردآوری دادهها کار با دادهها :روش نموداری هیستوگرام نمودارهای XY کار با دادهها :آمار توصیفی خالصه
6 2 7 0
76 8 3 93 94
9 6 104 1 09 116 1 21 122
127 1 31 141 148 1 53 154
159 160 1 61 162 1 67 1 71 1 73 1 82 183
پیوست :2-1اعداد شاخص پیوست :2-2آمار توصیفی پیشرفته فصل 3 همبستگی فهم همبستگی درک دلیل همبستگی متغیرها خالصه فصل ضمیمه :3-1جزییات ریاضیاتی فصل 4 معرفی رگرسیون ساده رگرسیون بهعنوان بهترین خط برازش شده تفسیر برآوردهای OLS مقادیر برازششده و :R2اندازهگیری نیکویی برازش مدل رگرسیون غیرخطی بودن در رگرسیون خالصه فصل ضمیمه :4-1جزییات ریاضی فصل 5 جنبههای آماری رگرسیون چه عواملی بر دقت برآورد ^ βتاثیر میگذارند؟ ^ محاسبه فاصله اطمینان برای α ^ آزمون فرضیه β=0 آزمون فرضیه :R2آماره F خالصه فصل ضمیمه :5-1استفاده از جدولهای آماری برای آزمون فرضیه β=0 فصل 6 رگرسیون چندگانه رگرسیون بهعنوان بهترین خط برازش برآورد OLSاز مدل رگرسیون چندگانه جنبههای آماری رگرسیون چندگانه تفسیر برآوردهای OLS تفاوتهای بین تفسیرهای نتایج رگرسیون ساده و چندگانه تورش متغیرهای حذفشده همخطی خالصه فصل ضمیمه :6-1تفسیر ریاضی ضرایب رگرسیون
1 88 1 90 194 1 98 2 01
2 05 2 07 2 15 215
224 2 27 2 28 231 2 35 236
2 44 2 49 252 2 55 2 62
2 62 2 65 2 69 269
2 74
فصل 7 رگرسیون با متغیرهای مجازی رگرسیون ساده با استفاده از متغیرهای مجازی رگرسیون چندگانه با متغیرهای مجازی رگرسیون چندگانه با متغیرهای توضیحی مجازی و غیرمجازی اثر متقابل متغیرهای مجازی و غیرمجازی خالصه فصل فصل 8 الگوهای انتخاب کیفی الگوی انتخاب در دانش اقتصاد احتماالت در انتخاب و الگوهای لوجیت و پروبیت خالصه فصل پیوست 8-1 فصل 9 رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی متغیرهای باوقفه شیوه نوشتاری مثال کاربردی :اثر دورههای آموزشی ایمنی بر حوادث انتخاب مرتبه وقفه خالصه فصل پیوست -9-1سایر مدلهای با وقفه توزیعی فصل 10 تحلیل سریزمانی تک متغیره تابع خودهمبستگی مدل خودرگرسیونی برای سریهای زمانی تکمتغیره نامانایی در مقابل مانایی سریهای زمانی بسط الگوهای )AR(1 آزمون ضرایب در )AR(pبا وجود روند قطعی
آزمون ضرایب α.ᵞ ......ᵞ , ᵟو ᵟ p-1
1
آزمون ρ خالصه فصل پیوست :10-1درک ریاضیاتی الگوی)AR(1 فصل 11 رگرسیون با متغیرهای سریزمانی رگرسیون سریزمانی در حالتی که Xو Yمانا هستند
2 81 2 82 2 86 2 92 2 97 3 00
302 3 06 3 10 317 3 18 3 19 322 3 25 3 26 334 336 341 3 47 348
رگرسیون سریزمانی در حالتی که Yو Xریشه واحد داشته باشند :رگرسیون ساختگی رگرسیون سریزمانی در حالتی که Yو Xدارای ریشه واحد باشند :همانباشتگی برآورد و آزمون با متغیرهای همانباشته رگرسیون سریزمانی در حالتی که Yو Xهمانباشته باشند :الگوی تصحیح خطا رگرسیون سریزمانی وقتی Yو Xریشه واحد دارند ولی همانباشته نیستند خالصه فصل فصل 12 کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی نوسانات مالی مثال 12-1الف .نوسانات در بازار سهام الگوی خودهمبستگی با ناهمسانی شرطی واریانس )(ARCH علیت گرنجر علیت گرنجر در یک الگوی ساده ARDL آزمون علیت گرنجر در الگوی ARDLبا وقفههای pو q علیت دوطرفه علیت گرنجر با متغیرهای همانباشته خودرگرسیونی برداری )(VAR انتخاب وقفه در الگوهای VAR پیشبینی با الگوهای VAR خودرگرسیونی برداری همراه با همانباشتگی خالصه فصل پیوست :12-1آزمون فرضیه برای بیش از یک ضریب
356 357 358 358 359 3 63 3 69
فصل 13 محدویتها و راهحلها مشکالت ناشی از وجود فرمهای خاص برای متغیر وابسته Yسانسورشده است Yعدد صحیح غیرمنفی است Yیک بازه زمانی را اندازهگیری میکند مشکالت ناشی از وجود فرمهای خاص برای جزءخطا مشکالتی که غلبه بر آنها نیازمند استفاده از مدلهای معادالت چندگانه است خالصه فصل
3 71 3 83
ضمیمه الف :شیوه نوشتن یک مقاله ضمیمه ب :فهرست راهنمای دادهها
فهرست جداول و نمودارها
37 50 53 55 60 6 2 6 3 6 7 6 7 6 9 7 0
فصل :2مبانی کار با دادهها نمودار .2-1نمودار سریزمانی نرخ ارز پوند انگلستان/دالر آمریکا نمودار .2-2هیستوگرام GDPواقعی سرانه سال 1992برای 90کشور نمودار .2-3نمودار XYتراکم جمعیت در مقابل جنگلزدایی نمودار .2-4هیستوگرامی كه توزیع زنگولهای را نشان میدهد ت میوهها در سالهای مختلف جدول 2-1قیم جدول 2-2محاسبه شاخص قیمت موز جدول .2-3مقادیر میوه خریداریشده (به تن) جدول 2-4محاسبه شاخص قیمت السپیرز برای میوهها جدول 2-5محاسبه شاخص قیمت پاشه برای میوهها جدول .2-6تغییر سال پایه برای شاخص قیمت
75 89 90 90 91 92 9 3
فصل :3همبستگی نمودار .3-1نمودار XYقیمت در مقابل اندازه خانه نمودار .3-2نمودار XYدو متغیر با همبستگی کامل ()1=r نمودار .3-3نمودار XYدو متغیر با همبستگی مثبت ()r= 0/51 نمودار .3-4نمودار XYدو متغیر کامال ناهمبسته ()0=r نمودار .3-5نمودار XYدو متغیر با همبستگی منفی ()r=-0.58 جدول .3-1ماتریس همبستگی Xو Yو Z
95 1 02 1 17 1 19 1 19
فصل :4معرفی رگرسیون ساده نمودار .4-1بهترین خط برازش برای سه مشاهده نمودار .4-2ارتباط توانی بین Xو Y نمودار .4-3متغیرهای Xو Yنیاز به لگاریتمگیری دارند نمودار ln (X) .4-4در مقابل )ln (Y
1 25 1 28 1 28 1 29 1 29 137 145 151
فصل :5جنبههای آماری رگرسیون نمودار .5-1حجم مثال بسیار کوچک نمودار .5-2حجم مثال بزرگ ،واریانس خطای بزرگ نمودار .5-3حجم مثال بزرگ ،واریانس خطای کوچک نمودار .5-4مقادیر xمشاهدات به یک ناحیه کوچک محدود است جدول .5-1برآورد OLSو فواصل اطمینان جدول .5-2رگرسیون جنگلزدایی بر تراکم جمعیت جدول .5-3رگرسیون هزینه تولید روی تولید
157 164 168 169 176 177 179 181 181
فصل :6رگرسیون چندگانه جدول 6-1رگرسیون قیمت فروش خانه روی اندازه خانه ،تعداد اتاقهای خواب ... جدول .6-2رگرسیون قیمت فروش خانه بر تعداد اتاقهای خواب جدول .6-3ماتریس همبستگی متغیرهای توضیحی مثال قیمت خانه جدول .6-4نتایج رگرسیون برای دادههای ساخته شده ... جدول .6-5نتایج رگرسیون برای بخشی از دادههای ساخته شده ... جدول .6-6نتایج رگرسیون متغیرهای صنعت برق .... جدول .6-7ماتریس همبستگی متغیرهای مثال صنعت برق جدول .6-8نتایج رگرسیون متغیرهای صنعت برق پس از حذف متغیر قیمت پایه ...
185 188 191 191 196
فصل :7رگرسیون با متغیرهای مجازی جدول .7-1رگرسیون قیمت فروش خانه بر متغیر مجازی تهویه مطبوع جدول .7-2رگرسیون قیمت خانه روی دو متغیر مجازی جدول .7-3قیمت خانه در چهار حالت جدول .7-4قیمت خانه در چهار حالت
203 211 213
فصل :8الگوهای انتخاب کیفی جدول .8-1نتایج برآمده از الگوی لوجیت جدول 8-2
221 226 229 234
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی جدول 9-1 جدول .9-2نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث جدول .9-3نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث
239 2 42 2 42 246 2 48 2 48
فصل :10تحلیل سریزمانی تک متغیره نمودار .10-1درآمد خانوارهای آمریکایی نمودار .10-2تغییر درآمد خانوارهای آمریکایی جدول .10-1تابع خودهمبستگی نمودار .10-3تابع خودهمبستگی تغییرات درآمد خانوارها نمودار .10-4تابع خودهمبستگی تغییرات درآمد خانوارها
) AR(1باɸ=0
2 50 2 51 2 51 2 57 260 264
نمودار .10-5سریزمانی نمودار .10-6سریزمانی ) AR(1با نمودار .10-7سریزمانی ) AR(1با ɸ=1 نمودار .10-8سريزماني با روند قطعی جدول .10-2الگوی )AR(4با روند قطعی جدول .10-3الگوی )AR(1
273 279 2 86 290 296
فصل :11رگرسیون با متغیرهای سریزمانی جدول .11-1الگوی ) ARDL(2.2با روند قطعی نمودار .11-1قيمت پرتقالهاي معمولي و ارگانيك جدول .11-2الگوی )(1ا ARبرای پسماندهای رگرسیون هم انباشتگی جدول .11-3یک الگوی ECMساده
ɸ=0/8
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی 301 نمودار .12-1لگاریتم قیمت سهام 3 06 جدول .12-1الگوی ) AR(1نوسانات متغیر مورد بررسی 308 نمودار .12-2درصد تغييرات قیمت سهام 3 09 نمودار .12-3نوسانات قيمت سهام 3 09 جدول .12-2الگوی ) ARCH(1بازدهی سهام 312 جدول .12-3الگوی ) ARCH(2بازدهی سهام 313 جدول .12-1الگوی ) GARCH(1.1بازدهی سهام 316 جدول 12-5الگوی ARDLکه تورم قیمت متغیر وابسته است 321 جدول .12-6الگوی ARDLکه تورم دستمزد متغیر وابسته است 323 جدول .12-7نتایج برآورد الگوی VARبرای RMPY 333 جدول .12-7نتایج برآورد الگوی VARبرای RMPY 335 جدول .12-9پیشبینی تورم و رشد GDPبرای سال 1992با الگوی VAR(2) 346 340 جدول .12-10آزمون جوهانسن برای بررسی همانباشتگی دادههای CAY.XLS جدول .12-11مقادیر بحرانی آماره Fوقتی T-k>100 350 جدول .12-12مقادیر بحرانی آماره Fوقتی T-k=40 350 355 3 62 3 68
فصل :13محدویتها و راهحلها نمودار 13-1 نمودار 13-2
Koop, Gary. (2013), «Analysis of Economic Data», John Wiely and Sons Ltd. Forth Edition
:این کتاب ترجمهای است از
پیشگفتار مرتجامن
13
پیشگفتار مترجمان
کتابی را که پیش رو دارید نمیتوان یک کتاب آموزش اقتصادسنجی به شکل کالســیک آن دانست .با مرور کتاب خواهید دید که روابط ریاضی استفادهشده در آن ناچیز اســت؛ در حالیکه کتابهای اقتصادسنجی معموال لبریز از روابط و اثباتهای ریاضی اســت .شاید این مهمترین نقطه قوت کتاب است .تجربه تدریس مترجمین نشان داده است که در فرایند آموزش اقتصادسنجی ،معموال انتقال مفاهیم فدای بررســی اثباتهای ریاضی میشــود .چنانچه مایل هستید مفاهیمــی نظیــر ،Logit، ARDL، VECM، GARCHرا بدون نیاز به معادالت ریاضی یاد بگیرید ،مطالعه این کتاب برای شما جذاب خواهد بود. امروزه تکنیکهای پیشــرفته آمار و اقتصادســنجی در رشتههای مختلفی نظیر ،MBAحســابداری و علوم سیاسی مورد استفاده قرار میگیرد .بسیاری از پژوهشــگران در این رشتهها به دلیل عدم برخورداری از پیشینه ریاضی و آمار، قادر به فراگیری الگوهای پیچیده اقتصادســنجی نیســتند .طرفه آنکه به عقیده مترجمین ،یکی از دالیل گســترش بازار پایاننامهنویســی در کشورمان ،عدم تسلط دانشجویان تحصیالت تکمیلی در رشتههای علوم انسانی به تکنیکهای آماری است .چنانچه پیشینه آموزشــی شما در برگیرنده ریاضیات نبوده است و در عینحال مایل هســتید تا قادر به فهم و اجرای الگوهای اقتصادسنجی در نرمافزارهای آماری باشید ،این کتاب برای شما مناسب است.
تحلیل دادههای اقتصادی
14
در این کتاب مهمترین الگوهای اقتصادســنجی مدرن پوشش داده میشود. سعی کتاب بر آن اســت تا با استفاده از نمودارها و مثالهای کاربردی فراوان، مفاهیم پیچیــده آماری را منتقل نماید .نرمافزار پایهای که مثالهای کتاب با آن حل میشوند ،نرمافزار اِکسل است. میتوان ادعا کرد که نرمافزار اِکســل آنقدر فراگیر شــده اســت که اغلب دانشــجویان میتوانند با آن کار کنند .بنابراین استفاده از اِکسل برای برآوردها، میتواند دایره مخاطبین کتاب را گســتردهتر نماید .البته در کنار اِکسل و برای خوانندگان حرفهایتر ،حل مســائل با نرمافزارهایی نظیر EViewsو Stataنیز توضیح داده شده اســت .تمامی الگوهایی که در کتاب آموزش داده میشود با فایل اکســلی همراه است که خوانندگان میتوانند این فایل را از https://t.me/ ecdataیا کانال تلگرامی @ecdataدریافت نمایند. پنــج فصل اول کتاب به مفاهیم همبســتگی و رگرســیون اختصاص یافته اســت .درک این مفاهیم بنیان درک سایر مفاهیم اقتصادسنجی است .از اینرو کتاب تاکید زیادی بر این دو مفهوم دارد .رگرســیون چندگانه در فصل ششم و متغیرهای مجازی در فصل هفتم مورد بررســی قرار گرفتهاند .در فصل هشتم الگوهای انتخاب کیفی نظیر الجیت معرفی میشود .فصلهای نهم تا دوازدهم به الگوهای سریزمانی اختصاص دارد .در این فصلها با مفاهیمی نظیر ریشه واحد ،همانباشــتگی ،علیت گرنجر و تصحیح خطا آشنا میشوید .فصل سیزده به برخی محدودیتها نظیر دادههای سانسورشــده میپردازد .کتاب با پیوستی پیرامون نحوه نوشتن یک مقاله پایان مییابد. از انیشتین نقل شده است که «اگر نتوانید چیزی را بهسادگی توضیح بدهید یعنی آ ن را بهخوبی نفهمیدهاید» .مترجمین امیدوارند که بیان ساده کتاب به فهم بهتر الگوهای آماری در بین دانشجویان رشتههای اقتصادی یاری رساند. آبان 1396
پیشگفتار چاپ چهارم
15
پیشگفتار چاپ چهارم
در چاپ جدید کتاب ،کوشــش شده است تا ضمن حفظ مولفههای مورد توجه مخاطبین در چاپهای قبلی ،دو موضوع مهم به کتاب افزوده شــود که اولی به بستههای نرمافزاری و دومی اضافه شدن یک فصل به کتاب است. در چاپهای قبلی ،مطالب با این فرض توضیح داده میشد که خوانندگان کتاب تنها از اکسل استفاده مینمایند اما در چاپ چهارم ،مخاطبینی که از بستههای نرمافزاری اقتصادسنجی استفاده مینمایند نیز مورد توجه قرار گرفته و مطالب بهگونهای مطرح شــده است که هم با اکسل و هم با بستههای نرمافزاری قابل استفاده باشد .مزیت اکسل این است که بهصورت عام توسط دانشجویان و بهویژه دانشجویان کارشناسی برای موضوعات مختلف مورد استفاده قرار میگیرد و با کارکرد آن آشنا هستند .اما نرمافزارهایی نظیر اکسل ،قابلیت بسیار محدودی در مدلهای اقتصادسنجی دارند. شــاید بتوان از آنها در رگرسیونهای ساده بهره برد ولی کاربرد آنها در الگوهای پیشــرفته اقتصادسنجی نظیر سریهای زمانی بسیار دشــوار و خستهکننده است. جایگزین اکســل ،استفاده از بستههای نرمافزاری ویژه اقتصادسنجی (نظیر Stata، )Eviews، PCGive، Gretlاست .با توجه به بازخوردی که از مدرسین دانشگاهی داشتهام ،استفاده از این بستههای نرمافزاری به شکل فزایندهای در دروس مقدماتی تحلیل دادهها مورد اســتفاده قرار میگیرد .ممکن اســت دانشجویان با آن آشنایی اندکی داشــته باشند ولی فراگیری کار کردن با آنها چندان دشوار نیست و پس از آن دانشجویان میتوانند بهسادگی طیف وسیعی از الگوهای اقتصادسنجی را استفاده
تحلیل دادههای اقتصادی
16
نمایند .در نسخههای قبلی به دو دلیل از وارد کردن مطالبی که بستههای نرمافزاری مرتبط بود خودداری مینمودم .نخست اینکه تعداد بستههای نرمافزاری زیاد و متنوع اســت .بیم آن را داشتم که اگر از یک بستهنرمافزاری مثل Stataاستفاده میکردم، آنگاه کاربران نرمافزاری نظیر Eviewsنســبت به مطالب کتاب بیگانه میشدند. بههمین دلیل در چاپ جدید کتاب ،کوشش شده است تا مطالب بهنحوی بیان شود که برای کاربران عموم بســتههای نرمافزاری قابل استفاده باشد .مشکل دوم ،هزینه بستههای نرمافزاری است .عموم بستههای نرمافزاری اینچنینی بسیار گران هستند. بههمین دلیل ممکن است دانشجویان نتوانند برای تمرینها از کامپیوتر خانگی خود استفاده نمایند و همچنین برای مدرسین رشتههای غیر اقتصادی (که احتماال دانشکده آنها امتیاز اســتفاده از این نرمافزارها را نمیخرد) اســتفاده از این نرمافزار دشوار خواهد بود .خوشبختانه توسعه نرمافزار خوب و رایگان Gretlکه از طریق سایت ( )http://gretl.sourceforge.netقابل دسترسی است این نگرانی را کمرنگ ساخته است.اســتفاده از امکانات بستههای نرمافزاری این امکان را برایم فراهم ساخت تا سطح پوشش این کتاب را اضافه نمایم و فصلی را با عنوان الگوهای انتخاب کیفی به کتاب بیافزایم .این الگوها به شــکل وســیعی در مطالعات تجربی مختلف ،در پروژههای کالسی یا پایاننامهها بهکار گرفته میشود .همواره برایم مایه شرمندگی بود که این موضوع مهم را در چاپهای قبلی نادیده گرفته بودم؛ اما در واقع استفاده از این الگوها با اکسل بسیار دشوار است .با بستههای نرمافزاری ،برآورد الگوهایی نظیر لوجیت یا پروبیت دیگر دشــوارتر از برآورد یک رگرســیون ساده نیست .با افزودن این فصل به کتاب ،تالش نمودم تا سطح وسیعتری از مسائل دانشجویان در بهکارگیری الگوهای مختلف را مورد پوشش قرار دهم. مایلم از همه دانشجویان و مدرسینی که از این کتاب استفاده میکنند سپاسگزاری کنم .همچنین الزم است از مورات جنس ،پیتر تن هاکن ،نیک ویور و خوانندگان ناشناسی که با نقدهای موثر خود به تصحیح کتاب در چاپ چهارم یاری رساندند، تشکر نمایم .مانند همیشه میباید از گروهی که در انتشارات وایلی ،به سرپرستی استیو هاردمن ،به من یاری رساندهاند ،قدردانی نمایم.
پیشگفتار چاپ سوم
17
پیشگفتار چاپ سوم
برایم مایه خوشحالی است که طی تمامی سالهایی که از چاپ دوم کتاب تحلیل دادههای اقتصادی میگذرد ،این کتاب همچنان موفق بوده است .در چاپ سوم این کتاب تالش نمودهام تا این موفقیت را تداوم بخشم .در چاپ سوم کتاب هیچ تغییر عمدهای در محتوا یا فرم کتاب ایجاد نشده است .این کتاب همچنان قصد دارد تا ابزارهای اساسی که مورد اســتفاده اقتصاددانان است را بدون ورود به تئوریهای پیچیده اقتصادسنجی بیان نماید .با این وجود تعداد زیادی تغییرات کوچک در کتاب ایجاد نمودهام .تعداد بیشــتری از مثالهای کاربردی به کتاب افزوده شده است (که شامل پروژههای تجربی معروف است) و چند روش مهم به برخی فصلها اضافه شــده است (برای مثال آزمون جوهانسن در همانباشتگی به فصل 11افزوده شده است) .بیشتر تغییرات اعمال شده بر مبنای این دیدگاه شکل گرفته است که هرچند این کتاب برای آموزش مقدماتی رشته اقتصاد تالیف گشته است ،اما هر روزه تعداد بیشتری از رشــتهها نظیر مدیریت بازرگانی و مدیریت مالی از مطالب این کتاب اســتفاده مینمایند .این موضوع انگیزهای برای بسیاری از تغییرات و بهویژه اضافه کردن چند موضوع خاص مورد استفاده در مبحث نوسانات مالی (شامل الگوهای ARCHو )GARCHبوده اســت .در پیشگفتار چاپ قبلی از افراد بسیاری (شامل دانشــجویان ،همکاران ،منتقدین و گروه انتشارات وایلی) سپاسگزاری نمودم .در اینجا مایلم تا دوباره از کمک همه آنها قدردانی نمایم.
پیشگفتار چاپ دوم
19
پیشگفتار چاپ دوم
هنگام نوشتار چاپ جدید کتاب ،تالش نمودم تا نقدهای همکاران بسیاری که از چاپ اول کتاب اســتفاده نمودند را مورد توجه قرار دهم .در کنار تجربه شخصی خودم از دیدگاه منتقدینی (برخی از آنها ناشناس هستند) که انتشارات وایلی بــرای بهبود طرح چاپ دوم کتاب بهره بــردم .از چاپ اول این کتاب برای تدریس در سه دانشــگاه مختلف (ادینبورگ ،گالسکو و لیسزتر) و برای تدریس در سه مقطع مختلف استفاده نمودم .نخست برای دانشجویان سال سوم (دانشجویانی که تخصصی در اقتصاد نداشــتهاند و پیشینه مناسبی نیز در آمار نداشتهاند) ،دوم برای دانشــجویان سال دوم (دانشجویانی که آموزشهایی در زمینه اقتصاد داشــتهاند اما مطالب اندکی در زمینه آمار آموختهاند) و سوم برای دانشجویان سال اول (دانشجویانی که با دادههای اقتصادی برای اولینبار مواجه میشوند) .بر اساس عملکرد دانشجویان و بازخورد آنها ،این کتاب میتواند به شکل موفقی در هر سه سطح مورد استفاده قرار گیرد .همکارانم به من گفتهاند که این کتاب به شکل موفقی در رشته مدیریت بازرگانی و MBAمورد استفاده قرار گرفته است. در چاپ دوم چیزی از چاپ اول کاسته نشده است (بهجز برخی اصالحات جزئی تایپی یا ویراســتاری) .اما مطالب و موضوعاتی به آن افزوده شده است. برخی از آنها تا حدودی به ســاخت پیشــینه ریاضی (در حد بسیار کم) مورد
تحلیل دادههای اقتصادی
نیاز کتاب مربوط اســت .برخی از آنها به توضیحات بیشــتر در مورد برخی مفاهیم کلیدی نظیر شاخصها و برخی از آنها به توصیف دقیقتر منابع دادهها اختصاص یافته اســت .در مجموع تالش نمودهام تا با توضیحات اضافه ،درک مفاهیم مربوط به تحلیل دادههای اقتصادی را آسان نمایم .از آنجاکه این کتاب بهشــکل گستردهای در رشــتههای مدیریتی مورد استفاده قرار میگیرد ،تالش نمودم تــا مطالبی مرتبط با آنها و بهویژه برای دانشــجویان مدیریت مالی در کتاب اضافه نمایم. همچنان به نکات ذکرشــده در پیشگفتار چاپ اول معتقد هســتم ،بهویژه نقش برجسته کسانی که با دیدگاه و نکات خود مرا یاری رساندهاند .به فهرست کسانی که در آن پیشگفتار از آنها تشکر نمودم مایلم تا اسامی جولیان داربی، کریستیان اسکرد گلدیش و هیالری الماژیون و همه دانشجویانم در دانشگاههای ادینبورگ ،گالسکو و لیسزتر را اضافه نمایم. 20
پیشگفتار چاپ اول
21
یشگفتار چاپ اول
هدف اصلی این کتاب ،آموزش اقتصادســنجی به دانشــجویانی است که گرایش اصلی آنها اقتصادسنجی نیست .این دسته از دانشجویان شامل کسانی میشــوند که قصد دارند از الگوهای اقتصادسنجی برای تحلیل مسائل واقعی- تجربی اســتفاده نمایند .این کتاب میتواند به شــکل گستردهای مورد استفاده دانشــجویان دوره کارشناسی قرار گیرد .آنها میتوانند این کتاب را جایگزین کتابهای اقتصادســنجی اســتاندارد نمایند و یا از آن برای دورههای کاربردی تحلیل دادهها استفاده نمایند .همچنین دانشجویان دورههای تحصیالت تکمیلی اقتصاد و MBAکه دچار خالءهایی در آموزش اقتصادسنجی هستند ،میتوانند از بیان ساده این کتاب برای کسب بینش عمیقتر بهره ببرند. این کتاب برآمده از دورهای دانشــگاهی اســت که در دانشگاه ادینبورگ با عنوان «تحلیل دادههای اقتصادی» تدریس نمودهام .پیش از آنکه این دوره شکل بگیرد ،همه دانشجویان ناچار بودند تا درس آمار و احتماالت را در سال اول و دوم بهصورت پیشنیاز بگذرانند .دانشجویان با گرایش اقتصاد میبایست درس اقتصادســنجی را در سال سوم و چهارم بگذرانند .با این وجود دانشجویانی که گرایش تخصصی در این زمینه نداشــتند (مانند دانشــجویان اقتصاد با گرایش توســعه و اقتصاد بازرگانی) نیازی به برداشتن واحد اقتصادسنجی نداشتند .با وجود نیازی که در بازار کار شــکل گرفته اســت ،این دسته از دانشجویان طی
تحلیل دادههای اقتصادی
22
دوره کارشناسی آموزش مناســبی در این زمینه ندیده و تنها دورهای مقدماتی در زمینــه آمار و احتماالت گذراندهانــد و بههمین دلیل معموال توانایی اندکی در تحلیــل دادههای واقعی اقتصاد دارنــد .از آنجاکه مهارت در تحلیل دادهها یکــی از موضوعات مهم در پروژههای دانشــجویی ،ورود به دوره تحصیالت تکمیلی و همچنین امکانات شغلی برای اقتصاددانان میباشد؛ نیاز به وجود یک دوره جدید برای این دســته از دانشجویان احساس میشد تا مبانی استفاده از ابزارهای کاربردی تحلیل دادههای اقتصادی را فرا بگیرند .در آن زمان دانشکده مالحظاتی را در این زمینه ابراز داشــت و سرفصلی را برای طرح این دوره به شکل زیر ارائه نمود: -1این دوره میباید عموم الگوهای مورد استفاده در اقتصادسنجی مدرن را پوشش دهد (برای مثال ،همبستگی ،رگرسیون و اضافات الزم در اقتصادسنجی سریزمانی) -2این دوره میباید تا حد ممکن بر پایه ریاضیات نباشــد و بیشتر به شیوه گفتاری و نموداری تکیه داشته باشد. -3این دوره میباید شــامل مثالهای باشــد که از دادههای واقعی اقتصاد برگرفته باشد و دانشجویان بتوانند با رایانههای خود این مثالها را مورد بررسی قرار دهند. -4دوره میباید کوتاه باشد .در پایان همه دانشجویان و بهویژه آن دسته از دانشجویانی که دارای گرایش اقتصاد توسعه یا اقتصاد بازرگانی هستند و بهطور کلی آن دسته از دانشجویانی که فرصت کافی برای آموزش عمیق اقتصادسنجی را نداشتهاند ،میباید مهارت الزم در این زمینه را بهدست آورند. ایــن کتاب از مبانی فوق پیروی مینماید .تالش بر این اســت تا ابزارهای پیچیده اقتصادســنجی با بیان ساده و بدون ریاضی مورد بررسی و تمرین قرار گیرد .مفاهیمی نظیر همبســتگی و رگرسیون که به هم مرتبط هستند بهصورت یکپارچه و با اســتفاده از نمودار و با شــرح بدون ریاضی توضیح داده شــده است .این مفاهیم ساده مبنای بسیاری از الگوهای پیچیده (نظیر همانباشتگی و
23
یشگفتار چاپ اول
ریشــه واحد) هستند که در پژوهشهای اقتصادی امروز کاربرد فراوانی دارند. چنانچه دانشــجویی مفاهیم همبستگی و رگرســیون را بهدرستی درک نماید، آنگاه بهراحتی میتواند ابزارهای پیشرفته اقتصادسنجی و آمار را یاد بگیرد. طراحی کتاب بهگونهای اســت که محتوای آن به رایانه گره خورده است. متقاعد شدهام که بهترین راه برای فراگیری مهارت تحلیل دادهها ،تجربه عملی در اســتفاده از رایانه اســت که با کالسهای درسی توامان شده باشد .کوشش نمودهایــم تا مجموعه متنوعی از دادهها را برای مســائل مختلفی که در کتاب مطرح میشــود گردآوری نماییم .به این نحو که برای هر موضوع ،دانشجویان میتواننــد دادههای دنیای واقعی را برای تحلیل در رایانه اســتفاده کنند .اعتقاد راسخ دارم که هر ســاعتی که دانشجویان در مقابل رایانه صرف میکنند ،چند برابر ساعاتی که در کالس درس صرف مینمایند ارزش خواهد داشت. این کتاب با پیشنیازهای حداقلی ریاضیات ،بهگونهای طراحی شده است که برای طیف گستردهای از دانشجویان قابل استفاده باشد .بهجز برخی موضوعات خاص ،در اغلب مطالب به ریاضیات فراتر از ســطح دبیرستان نیازی نخواهد بود .برای دانشــجویانی که با موضوعاتی از این دست آشنا نیستند (برای مثال معادالت یک خط صاف ،عملگرهای جمع ،لگاریتم) ،بخش عمدهای از کتاب به ایجاد پیشینه مناسب برای آنها اختصاص یافته است. در اینجا مایلم تا از دانشجویان و همکارانم در دانشگاه ادینبورگ قدردانی نمایم .آنها نکات و بازخوردهای ارزشمندی ابراز داشتهاند که در شکلگیری این کتاب موثر بوده است .داوران و منتقدین ،نکات بسیاری را پیشنهاد نمودند که بســیار موثر بوده اســت .اغلب این داوران ناشــناس بودهاند اما در آن بین میتوانــم از دنیس یونگ ،کریگ هینیک ،جان هوتون ،کای لی و جین ســاپر نام ببرم .همچنین از استیو هاردمن در انتشارات وایلی برای اشتیاق فراوانش و پیشنهادات ویراستاریاش در تمامی مراحل این پروژه تشکر میکنم .همچنین نهایت قدردانی را از همســرم ،لیز ،برای حمایت و تشویقش در تمامی مراحل آمادهسازی این کتاب ابراز میدارم.
فصل 1 مقدمه
25
فصل :1مقدمه
گروههای مختلفی از اقتصاددانان حرفهای در دنیا وجود دارند .اقتصاددانان دانشگاهی که اغلب الگوهای تئوریک مختلفی را برای مقاصد مختلف اقتصادی اجرا و آزمون مینمایند .اقتصاددانانی که در خدمات دولتی شاغل هستند به دنبال تشخیص سیاستهای مناسب یا نامناسب دولت در اقتصاد هستند .اقتصاددانانی که توسط بانک مرکزی استخدام میشوند اغلب متمرکز به موضوعات مرتبط به سیاســتهای پولی هستند و در بخش خصوصی ،اقتصاددانان اغلب مولفههای موثر بر سود بنگاه را مورد مطالعه قرار میدهند. برای همه این اقتصاددانــان توانایی کار با دادههای اقتصادی مهارت مهمی بهشــمار میآید .برای انتخاب بین تئوریهــای رقیب ،برای پیشبینی اثر تغییر سیاســتها ،یا پیشبینی اتفاقاتی که در آینده رخ خواهد داد ،الزم است که بر واقعیتهایی تکیه کرد .خوشــبختانه در دانش اقتصاد ،ذخیره بزرگی از وقایع به شــکل داده وجود دارد که ما میتوانیم بــا روشهای مختلفی آنها را مورد تحلیل و تحلیل قرار دهیم و بر این اســاس بسیاری از موضوعات اقتصادی را روشن نماییم. هدف اصلی این کتاب ارائه مبانی الزم برای تحلیل دادهها با روشــی ساده، بدون نیاز به ریاضی ،با اســتفاده از نمودارها و توضیحات کالمی است .بیشتر
تحلیل دادههای اقتصادی
26
تمرکز بر روشهایی اســت که در عمل اقتصاددانان از آن اســتفاده میکنند و همچنین بر مهارتهای رایانهای دانشجویان تاکید شده است بهنحوی که بتوانند از آموختههای این کتاب در مسیر شغلی خود بهرهبرداری نمایند. برای توضیح بیشتر پیرامون اینکه این کتاب چه کاری انجام میدهد ،شاید بهتر باشــد بحث را با این موضوع شــروع کنیم که این کتاب چه کاری انجام نمیدهــد .مطالعات مربوط بــه ابزارهای کمی در تحلیــل دادههای اقتصادی، اقتصادســنجی نامیده میشود .محتوای دانش اقتصادسنجی بر پایه احتماالت و آمار بنا شــده است و این دانش را میتوان تا حدودی در حوزه ریاضیات قرار داد .این کتاب قصد ندارد تا به شما تئوریهای احتماالت و آمار را یاد بدهد و بهطور کل مفاهیم ریاضی زیادی در کتاب وجود ندارد .بههمین دالیل ،شکافی واضح بین این کتاب و کتابهای سنتی اقتصادسنجی وجود دارد .با این وجود سعی میکند تا عموم ابزارهای کاربردی را که امروزه توسط اقتصادسنجان مورد استفاده قرار میگیرد را به دانشجویان آموزش دهد. کتابهای آموزشی که بدون پرداختن به نحوه کارکرد الگو تنها به نحوه استفاده از دکمههای رایانه میپردازند بهطور عام به «کتابهای آشــپزی» 1معروف شدهاند. کتابی که در دست شماست ،یک کتاب آشپزی نیست .اما شاید برخی اقتصادسنجان این سوال را مطرح نمایند که« :چطور ممکن است یک کتاب به دانشجویان نحوه استفاده از ابزارهای اقتصادسنجی را یاد بدهد ،بدون آنکه از مبانی احتماالت و آمار استفاده نماید؟» پاسخ من این خواهد بود بسیاری از کارهایی که اقتصادسنجان انجام میدهند را میتوان بهصورت شهودی درک نمود ،بدون آنکه نیازی به تئوریهای آمار و احتماالت باشــد .در محتوای این کتاب ،بسیاری از ابزارهای مورد استفاده اقتصادسنجان بر اساس مفهوم همبســتگی توضیح داده میشود بهگونهای که اگر دانشجویی مفهوم همبستگی و رگرســیون را بهدرستی درک نماید ،آنگاه خواهد توانســت اغلب روشهای مورد استفاده در اقتصادسنجی را درک نماید .در اغلب 1- Cookbooks
27
فصل :1مقدمه
حالتها ،بیشــتر اطالعات در یک مجموعه از دادهها به وســیله رگرسیون آشکار میگردد .از سوی دیگر ،همبستگی و رگرسیون مفاهیم سادهای هستند که آنها را میتوان با نمودار و بهصورت گفتاری انتقال داد .درک این مفاهیم موجب شکلگیری زیربنایی میشــود که میتوان بر اساس آن مفاهیم پیچیدهتر برای تحلیل دادهها را آموزش داد .این کتاب پیرامون تحلیل دادههای اقتصادی نگاشــته شده است و واضح است که این کتاب ارتباطی به جمعآوری دادههای اقتصادی ندارد .بهجز برخی اســتثنائات ،در این کتاب دادهها به همان شکلی که هست مورد استفاده قرار میگیرد و ما توضیحی در مورد نحوه جمعآوری یا ســاختاربندی دادهها نخواهیم داد .برای مثال ،در اینجا شرح نمیدهیم که حسابهای ملی چگونه ســاخته میشود یا پرسشــنامه کارگران چگونه طراحی میگردد .این کتاب به خوانندگانش آموزش میدهد که نسبت به دادههایی که از قبل گردآوری شده، درکی داشته باشند. بهطور معمول در معرفی تئوری آماری ،حالتی کلی در نظر گرفته میشــود و بعــد مباحثی مطرح میشــود که طی آن ارتباط تئــوری با یک مثال خاص توضیح داده میشــود .کتاب حاضر تالش مینمایــد تا بهطور کامل بر عکس عمل نماید به این نحو که ســعی میکند تا یــک مفهوم عمومی را با مثالهای خاص بهدست آورد .حتی در برخی موارد ،مفهوم آماری اصال بهصورت رسمی تعریف نمیشــود .برای مثال P-valueو فاصله اطمینان از جمله مفاهیم مهم آماری هســتند که در مبحث رگرسیون (فصل )5مورد استفاده قرار میگیرند. در آن فصل با استفاده از نمودارها و مثالهای مختلف کارکرد این مفاهیم را در عمل بیان میشود .اما هیچ تعریف کالسیکی از P-valueیا فاصله اطمینان ارائه نمیگــردد ،چراکه برای بیان آنها به مقدمــات احتماالت و تئوریهای آماری نیاز خواهد بود که در عمل کاربردی از این تکنیکها وجود نخواهد داشــت. خوانندگان مایل به یادگیری تئوریهای آماری میتوانند به کتابهای فراوانی که
تحلیل دادههای اقتصادی
28
در دسترس قرار دارند مراجعه نمایند ،برای مثال وناکوت و وناکوت)1990( 1 از جملــه این کتابها اســت .برای آنهایی که میخواهنــد نحوه بهکارگیری تئوریهای آماری در مدلسازی اقتصادسنجی را درک کنند ،کتاب هیل ،گرِفیتز و جاج )1997( 2مناسب خواهد بود. این کتاب ،انعکاس عقیده شخصی من است که استفاده از مثالهای مناسب، بهتریــن روش برای آموزش تحلیل دادهها میباشــد .از ایــنرو در هر فصل مثالهای متعددی برای درک بهتر مفاهیم اصلی وجود خواهد داشــت .یکی از ریسکهای پیروی از چنین روشی این است که ممکن است برخی دانشجویان تصور نمایند برای تخصص یافتن در زمینه این کتاب باید تعداد بیشماری مثا ل را برای تعداد زیادی مفهوم یاد بگیرند .این تفکر درســت نیست .در قلب این کتاب تنها تعداد معدودی مفهوم اصلی وجود دارد .این مفاهیم مرتب در مسائل مختلف و با دادههای گوناگون تکرار میشود .به بیان دیگر ،بهترین روش برای آموزش اقتصادسنجی مقدماتی ،نشان دادن کارکرد مفاهیم خاص در زمینههای مختلف و تکرار این اقدام است.
سازماندهی کتاب
در سازماندهی کتاب ،کوشش نمودم تا به فلسفه کلی ذکرشده در باال ،پایبند باشم. هر فصلی یک موضوع را پوشش میدهد و البته بیشتر حجم یک فصل به مثالهای تجربی اختصاص یافته است که بر اساس آنها برخی مفاهیم مهم بازنمایی یا معرفی میشــوند .سپس با تمرینهایی کوشش میشــود تا توضیحات بیشتری پیرامون آن مفاهیم داده شــود .دادههای مورد استفاده در مثالها و تمرینهای این کتاب را میتوانید از طریق سایت پشتیبان بیابید 3.با بهکارگیری دادههای واقعی امیدواریم تا دانشجویان تنها به تکرار مثالها نپردازند بلکه توانایی الزم در تعمیم یافتههای خود 2- Hill, Griffiths and Judge
1- Wonnacott & Wonnacott
-3خوانندگان ميتوانند اين دادهها را از طريق وبالگ و يا كانال دريافت نمايند:
https://t.me/ecdata@ecdata
29
فصل :1مقدمه
به مسائل دیگر را داشته باشند .چنانچه از دانشجویان انتظار داشته باشیم که نسبت به مفاهیم و تکنیکهای ارائهشده در این کتاب تسلط داشته باشند ،مواجهه با دادههای دنیای واقعی یک ضرورت خواهد بود. مثالهای تجربی کتاب عموما با اکســل قابل اجرا خواهند بود اما برخی از مثالهای پیشــرفته با بســته نرمافزاری Stataاجرا شده است .سایت پشتیبان این کتاب شــامل فایلهای اکسل میباشد .اکســل نرمافزاری ساده و عمومی اســت که هم مورد توجه دانشجویان است و هم در مشاغل حرفهای بازار کار از آن بهصورت گســترده استفاده میشود .از سوی دیگر دانشجویان میتوانند دادههای فایل اکسل را در انواع بستههای نرمافزاری اقتصادسنجی نظیر Stata و Eviewsوارد نمایند .این بســتههای نرمافزاری از قابلیت شناسایی فایلهای اکسل برخوردارند .پیوســت دوم کتاب جزئیات بیشتری را در مورد دادههای کتاب در اختیار شما قرار میدهد. در ایــن کتاب ،محتــوای ریاضیاتی در حداقل خود قــرار دارد .در برخی حاالت ،آگاهی اندکــی از موضوعات ریاضی موجب درک بســیار زیادتری میشود .برای دانشجویان آشنا به ریاضی ،پیوستهایی در پایان هر فصل قرار داده شــده است .با این حال دانشجویان میتوانند این پیوستها را کال نادیده بگیرند و مطمئن باشــند که چیزی را در مورد درک مفاهیم پایهای از دســت نخواهند داد. محتوای این کتاب به دو بخش کلی تقســیم میشــود .فصلهای 1تا 8به موضوعاتی نظیر نمودارها ،همبستگی و رگرسیون میپردازد .در یک دوره کوتاه آموزشــی میتوان این هشت فصل را پوشش داد .فصل 9تا 13به موضوعات ســریزمانی و تحلیل برخی از پیچیدهترین الگوهای اقتصادسنجی اختصاص یافته است که امروزه کاربرد فراوانی دارد .اما برای درک این فصول دانشجویان میباید مفاهیم مرتبط به رگرســیون را در فصلهای قبلی بهدرســتی یاد گرفته باشند .در هر صورت ،دانشجویان درخواهند یافت که فصول پایانی از فصلهای 1تا 8به مراتب دشوارتر است.
پیشینه مورد نیاز
تحلیل دادههای اقتصادی
30
همانطور که پیش از این اشاره شد ،این کتاب به پیشینه ریاضی اندکی از دوره دبیرستان نیاز دارد .از جمله مواردی که بهصورت ویژه مورد نیاز است: درک یک معادله ساده ،برای مثال ،معادله یک خط صاف که بارها در اینکتاب مورد استفاده قرار گرفته است. دانش رســم نمودارهای ســاده ،بــرای مثال ،این کتاب پر اســت ازنمودارهایــی که یک متغیر را در مقابل متغیری دیگر نمایش میدهد (همان نمودار ساده .)XY آشنایی با عملگرهای جمع. لگاریتم و توابع نمایی ،در برخی حالتهای معدود.برای خوانندگانی که با موارد فوق آشنا نیستند ،پیوست این فصل مقدماتی را فراهم نموده است .غیر از این ،موضوعات فوق در همه جا ،و بهطور اخص در کتابهای مقدماتی ریاضی تشریح میشود. قسمتهای زیادی از این کتاب به رایانه اختصاص دارد .محتوای مورد نیاز در متن کتاب توضیح داده شده است .بستههای نرمافزاری متعددی وجود دارد که میتوانند روشهای مورد استفاده در این کتاب را اجرا نمایند. در جایی که بهصورت مســتقیم صحبت از برنامههای رایانهای میشــود، بهصورت کامل به زبان اکســل پرداخته خواهد شد .دلیل تاکید زیاد کتاب بر روی اکسل این اســت که عموم دانشجویان مایل هستند تا به جای آشنایی با بستههای نرمافزاری اقتصادســنجی نظیر Eviews، Microfitو Stataبا اکسل بهصورت کامل آشنا شوند .البته من فرض میکنم که دانشجویان با مبانی اکسل (و یا بسته نرمافزاری مورد استفاده) آشنایی دارند .به بیان دیگر دانشجویان باید با مبانی گشودن دادهها ،انتقال دادهها و نظایر اینها آشنا باشند .اگر دانشجویان با این موضوعات ناآشــنا هســتند میباید به مطالب برخط این نرمافزارها در اینترنت مراجعه نمایند.
پیوست :1-1مفاهیم ریاضی مورد استفاده در این کتاب
در این کتاب از ریاضیات اندکی اســتفاده میشــود .برای اغلب دانشجویان، آموزشهای قبلی در دوران دبیرستان پیشینه مناسب جهت مطالعه این کتاب را فراهم نموده است .با اینحال در ادامه مفاهیمی که کاربرد زیادی در این کتاب دارند را بهصورت مختصر شرح خواهیم داد.
معادله یک خط صاف
)Y=f(X
این نوشــتار به این شکل خوانده میشــود که « Yتابعی از »Xاست و Xاســت .توابع این ایده را نمایان مینماید که ارزش Y وابســته به ارزش بسیاری برای اســتفاده وجود دارد ،اما در این کتاب معموال از توابع خطی استفاده میشود.
31
فصل :1مقدمه
اقتصاددانان عموما مایل هستند تا رابطه بین دو (یا چند) متغیر را مورد بررسی قرار دهند .مثالهایی از این متغیرها عبارتاست از قیمت خانه ،تولید ناخالص داخلی ( ،)GDPنرخ بهــره و نظایر اینها .در مطالب کتاب ،یک متغیر چیزی است که هم اقتصاددانان مایل به بررسی آن هستند و هم امکان گردآوری داده برای آن وجود دارد .من از حروف بزرگ (برای مثال Xو )Yبرای نشان دادن متغیرها اســتفاده میکنم .روش عمومی برای نشــان دادن رابطه بین دو متغیر استفاده از مفهوم تابع است. روش معمول نوشتار یک تابع از متغیر Xبه شکل ) f(Xمیباشد .حال برای مثال ،اقتصاددانی مایل اســت تا دالیلی که یک خانه ارزش بیشــتری نسبت به خانه دیگر دارد را بیابد .او شــاید فکر کند که قیمت خانه وابســته به اندازه آن خانه است .به بیان ریاضی ،اقتصاددان متغیر «قیمت خانه» را با Y و متغیر «اندازه خانه» را با Xمشخص مینماید .بر اساس این واقعیت که Yوابسته به Xاست در نوشتن از روش زیر استفاده میشود:
با این وجود معموال از نوشــتار معمول ) f(Xدر این کتاب استفاده نخواهد شــد .معادله یک خط مستقیم (یک تابع خطی) در این کتاب استفاده میشود. هر خط صافی میتواند به شکل معادله زیر نوشته شود: Y = α + βX
تحلیل دادههای اقتصادی
32
که در آن αو βضرایبی هستند که خط را معین میکنند .حال برای مثال اگر α =1و β =2باشــد ،یک خط خاص مشخص میشود و اگر مثال اگر α =4و β = −5باشد ،خط متفاوتی مشخص خواهد شد .احتماال برای شما ســادهتر خواهد بود تا معادله یک خط صاف را از طریق نمودار یاد بگیرید (و شاید ارزشمند باشد که این کار را در همین مرحله انجام دهید) .در بیان نمودار XY (که محور عمودی Yرا اندازه میگیرد و محور افقی به اندازه Xاختصاص دارد) هر خطی با عرض از مبدا و شیب آن قابل تعریف است .در بیان معادله خط صاف α ،همان عرض از مبدا و βشیب خط است .عرض از مبدا ،مقدار Yرا قطع Yاست در حالتی که X=0باشد (یعنی همان نقطهای که خط محور Yتغییر خواهد مینماید) .شــیب خط ،معیار اندازهگیری این است که چقدر کرد اگر X تغییر نماید .به بیان مرســوم ،شیب خط نشاندهنده مقدار تغییر Y Xاست .برای دانشجویان دارای پیشینه ریاضی ،شیب ناشی از یک واحد تغییر dY همان مشتق مرتبه اول ) ( است. dX
نشانهگذاری عملیات جمع
در موضوعات مختلفی از کتاب ،نشانههای زیر متغیر برای تشخیص مشاهدات گوناگون مورد استفاده قرار گرفتهاند .برای مثال یک اقتصاددان بازار کار ،مایل اســت تا دســتمزد هر یک از کارگران صنعتی که در آن 100کارگر مشغول Yبرای نشان دادن هســتند را به تفکیک داشته باشد .اگر اقتصاددان از عالمت متغیر دستمزد اســتفاده نماید ،آنگاه او مقدار Yرا برای کارگر اول و مقدار Y را برای کارگر دوم و الی آخر خواهد داشت .نوشتار فشرده برای این موضوع به کمک نشانه زیر متغیر اینگونه خواهد بود که Y1همان دستمزد کارگر اول
اســت Y2 ،دستمزد کارگر دوم اســت و الخ .در برخی حاالت کافی است که به زبان ریاضی ســخن بگوییم و بهطور عمومی هر فرد را شخص iام بدانیم. آنگاه میتوانیم بنویسیم Yiبرای i=1,…,100نشاندهنده مجموعه دستمزدها برای افراد است. با معرفی این شــیوه نوشتار ،عملگرهای جمع را میتوان شرح داد .در بسیاری از حاالت ،قصد داریم تا مشــاهدات را جمع (برای مثال برای بهدست آوردن میانگین باید همه مشــاهدات را جمع نموده و بعد تقسیم بر تعداد مشاهدات کنید) .عالمت یونانی ∑ برای نشان دادن عملیات جمع است .زیرنوشتهای این عالمت بیانگر مشــاهداتی است که باید در عملیات جمع از آنها استفاده نمود .برای مثال: Y1 + Y2 + … + Y100
100
=∑Y i
i =1
3
عملیات جمع برای دستمزد افراد اول تا سوم صورت میگیرد.
∑Y
i
i =1 48
∑Y
i
و در مثال باال ،دستمزد فرد 47ام با فرد 48ام جمع شده است. گاهی اوقــات ،از آنجاکه موضوع در متن واضح اســت (عموما وقتی که قرار است همه مشــاهدات با هم جمع شوند) ،زیرنوشتها را کنار گذاشته و بهصورت ساده به این شکل مینویسیم:
لگاریتم
i = 47
∑ Yi
بــه دالیل مختلفی (کــه در ادامه توضیح داده خواهد شــد) در برخی حاالت، پژوهشگر بهصورت مستقیم با یک متغیر کار نمیکند بلکه از حالت تبدیل یافته آن استفاده مینماید .بسیاری از این تبدیلها را در آینده خواهید دید .برای مثال،
33
فصل :1مقدمه
عملیات جمع برای مشاهدات 1تا 100انجام میشود .یا در مثالی دیگر:
در مقایسه درآمد بین کشــورها از GDPسرانه استفاده میشود .در این حالت متغیر GDPبه متغیر GDPتقسیم بر جمعیت کشور ،تبدیل شده است. Bبرای یکی از تبدیلهای ویژه و عمومی لگاریتم اســت .لگاریتم بر مبنای عدد A عبارت است از توانی که Bرا به Aمیرساند .شیوه نوشتار این عبارت اینگونه است: ) logB ( A
حال برای مثال اگر A=100و B=10باشــد آنگاه لگاریتم برابر با 2خواهد بود و مینویسیم: log10 (100 ) = 2
تحلیل دادههای اقتصادی
34
مقدار باال بر این اساس بهدست آمده است که 102 = 100است .در دانش اقتصاد مرسوم اســت که از لگاریتم طبیعی استفاده شود که در آن B=eاست. مقدار e بهصورت تقریبی برابر با 2/71828است .در اینجا توضیح نمیدهیم که eاز کجا آمده است و چرا از این لگاریتم غیرعادی استفاده میشود .لگاریتم طبیعی با شیوه نوشتار زیر مشخص میشود: ) ln ( A ) = loge ( A
در این کتاب الزم نیســت که مطالب پاراگراف قبلی را بهطور عمیق بدانید. اما بهخاطر داشته باشــید که لگاریتم طبیعی یک عملگر مرسوم (به دالیلی که بعدها ذکر میشود) است و آن را بهصورت ) ln(Aمینویسند .در عمل میتوانید مقدار آن را با یک ماشین حساب یا با رایانه بهدست آورید.
منابع
مقدمه:1 فصل
Hill, C., Griffiths, W. and Judge, G. (1997) Undergraduate Econometrics, John Wiley and Sons, Chichester. Wonnacott, T. and Wonnacott R. (1990) Introductory Statistics for Business and Economics, Fourth edition. John Wiley and Sons, Chichester.
35
فصل 2 مبانی کار با دادهها
انواع دادههای اقتصادی
این بخش انواع معمول دادهها و واژهشناســی 1مرتبط با اســتفاده هر یک را معرفی میکند. 1- Terminology
37
فصل :2مبانی کار با دادهها
در این فصل مبانی کار با دادههای اقتصادی معرفی میشود .موضوعات این فصل بر 4موضوع مهم تمرکز دارند: نوع دادههایی که اقتصاددانان استفاده مینمایند؛ بحثی مختصر پیرامون منابعی که اقتصاددانان دادههای مورد استفاده خود را ازآنها گردآوری مینمایند؛ هرچند این کتاب در مورد جمعآوری دادهها نیست اما به نکاتی مختصر و مفید در مورد چگونگی جستجوی دادهها اشاره خواهد شد. انــواع نمودارهایی که اغلب اوقات بــرای ارائه اطالعات موجود در یکمجموعه داده استفاده میشوند؛ بحثی در مورد مقیاسهای ساده عددی ،یا همان آمار توصیفی که معموالبرای تلخیص و سادهسازی ویژگیهای مهم یک مجموعه داده ارائه میشوند.
دادههای رسیزمانی
1
تحلیل دادههای اقتصادی
38
دادههــای اقتصاد کالن پدیدههایی مانند تولید ناخالــص داخلی واقعی (یا همان ،)GDPنرخهــای بهره ،عرضه پول و نظایر اینهــا را اندازه میگیرند .این دادهها برای یک دوره زمانی مشــخص ،مثال ساالنه ،جمعآوری شدهاند .در سوی دیگر، دادههای مالی پدیدههایی مانند تغییر در قیمت سهام را اندازه میگیرند .در مقایسه دادههای قبلی ،این دادهها برای دورههای زمانی کوتاهتری جمعآوری میشوند مثال با تواتر زمانی روزانه یا حتی هر یک ساعت یکبار .در تمام این مثالها ،دادهها بر حسب زمان مرتب شدهاند و همگی به نام دادههای سریزمانی خوانده میشوند. پدیده اصلی که میخواهیم آن را اندازهگیری کنیم (مثال GDPیا نرخ دستمزدها یا نرخهای بهره یا نظایر اینها) متغیر نامیده میشود .دادههای سریزمانی را میتوان در تواترهای متفاوتی مشــاهده کرد و اندازه گرفت .تواترهای معمول عبارتند از: ساالنه (یعنی متغیر ،سالی یک بار مشاهده و اندازهگیری میشود) ،فصلی (چهار با در سال) ،ماهانه ،هفتگی و روزانه .در این کتاب ،از نماد Ytبرای اشاره به مشاهده GDP( Yواقعی) در زمان tاستفاده میشود .یک مجموعه داده مربوط به متغیر از دوره t = 1تا t = Tرا شــامل میشــود .از نماد T برای اشاره به کل تعداد دورههای زمانی موجود در یک مجموعه داده استفاده میشود .مثال اگر بخواهیم از دادههای مربوط به GDPواقعی دوران پس از جنگ جهانی از سال 1946تا - 1998دوره زمانی شــامل 53سال -استفاده کنیم ،آنگاه t = 1اشاره به سال 1946دارد و t = 53مربوط به ســال 1998اســت و T = 53نیز تعداد کل ســالها اســت .از این رو Y1معادل GDPواقعی در سال Y2 ،1946معادل GDPواقعی در ســال 1947اســت و بههمین ترتیب تا Y53که GDPواقعی در ســال 1998است .دادههای ســریزمانی معموال بهترتیب زمان وقوع ارائه میشوند .کار کردن با دادههای سریزمانی اغلب نیاز به استفاده از ابزار ویژهای دارد که در فصلهای 9تا 12مورد بررسی قرار خواهد گرفت. 1- Time series data
دادههای مقطعی
1
تفاوت بین دادههای کیفی و کمی
دادههای مورد استفاده توسط اقتصاددانان خرد در مورد میزان فروش ،شامل یک عدد اســت که متناظر با هر بنگاه مشاهده شده است (مثال فروش شرکت اول برابر 20000پوند بود) .این نوع داده را داده کمی مینامند. 1- Cross-sectional data
39
فصل :2مبانی کار با دادهها
برخالف بخش قبل ،اقتصاددانان حوزه اقتصــاد خرد و اقتصاد بازار کار ،اغلب با دادههایی ســر و کار دارند که بهصورت واحدهای تک و جدا مشــخص شدهاند. این واحدها ممکن اســت به افراد ،شرکتها یا کشورها اشاره داشته باشند .مثالی معمول در این مورد ،دادههای مربوط به افراد مختلف درون یک گروه است مانند دستمزد تمام کارکنان فالن شرکت یا صنعت .در مورد دادههای مقطعی ،بر خالف دادههای ســریزمانی ،ترتیب دادهها معموال اهمیت ندارد .در این کتاب ،ما از نماد Yiبرای اشاره به مشاهده مربوط به متغیر Y برای فرد iاستفاده میکنیم .مشاهدهها Nرا شامل میشود .بهشکل قراردادی، در یک مجموعه داده مقطعی ،از فرد i = 1تا Nنشــاندهنده تعداد کل واحدها یا مقطعها است (مثال تعداد افراد بررسیشده). مثال یک اقتصاددان بازار کار ممکن است بخواهد N=1000نفر نیروی کار شاغل در صنعت فوالد را بررســی کند و از هر یک از افراد ســواالتی نظیر اینکه چقدر درآمد دارند یا آیا در اتحادیهای عضو هســتند ،بپرسد .در این مورد Y1 ،مساوی با دستمزد (یا عضویت در اتحادیه) گزارششده توسط کارگر اول است Y2 ،دستمزد (یا عضویت در اتحادیه) گزارششده توسط کارگر دوم است و بههمین ترتیب تا آخر .بهطور مشابه ،یک اقتصاددان خرد ممکن است از N=100نماینده شرکتهای تولیدی در مورد آمار و ارقام سود شرکتشان در ماه گذشته سوال کند .در این مورد، Y1نشاندهنده سود گزارششده توسط شرکت اول Y2 ،سود گزارششده توسط شرکت دوم و Y100سود گزارششده توسط شرکت صدم است.
تحلیل دادههای اقتصادی
اقتصاددانان بازار کار ،که از هر کارگر پرسیده بود آیا عضو یک اتحادیه کارگری هست یا خیر ،پاســخ بله یا خیر دریافت میکند .به این نوع داده ،داده کیفی گفته میشود .دادههای کیفی در اقتصاد اغلب مربوط به انتخاب یا تصمیمهای افراد هستند (مثال تصمیم در مورد خریدن یا نخریدن یک محصول ،استفاده از حملونقل عمومی یا ماشین شخصی ،عضو شدن یا عضو نشدن در یک باشگاه). در بیشتر موارد ،اقتصاددانان این پاسخهای کیفی را به دادههای عددی تبدیل میکنند .مثال اقتصاددان بازار کار ممکن اســت پاســخ بله را مساوی 1و نه را مساوی 0در نظر بگیرد .با این حساب Y1=1 ،به این معناست که اولین کارگر بررسیشده عضو یک اتحادیه کارگری است Y2 = 0 ،یعنی کارگر دوم عضو هیچ اتحادیهای نیســت .زمانیکه متغیرها فقط مقادیر 0یا 1اختیار کنند ،آنها را متغیرهای مجازی( 1یا دودویــی )2مینامیم .کار کردن با چنین متغیرهایی با جزییات در فصل 7و 8مورد بررسی قرار میگیرد. 40
َپ ِنل دیتا 3یا دادههای پنلی
برخی مجموعه دادهها ،همزمان از هر دو ویژگی ســریهای زمانی و دادههای مقطعــی برخوردارنــد .ایــن مجموعه دادههــا را معموال پنل دیتــا مینامند. اقتصاددانانی که روی موضوع رشــد اقتصادی کار میکنــد اغلب از دادههای پنل استفاده میکنند .مثال GDPبسیاری از کشورها از سال 1950تا زمان حال موجود است .یک مجموعه داده پنل از Y=GDP برای 12کشور اروپایی ممکن است شامل مقدار GDPبرای هر کشور در سال N=12( 1950مشاهده) ،مقدار GDPبرای هر کشور در سال N=12 ( 1951مشاهده دیگر) و بههمین ترتیب تا 1- Dummy 2- Binary 3- Panel data:
مترجمان واژه مناســبی که مفهوم پنل دیتا را به فارسی سره بیان کند نیافتهاند .البته برخی جایگزینها وجــود دارند مانند دادههای تابلویی یا دادههای مخلوط یــا دادههای تلفیقی که هر یک به دلیلی -که از حوصله این پانویس خارج است -مناسب بهنظر نمیرسند .بنابراین مترجمان ترجیح دادند از همان واژه اصلی در زبان انگلیسی ،البته با تلفظ فارسی ،استفاده کنند.
آخر باشد .در طول دوره زمانی شامل Tسال ،تعداد T × Nمشاهده برای متغیر Yوجود خواهد داشــت .در مقابل ،اقتصاددانان بازار کار اغلب با مجموعه پنل دیتاهای بزرگی سر و کار دارند که با پرسیدن سوالهایی از افراد ایجاد میشود؛ ســوالهایی مانند اینکه در طی سالهای گذشته ،درآمد ساالنه ایشان برای هر سال چقدر بوده است. ما از نماد Yitبرای اشــاره به یک مشاهده از متغیر Yبرای واحد iدر زمان tاســتفاده میکنیم .در مثال رشد اقتصادی Y11 ،نشاندهنده مقدار GDPکشور 1و ســال Y12 ،1نشاندهنده GDPکشــور 1در سال 2و ب ه همین ترتیب تا آخر اســت .در مثال بازار کار Y11 ،نشاندهنده دستمزد فرد اول در سال اول، Y12نشاندهنده دستمزد فرد اول در سال دوم و ب ه همین ترتیب تا آخر است.
در این کتاب ،فرض اساســی ما این اســت که دادههای مورد نظرمان ،مثال ،Y بهطور مستقیم در دسترس است .بههر حال ،در عمل ممکن است گاهی مجبور شوید دادههای خام را از منبعی دریافت کنید ،و سپس آنها را برای استفاده در تحلیل تجربی خود به شکل متفاوتی تغییر دهید .مثال ممکن است شما دادههای خام سریزمانی دو متغیر ( Wمخارج مصرفی کل) و ( Xمخارج غذا) را دریافت کنید و متغیر جدید Yرا بسازید که نشاندهنده نسبت هزینه اختصاص داده شده به غذا است .در این مثال متغیر Yاز طریق تبدیل Y = X / Wایجاد شده است. تبدیل دادهها ،وابسته به نیاز اقتصاددان است و در هر مورد به مسالهای که وی با آن سر و کار دارد بســتگی دارد؛ بنابراین نمیتوان راهحلی عمومی برای آن پیشــنهاد کرد .برخی موارد خاص در بخشهای بعدی بررسی شدهاند .در این بخش یک تبدیل پرکاربرد در دادههای سریزمانی معرفی میشود. برای شــروع تبدیل ،فرض کنید دادههای ســاالنه GDPواقعی برای دوره ( 1950-1998یعنی دادههای 49سال) را در اختیار داریم که با Ytبرایt = 1 تا 49مشــخص شدهاند .این سریزمانی ممکن اســت در بسیاری از کارهای
41
فصل :2مبانی کار با دادهها
تبدیل دادهها :سطوح در مقابل نرخهای رشد
تجربی بهکار رود .سریهای زمانی مانند این را سطح GDPواقعی مینامیم .با وجود این ،اغلب افراد عالقهمند به دانستن چگونگی رشد اقتصاد در طی زمان یا همان رشد GDPواقعی هستند .یک راه آسان برای اندازهگیری رشد ،محاسبه درصد تغییر سری GDPواقعی در هر سال است .درصد تغییر GDPواقعی بین دوره tو t + 1با استفاده از فرمول زیر محاسبه میشود [:]2
( Yt +1 − Yt ) × 100 Yt
تحلیل دادههای اقتصادی
42
%تغییر % =
همانطور که پیشتر نیز توضیح داده شد ،گاهی مناسب است که از متغیرها لگاریتم طبیعی یا lnبگیریم .تعریف و ویژگیهای لگاریتمها را تقریبا میتوان در هر کتاب ریاضیات مقدماتی پیدا کرد .با استفاده از ویژگیها لگاریتم نیز میتوان درصد تغییرات یک متغیر مثل Ytرا حساب کرد که فرمول آن عبارت است از 100 × ln ( Yt ) − ln ( Yt −1 ) برای محاســبه رشد یک متغیر در عمل بیشتر از فرمول اخیر اســتفاده میشود .این فرمول با مفاهیم موجود در سریزمانیهای نامانا ارتباط دارد (فصلهای 9و 10را ببینید). درصد تغییر در GDPواقعی را معموال رشد GDPیا تغییر GDPمینامند. جزییات بیشــتر در مورد دادههای ســریزمانی در فصلهای 12-9ارائه شده اســت .در اینجا همینقدر کافی است که بدانیم گاهی اوقات بین سطح متغیر و نرخ رشــد آن تمایز قائل میشویم و معمول است که سطح دادهها را به نرخ رشد آنها تبدیل کنیم.
اعداد شاخص
بسیاری از متغیرهایی که اقتصاددانان با آنها کار میکنند بهشکل اعداد شاخص هستند .پیوست 1-2در انتهای این بخش ،جزییات بیشتری در مورد این اعداد و چگونگی محاســبه آنها ارائه میدهد .بههر حال ،اگر شــما فقط بخواهید از اعداد شــاخص در کار تجربی خود اســتفاده کنید ،دانشــی عمیق در مورد
43
فصل :2مبانی کار با دادهها
چگونگی محاسبه شاخصها ضروری نخواهد بود .تنها کافی است بدانید اعداد شاخص چگونه تفسیر میشــوند .بر این مبنا ،در ادامه فصل بحثی مختصر در مورد اعداد شاخص ارائه میشود. فرض کنید شما متمایل به مطالعه نرخ تورم یک کشور هستید که بر اساس چگونگــی تغییر قیمتها طی زمان اندازهگیری میشــود .ســوالی که به ذهن میرسد این است که چگونه میتوان «قیمتها» را در یک کشور اندازه گرفت. قیمت یک کاالی خاص (مثال شیر ،پرتقال ،برق ،مدلی خاص از یک اتوموبیل، یک جفت کفش و غیره) را میتوان به سرعت اندازه گرفت ،اما در اغلب موارد موضوع عالقه نه یک کاالی خاص ،که سطح قیمتها در کل یک کشور است. مفهوم اخیر معموال بهعنوان قیمت «ســبدی» از کاالها تعریف میشود که یک مصرفکننده نوعی ممکن است بخرد .برای تعیین چگونگی تغییر قیمتها در کل کشــور ،قیمت این ســبد در فواصل زمانی منظم طی زمان مشاهده و ثبت شده است .اما قیمت این سبد معموال بهطور مستقیم توسط نهاد دولتی مسئول جمعآوری این دادهها گزارش نمیشود .بنابراین ،اگر قیمت یک کاالی خاص به شما گفته شود (مثال قیمت هر عدد پرتقال 35پنی است) ،اطالعات مفیدی خواهید داشت اما اگر به شما گفته شود که «قیمت یک سبد کاالی مثال» برابر 10/45پوند اســت ،اطالعات زیادی به شما داده نشده است .برای تفسیر عدد اخیر ،باید بدانید دقیقا چه کاالهایی در سبد وجود داشته است و مقدار هر یک چقدر بوده اســت .با وجود میلیونها کاالیی که در یک اقتصاد مدرن خرید و فروش میشوند ،اطالعات بسیار زیادی مورد نیاز است. در سایه چنین مسائلی است که دادهها اغلب بهشکل شاخص قیمتها ارائه میشوند .شــاخصها به روشهای زیادی محاسبه میشوند ،و صحبت کردن در مورد جزییات نحوه ساخت آنها ممکن است باعث شود از موضوع اصلی این فصل منحرف شویم (برای جزییات بیشتر ضمیمه 1-2را مالحظه کنید). به هر حال ،نکات زیر ارزش آن را دارند که در ابتدا ارائه شوند .اول اینکه، شاخصها تقریبا همواره بهصورت دادههای سریزمانی هستند .دوم اینکه ،یک
تحلیل دادههای اقتصادی
44
دوره زمانی یا سال معموال بهعنوان سال پایه انتخاب میشود و سطح قیمت در سال پایه برابر 100در نظر گرفته میشود (در برخی شاخصها بهجای 100از 1/00اســتفاده میشود) .سوم اینکه ،سطح قیمتها در سایر سالها بهصورت درصد ،و نسبت به سال پایه اندازهگیری میشوند. با یک مثال به توضیح این موضوع میپردازیم .فرض کنید که شاخص قیمتی برای 4سال وجود دارد که بهاین شکل استY3 = 109 ، Y2 = 106 ، Y1 = 100 : و . Y4 = 111این اعداد را میتوان بهشکل زیر تفسیر کرد .سال اول بهعنوان سال پایه در نظر گرفته شده است و بنابراین داریم که . Y1 = 100آمار و ارقام چهار سال دیگر همه نسبت به این سال پایه هستند و بنابراین میتوان بهسادگی محاسبه کرد که قیمتها نسبت به سال پایه چقدر تغییر کردهاند .مثال Y2 = 106 ،به این معناست که قیمتها از 100به 106افزایش یافتهاند 6 :درصد افزایش از سال پایه .همچنین میتوان دید که قیمتها از سال 1تا سال 3به میزان 9درصد افزایش یافتهاند و از سال 1تا سال 4نیز 11درصد بیشتر شدهاند .از آنجاکه درصد تغییرات در قیمتها همان تعریف تورم است ،مرور شاخص قیمتها به افراد این امکان را میدهد که بهســادگی بفهمند که تورم چیست .به عبارت دیگر ،شاخص قیمتها راهی ساده برای بیان ،تفسیر و فهم دادههای قیمتی است. هر شاخص قیمتی ابزاری عالی برای اندازهگیری تغییر در قیمتها طی زمان اســت ،اما نباید برای توضیح سطح قیمتها بهکار رود .مثال ،نباید بهعنوان یک نشــانگر برای «باال» یا «پایین» بودن قیمتها تفسیر شود .یک مثال ساده نشان میدهد که چرا اینگونه است. در هر دو کشور آمریکا و کانادا دادههای قیمت مصرفکننده جمعآوری میشود. فرض کنید که هر دو کشور تصمیم بگیرند که سال 1988را بهعنوان سال پایه برای شــاخصهای قیمتی مربوطه خود در نظر بگیرند .این بدان معناست که شاخص قیمت در ســال 1988برای هر دو کشور مساوی 100است .این به معنای یکسان بودن قیمتها در دو کشور در سال 1988نیست .انتخاب سال 1988بهعنوان سال پایه اختیاری است؛ اگر کانادا به هر دلیلی تصمیم به تغییر سال پایه به سال 1987
1- Dow Jones Industrial Average
45
فصل :2مبانی کار با دادهها
بگیرد ،در آن صورت دیگر شاخصهای دو کشور در سال 1988برابر نخواهد بود. شاخصهای قیمت دو کشور نمیتواند برای بیان جمالتی شبیه این بهکار رود که: «قیمتها در کانادا نسبت به آمریکا باالتر هستند» .اما میتوان از آنها برای محاسبه نرخهای تورم استفاده کرد .این کاربرد به ما امکان میدهد تا جمالتی چنین بیان کنیم: «تورم (همان تغییر قیمتها) در کانادا بیشتر از آمریکا است». بازار دارایی (فاینانس) حوزه دیگری برای اســتفاده از شاخصهای قیمت اســت زیرا اطالعات مربوط به قیمت سهام اغلب به این شکل ارائه میشوند. یعنیِ ، اغلب ابزارهای معمول گزارش فعالیت بازار سهام مانند میانگین صنعتی داو جونز ،1شاخص FTSEو S&P500همگی شاخصهای قیمت هستند. در بحث حاضر ،ما بر شــاخصهای قیمت تمرکز کردهایم و این در واقع تا حد زیادی رایجترین نوع از اعداد شــاخص است .توجه داشته باشد که سایر انواع شاخصها (مثال شــاخصهای مقداری) نیز وجود دارند و باید بهشکلی مشــابه شاخصهای قیمت تفســیر شــوند .یعنی ،از آنها باید بهعنوان مبنای اندازهگیری چگونگی تغییر پدیدهها نسبت به یک سال پایه معلوم ،استفاده کرد. این بحث در مورد اعداد شاخص ،محلی مناسب برای اشاره به تبدیلی دیگر اســت که برای مقابله با اثرات تورم استفاده میشود .بهعنوان مثال ،شایعترین مقیاس اندازهگیری تولیدات یک اقتصاد را در نظر بگیرید :تولید ناخالص داخلی یــا .GDPتولید ناخالص داخلی را میتــوان با جمع زدن ارزش تمام کاالهای تولیدشده در اقتصاد بهدست آورد .ب ه هر حال ،زمانی که تورم باالست ،در نظر گرفتن چگونگی تغییر GDPطی زمان ،بهتنهایی کافی نیســت و ممکن است گمراهکننده باشــد .اگر تورم باال باشد ،قیمت کاالها افزایش خواهد یافت و در نتیجه ارزش آنها طی زمان بیشــتر خواهد شد ،حتی اگر مقدار واقعی کاالهای تولیدشده افزایش نیافته باشد .از آنجا که GDPارزش تمام کاالهای تولیدشده را اندازه میگیرد ،مادامی که تورم باال باشــد ،حتی اگر تولید راکد باشد ،مقدار
تحلیل دادههای اقتصادی
46
آن ( )GDPافزایش خواهد یافت .این موضوع محققان را بر آن داشــته اســت تا در پی تصحیح تاثیرات تورم باشــند .این تصحیح با تقســیم عدد GDPبر شاخص قیمت انجام شده اســت (در مورد ،GDPنامی که بر شاخص قیمت گذاشــته شده است ،شاخص تعدیلکننده 1 GDPاست) و GDPتبدیلشده به این شــیوه را GDPواقعی مینامند .متغیر GDPاصلی (پیش از انجام تصحیح) را GDPاســمی میخوانند .تفاوت میان متغیرهای واقعی و اسمی در بسیاری از موضوعات علم اقتصاد مهم اســت .نکات اصلی که باید بهخاطر بســپارید اینها هستند که هر متغیر واقعی همان متغیر اسمی است که بر یک متغیر قیمتی (معموال یک شاخص قیمت) تقسیم شده است و اینکه آثار تورم از متغیرهای واقعی حذف شده است و در آنها وجود ندارد. زمانیکه بخواهید نرخ رشــد تورم را اصالح کنیــد ،موضوع اندکی متفاوت میشود .در این شرایط ،با تفریق تغییر شاخص قیمت از متغیر اسمی ،متغیر واقعی بهدست میآید .بنابراین ،مثال ،نرخهای بهره واقعی عبارتند از نرخهای بهره اسمی منهای تورم (که تورم بهصورت تغییر در شاخص قیمتها تعریف میشود).
گردآوری دادهها
تمام دادههای مورد نیاز برای درک مفاهیم اساسی و انجام دادن مثالهای تحلیلی موجود در این کتاب را میتوان از وبسایت اختصاصی این کتاب دانلود کرد. اما ممکن است الزم باشد که در آینده اطالعات مورد نیازتان برای نگارش یک مقاله ،پایاننامه یا یک گزارش را شــخصا گردآوری نمایید .دادههای اقتصادی منابع بســیار متنوعی دارند و همین موضوع ،پیشنهاد کردن یک رویه کلی برای جمعآوری داده را دشوار میکند .در ادامه برخی نکات اساسی که باید در مورد دادههای عمومی و محل یافتن آنها بدانید آورده شده است. اغلب دادههای اقتصاد کالن از طریق گزارش حسابهای ملی قابل جمعآوری 1- GDP deflator
2- Computing Skills for Economists 4- Resource for Economists on the Internet
1- World Wide Web 3- Guy Judge
47
فصل :2مبانی کار با دادهها
هستند که در شکل پرینتشده و این اواخر ،بهطور فزایندهای بهشکل دیجیتال در کتابخانههای دانشــگاهی و دولتی موجود هستند .دادههای اقتصاد خرد معموال بهوسیله نظرسنجی از خانوارها ،شاغلین و کارفرمایان در صنایع مختلف جمعآوری شدهاند و در اغلب موارد در منابع یکسانی موجود هستند. در سالها اخیر بین اقتصاددانان باب شده است که اطالعات مورد نیاز خود را از 1 اینترنت بهدست آورند و اکنون تعداد زیادی سایتهای مرتبط در شبکه جهانی وب ( )WWWوجود دارند که میتوان دادهها را از آنها دانلود کرد .باید از این موضوع نیز آگاه باشــید که اینترنت بهسرعت در حال رشد و تغییر است ،پس اطالعات و آدرسهایی که در این کتاب ارائه شدهاند ممکن است بهزودی از رده خارج شوند. بجا است که تاکید کنیم که در این بخش از کتاب تنها به آنچه میتوان از اینترنت بهدست آورد اشاره شده است و البته که این توضیحات جامع و مانع نیست .برای توضیحات بیشتر در مورد اینکه چه دادههایی در اینترنت وجود دارد و چگونه قابل 2 دسترس خواهد بود ،شاید مراجعه به کتاب مهارتهای محاسباتی برای اقتصاددانان نوشته گای جاج 3مفید باشد. پیش از آنکه شــروع به گشتن در اینترنت کنید ،الزم است بدانید که برخی سایتها دسترسی مجانی به کل دادهها را برای کاربر فراهم میکنند در حالیکه برخی سایتها پولی هستند .بسیاری سایتها دادههای مجانی را برای استفاده کاربران غیرتجاری (مثال دانشگاهی) فراهم میکنند ،در چنین سایتهایی ابتدا باید ثبتنام کنید سپس اجازه دسترسی به دادهها به شما داده میشود. 4 یک سایت آمریکایی مفید در این حوزه« ،منابعی در اینترنت برای اقتصاددانان» ( )http://rfe.wustl.edu/EconFAQ.htmlاســت .در این ســایت انواع مختلفی از دادههای جالب توجه در طیف گســتردهای از موضوعــات اقتصادی وجود دارد که جســتجو و کاوش در آنها زمانبر است .همچنین در این سایت پیوندهایی به سایتهای مختلف آماری دیگر وجود دارد .یک سایت دیگر با پیوندهای مفید ،اداره
تحلیل دادههای اقتصادی
48
ملی تحقیقات اقتصادی )http://www.nber.org( 1است .یکی از منابع داده خوب موجود در این سایت ،جدول جهانی پِن )PWT( 2است ،که دادههای اقتصاد کالن بیش از 100کشــور را برای سالهای زیادی در دسترس قرار میدهد .در ادامه این فصل به PWTارجاع خواهیم داشت .در انگلستان( MIMAS ،اطالعات و خدمات مرتبط منچســتر )3مدخلی مفید برای دسترسی به بسیاری از مجموعه دادههاست ( .)http://www.mimas.ac.ukاستفاده از خدمات این سایت در حال حاضر نیازمند طی فرایند ثبتنام است .الزم به ذکر است که دادههای موجود در اینترنت در بیشتر اوقات روی صفحه مانیتور لیست میشوند .البته همیشه میتوان این دادهها را کپی کرد و ســپس در نرمافزار اکســل تایپ کرد .اما کپی کردن این دادهها در یک فایل (با اســتفاده از مســیر ،)File/Save asیا انتخاب کردن 4دادهها ،کپی کردنشان در کلیپبورد 5و سرانجام الصاق کردن 6آنها به اکسل ،به زمان کمتری احتیاج دارد. برای اینکه درکی از انواع مجموعه دادههای موجود در اینترنت داشــته باشید و شمایل ظاهری چنین ســایتهایی را ببینید ،بر یک سایت متداول آمریکایی و انگلیسی تمرکز خواهیم کرد .بسیاری از مجموعه دادههایی که در باال تشریح شدند مجانی هستند .بهعالوه ،بسیاری از کتابخانههای دانشگاهی یا مراکز کامپیوتری آبونه پایگاه دادههای مختلفی هســتند و به دانشجویان اجازه استفاده از آنها را میدهند. پیشنهاد میکنیم که کتابخانه یا مرکز کامپیوتر دانشگاه خودتان را چک کنید تا بفهمید که به کدام یک از مجموعه دادهها دسترســی دارید .در زمینه بازارهای مالی ،تعداد زیادی پایگاه داده عالی در مورد قیمت ســهام و اطالعات حسابداری شرکتهای گوناگون در ســالهای مختلف وجود دارد .متاسفانه ،این نوع دادهها اغلب گران هستند و بنابراین باید ببینید که آیا دانشــگاهتان مشترک این پایگاههای داده مالی هست یا خیر .دو مورد از محبوبترین این پایگاههای داده عبارتند از Datastream متعلــق بــه ) Thomson Financial (http://www.datastream.com/و پژوهش 1- National Bureau of Economic Research 2- Penn World Table 3- Manchester Information & Associated Services 4- Highlight 5- Clipboard 6- Paste
کار با دادهها :روش منوداری
یکی از موضوعات مهم پس از در اختیار گرفتن دادهها ،خالص ه کردن آنهاست. بهطور کلی هیچ فردی که نتایج کار شما را میخواند تمایل ندارد که با انبوهی از دهها ،صدها یا بیشــتر از مشاهدات در سطرها و ستونهای زیاد مواجه شود. در واقع ،کل مفهوم اقتصادســنجی را میتوان تالش برای توســعه روشهای خالصهکردن مجموعه دادهها به شکلی آموزنده دانست .استفاده از نمودارها و جدولها روشی مفید برای ارائه دادههاست .انواع گوناگونی از نمودارها وجود دارند (مثل نمودار میلهای ،نمودار دایرهای و غیره) .روشــی مفید برای افزایش معلومات در مورد ،فراگیری نحوه رســم نمودارها در نرمافزار اکسل است .در این بخش در مورد برخی از نمودارهای پرکاربرد توضیح میدهیم. از آنجا که بیشتر دادههای اقتصادی در قالب سریزمانی یا دادههای مقطعی هستند ،تکنیکهای سادهای برای رسم نمودار چنین دادههایی را معرفی میکنیم. 3- Yale University
2- Robert Shiller
1- Wharton Research Data Service
49
فصل :2مبانی کار با دادهها
خدمات داده وارتون .)/http://wrds.wharton.upenn.edu( 1تعداد محدودی پایگاه داده مالــی رایگان در درگاههای محبوب اینترنتی وجــود دارد مانند یاهو! (http:// .)finance.yahoo.comبانک فدرال رزرو سنت لوییس هم یک پایگاه داده رایگان دارد که شامل انواع گوناگونی از دادههاست ،از جمله برخی سریزمانیهای مالی ( .)/http://research.stlouisfed.org/fred2برخــی از اســاتید دانشــگاهی، مجموعه دادههای مورد استفادهشــان را در سایت شــخصی خود نمایه میکنند که برای مثال میتوان به رابرت شــیلر 2در دانشــگاه یل 3اشاره کرد که در سایت خــود ،پیوندهای زیادی به بســیاری از دادههای مالی جذاب فراهم کرده اســت ( .)http://aida.econ.yale.edu/~shillerاطالعاتی که در باال فهرســت شد ،تکه کوچکی از دریای عظیم اطالعات موجود در اینترنت است .توصیه عمومی من این است که صرف اندکی وقت برای جستجو در اینترنت اغلب اوقات مثمر ثمر است.
منودار رسیهای زمانی
تحلیل دادههای اقتصادی
50
در شــکل 2-1با استفاده از بخش نمودار خطی 1چارت ویزارد اکسل ،نمودار سریزمانی ماهانه دادههای نرخ ارز پوند انگلستان/دالر آمریکا برای بازه زمانی ژانویه 1947تا اکتبر 1996ترســیم شده اســت (این دادهها در فایل اکسل به نام EXRUK.XLSقرار دارند) .چنین نمودارهایی معموال بهعنوان نمودارهای سریزمانی شناخته میشوند. برای رسم این نمودار از 598مشاهده استفاده شده است که بسی بیشتر از آن مقداری است که بتوان بهصورت دادههای خام به خوانندگان عرضه کرد .به هر حال ،هر خوانندهای میتواند با نگاه کردن به این نمودار ،بهآســانی ویژگیهای اصلی دادهها را دریابد .مثال ،خواننده میتواند تالشهای دولت انگلستان برای ثابت نگاه داشــتن نرخ ارز تا انتهای سال ( 1971بهجز کاهش دستوری 2شدید در سپتامبر 1949و نوامبر )1967و کاهش 3تدریجی ارزش پوند در اواسط دهه 70میالدی ب ه دلیل شناور نزولی شدن ارزش پوند را درک کند. نمودار .2-1نمودار سریزمانی نرخ ارز پوند انگلستان/دالر آمریکا
3- Depreciation
2- devaluation
1- Line chart
مترین 2-1
(الف) شکل 1-2را مجدد رسم کنید.
(ب) فایل INCOME.XLSشــامل دادههای لگاریتم طبیعی درآمد شــخصی و مصرف آمریکا از 1954Q1تا 1994Q2اســت .یک نمودار ســریزمانی رسم
کنید که شامل هر دو متغیر باشد( .به یاد داشته باشید که 1954Q1به معنی فصل اول (یعنی ژانویه ،فوریه و مارس) سال 1954است).
(ج) دادههای لگاریتم درآمد شــخصی را به نرخهای رشــد تبدیل کنید .فراموش نکنیــد که درصد تغییر درآمد شــخصی بین دوره t-1و tحدودا برابر اســت با
]) 100 × [In(Yt ) − In(Yt −1و از دادههای موجــود در فایل INCOME.XLSاز پیش لگاریتم گرفته شده است .نمودار سریزمانی که ساختهاید را رسم کنید.
با دادههای سریزمانی ،مالحظه نموداری که شیوه تغییر متغیر را طی زمان نشان دهد ،اغلب آموزنده اســت .اما در مورد دادههای مقطعی ،چنین روشی مناسب نیست و برای خالصه کردن دادهها باید از روشی دیگر استفاده کنیم. فایل اکســل GDPPC.XLSشــامل دادههای مقطعی از متغیر GDPواقعی ســرانه در سال 1992برای 90کشور است که از PWTاستخراج شده است و GDPواقعی سرانه هر کشور با استفاده از نرخهای ارز قدرت خرید یکسان 1یا PPPبه دالر آمریکا تبدیل شدهاند .این به ما اجازه میدهد تا کشورها را بهطور مستقیم مقایسه کنیم. یک راه مناســب و راحت برای تلخیص این دادهها اســتفاده از هیستوگرام است .برای ساختن یک هیســتوگرام ،ابتدا باید فواصل طبقهای 2یا طبقهها 3را بســازید که کشورها را بر حسب GDPسرانهشان به گروههایی تقسیم میکند. در مجموعه دادهها ما GDP ،ســرانه از 408دالر در چــاد تا 17945دالر در 3- Bins
2- Class intervals
1- Power Purchase Parity
51
فصل :2مبانی کار با دادهها
هیستوگرام
تحلیل دادههای اقتصادی
52
آمریکا تغییر میکند .یک مجموعه ممکن از فواصل طبقهای ،یا بهطور خالصه طبقهها ،عبارت است از ،6001-8000 ،4001-6000 ،2001-4000 ،0-2000 14001-16000 ،12001-14000 ،10001-12000 ،8001-10000و 16001 و بیشتر (تمام اعداد به دالر آمریکا هستند). دقت کنید که عرض هر طبقه (بهجز طبقه آخر ،یعنی طبقه 16001دالر و بیشتر) 2000دالر است .ب ه بیان دیگر ،عرض طبقه برای هر یک از طبقات ما 2000است. برای هر طبقه میتوانیم تعداد کشورهایی که GDPسرانهشان در آن فاصله قرار دارد را بشماریم .مثال ،در مجموعه داده ما ،هفت کشور وجود دارند که GDPسرانهشان بین 4001دالر و 6000دالر است .تعداد کشورهایی که در هر طبقه قرار میگیرند را فراوانی 1آن طبقه میگویند (توجه کنید که استفاده از واژه فراوانی در اینجا به معنی «تعداد مشــاهدات موجود در هر طبقه» است که گاهی اوقات با معنی این واژه در تحلیل سریزمانی متفاوت است) .هیستوگرام یک نمودار میلهای است که فراوانیها 2 را در مقابل طبقهها رسم میکند. شــکل 2-2هیستوگرامی از GDPسرانه بین کشوری مجموعه دادههای ما است که از طبقههای توضیح دادهشده در پاراگراف قبلی استفاده میکند .به یاد داشــته باشید که اگر نخواهید خودتان طبقهها را مشخص کنید ،اکسل این کار را بهطور خودکار برایتان انجام میدهد .نرمافزار اکسل همچنین جدول توزیع فراوانی 3میسازد که در باالی هیستوگرام قرار دارد.جدول توزیع فراوانی تعداد کشــورهایی که به هر طبقه (یا گروه) تعلق دارند را مشــخص میکند .اعداد موجود در ستون طبقه ،حد باالی آن طبقه را نشان میدهد. 1- Frequency
-2ترســیم هیستوگرام در اکسل با فرمان هیســتوگرام ( )Tools/Data Analysisانجام میشود .ترسیم هیســتوگرام با قرار دادن طبقات روی محور افقی و فراوانی (یا تعداد مشــاهدات در هر طبقه) روی محور عمودی انجام میشــود .اغلب کتابهای آمار طبقات را در مقابل فراوانی تقســیم بر عرض طبقه در نظر میگیرند .این اســتراتژی برای تصحیح ایرادی که ممکن اســت بهدلیل تفاوت داشتن عرض طبقات در فواصل طبقهای ایجاد شود بهکار میرود .به عبارت دیگر ،اکسل هیستوگرام را بهدرستی محاسبه نمیکند. با یکسان در نظر گرفتن عرض طبقات (یا تقریبا یکسان) این ایراد در عمل مشکل بزرگی ایجاد نمیکند. 3- Frequency table
53
نمودار .2-2هیستوگرام GDPواقعی سرانه سال 1992برای 90کشور
1- labeled
فصل :2مبانی کار با دادهها
مثال میتوانیم ببینیم که 33کشــور با GDPسرانه کمتر از 2000دالر؛ 22 کشــور با GDPسرانه بیشتر از 2000دالر و کمتر از 4000دالر وجود دارند و بههمین ترتیب .ســطر آخر میگوید که در مجموعه دادههای ما ،چهار کشور با GDPسرانه بیشتر از 16000دالر وجود دارند. همین اطالعات در نمودار هیســتوگرام هم ترســیم شدهاند .رسم کردن به خواننده اجازه میدهد که با یک نگاه ،خالصهای از توزیع بین کشــوری GDP سرانه را دریابد. از هیستوگرام میتوانیم بفهمیم که اغلب کشورها بسیار فقیر هستند اما در این بین تودهای از کشورها کامال ثروتمند هستند (یعنی 19کشور که GDPسرانهای بیش از 12000دالر دارند) .تعداد نسبتا اندکی کشور مابین این گروههای فقیر و ثروتمند وجود دارند (تعداد اندکی کشــور در طبقههایی با برچسب،8000 1 10000و 12000قرار دارند).
اقتصاددانان رشــد ،این نوع تجمع کشــورها در گروههای فقیر و ثروتمند را دوقلهای 1مینامند .به بیان دیگر ،اگر هیستوگرام را بهمثابه سلسله کوههایی تصور کنیم ،آنگاه میتوانیم یک قله را در طبقه با برچسب 2000و قلهای کوچکتر را در طبقه 14000ببینیم .تنها با دیدن هیستوگرام میتوان این ویژگی دادهها را بهسادگی درک کرد اما درک همین موضوع ،با نگاه کردن به دادههای خام میسر نیست.
مترین 2-2
(الف) هیستوگرام نمودار .2-2را خودتان مجددا رسم کنید.
(ب) هیستوگرام را با استفاده از طبقههای جدید ،دوباره ترسیم کنید .مثال در مرتبه اول اجازه دهید بســته نرمافزاری خودش مقادیر فاصله طبقهها را انتخاب کند و
تحلیل دادههای اقتصادی
نتیجه را ببینید؛ سپس خودتان مقادیر جدیدی را انتخاب کنید. 54
منودارهای XY
اقتصاددانان اغلب مایل به کشــف طبیعت روابط بین دو یا چند متغیر هستند. مثال« ،آیــا در یک صنعت خاص ،ســطوح باالتر آمــوزش و تجربه کاری با دستمزد بیشتر نیروی کار ارتباط دارد؟»« ،آیا تغییر عرضه پول میتواند بهعنوان یک شــاخص قابل اعتمــاد برای توضیح تورم بــهکار رود؟» و «آیا تفاوت در ســرمایهگذاری ثابت ،تفاوت سرعت نرخ رشــد اقتصادی کشورها را توضیح میدهد؟» .تکنیکهایی که پیشتر توضیح داده شدند ،برای توصیف رفتار تنها یک متغیر مناسب اســت؛ مثال ،ویژگیهای GDPواقعی سرانه کشورهای مختلف در نمودار .2-2چنین نمودارهایی برای آزمودن روابط بین چند متغیر مناسب نیستند. اســتفاده از نمودارها بــرای درک نوع روابط بین دو یا چند متغیر ،دشــوار اســت .در فصلهای آتی ،تحلیل رگرسیون توضیح داده میشود که اصلیترین ابزار اقتصاددانان کاربردی هنگام کار کردن با چند متغیر است؛ اما از روشهای 1- Twin peaks phenomenon
نمودار .2-3نمودار XYتراکم جمعیت در مقابل جنگلزدایی
2- Deforestation
1- Scatter diagram
55
فصل :2مبانی کار با دادهها
نموداری هم میتوان برای نشان دادن برخی جنبههای ساده رابطه بین دو متغیر یشود) برای این کار اســتفاده کرد .نمودار ( XYکه دیاگرام اسکتر 1نیز نامیده م مفید است .شکل 3-2نمودار دادههای جنگلزدایی( 2یعنی متوسط ساالنه ناحیه جنگلی که طی دوره زمانی 1981-90از بین رفت بهصورت درصد از کل ناحیه جنگلی) برای 70کشــور گرمسیری را به همراه دادههای تراکم جمعیت (یعنی تعداد افراد ساکن در هر هزار هکتار) را نشان میدهد( .این دادهها در فایل اکسل به نام FOREST.XLSموجود است ).تصور عام این است که کشورهای با تراکم جمعیت بیشتر ،نرخ جنگلزدایی سریعتری نسبت به کشورهای با تراکم جمعیتی کمتر دارند ،زیرا تراکم جمعیتی باال ممکن است فشار برای قطع درختان با هدف تامین چوب برای سوخت یا توسعه زمینهای کشاورزی برای تامین غذای بیشتر را افزایش دهد .شــکل 3-2یک نمودار XYاز این دو متغیر را نشــان میدهد. هر نقطه روی این نمودار نشــاندهنده یک کشور است .محور ( Yهمان محور عمودی) نرخ جنگلزدایی در آن کشور را اندازه میگیرد و محور Xها (یا محور افقی) نشاندهنده تراکم جمعیت آن است.
تحلیل دادههای اقتصادی
56
میتوانستیم کنار یا باالی هر نقطه روی نمودار ،نام کشور مربوطه را بنویسیم اما این کار را نکردیم ،زیرا اضافه کردن نام 70کشــور باعث شلوغی نمودار و دشواری خواندن آن میشد .اما برچسب نام یک کشور ،یعنی نیکاراگوئه اضافه شــده است .نرخ جنگلزدایی این کشور بهطور متوسط 2/6درصد در هر سال ( )Y=2.6و تراکم جمعیتی آن 640نفر در هر هزار هکتار ( )X=460است. از نمودار XYمیتوان برای مشــاهده و مرور سریع ارتباط بین جنگلزدایی و تراکم جمعیت اســتفاده کرد .با بررسی این نمودار میتوان به این نتیجه رسید که بین جنگلزدایی و تراکم جمعیت رابطه وجود دارد .مثال ،اگر به کشــورهای با تراکم جمعیتی پایین توجه کنیم (کمتر از 500نفر در هکتار) ،تقریبا تمام آنها نرخهای جنگلزدایی بســیار پایینی دارند (کمتر از یک درصد در سال) .اگر هم متوجه کشــورهای دارای تراکم جمعیتی باال شویم (یعنی بیش از 1500نفر در هر هزار هکتار) ،نرخهای جنگلزدایی تقریبا تمام این کشــورها باالست (بیشتر از 2درصد در ســال) .این موضوع به این نکتــه داللت میکند که احتماال باید رابطهای مثبت بین تراکم جمعیت و جنگلزدایی وجود داشته باشد (یعنی مقادیر زیاد یک متغیر با مقادیر زیاد متغیر دیگر توام اســت؛ و مقادیر کم ،با مقادیر کم متغیر دیگر همراه است) .رابطه بین متغیرها میتواند منفی هم باشد .مثال اگر در نمودار XYشکل ،3.2بهجای متغیر تراکم جمعیت از متغیر شهرنشینی 1استفاده میکردیم ،این اتفاق میافتاد .در این شــرایط ،مقادیر باالی شهرنشینی با مقادیر پایین جنگلزدایی همراه اســت زیرا توسعه شــهرها احتماال باید باعث کاهش مقدار جمعیت در مناطق روســتایی که جنگلها در آن واقع هســتند شود .الزم است اشاره کنیم که روابط مثبت یا منفی یافتشده در دادهها ،تنها نوعی گرایش کلی در دادههاست و الزام ایجاد نمیکند ،مثال الزم نیست که برای تمام کشورها حتما صادق باشد .یعنی احتماال در الگوی کلی رابطه مقادیر باالی تراکم جمعیت با نرخهای باالی جنگلزدایی ،استثناهایی وجود دارد .مثال ،در نمودار XYشکل 1- Urbanization
3.2میتوانیم کشــوری را مشــاهده کنیم که دارای تراکم جمعیت باال ،حدود 1300و نرخ جنگلزدایی پایین 0/7درصد است .بهطور مشابه ،تراکم جمعیت پایین هم میتواند با نرخهای باالی جنگلزدایی همراه باشــد .این وضعیت در مورد کشوری با تراکم جمعیت پایین حدود 150و نرخ جنگلزدایی بسیار زیاد ساالنه حدود 2/5درصد مشاهده میشود! بهعنوان یک اقتصاددان ،ما عالقهمند به استخراج الگوهای کلی یا گرایشها در دادهها هستیم .ب ه هر حال همواره باید در خاطر داشته باشیم که معموال در این الگوها ،استثناهایی (یا در اصطالح آماری، مشاهدات پرت) وجود دارند .در برخی موارد ،فهمیدن اینکه چه کشورهایی از الگوی کلی پیروی نمیکنند ،به اندازه یافتن خود الگو جذاب است.
در فایل FOREST.XLSدادههای دو متغیر درصد افزایش گندمزار( 1ســتون با نام « )»Crop chاز ســال 1980تا 1990و درصد افزایش مراتع دائمی (ستون با
نــام « )»Pasture chدر همان بازه زمانی وجــود دارد .نمودار XYاین دو متغیر
را (هر دفعه یکی از دو متغیر) در مقابل جنگلزدایی ترســیم و تفســیر کنید .فکر
میکنید رابطهای مثبت بین جنگلزدایی و گسترش اراضی مرتعی وجود دارد؟ بین جنگلزدایی و گسترش گندمزار چطور؟
کار با دادهها :آمار توصیفی
ویژگی بصری نمودارها و تاثیر سریعشــان بر خواننــده ،برای جذابتر کردن مقالهها و گزارشها مفید است .اما در بسیاری مواقع ،مقادیر دقیق عددی بهکار میآیــد .در فصلهای بعدی روشهای عددی معمول برای تلخیص رابطه بین چند متغیر ،با جزییات توضیح داده خواهد شــد .در این بخش اندکی در مورد آمار استنباطی بحث میکنیم که برای خالصه کردن ویژگیهای یک متغیر بهکار 1- Cropland
57
فصل :2مبانی کار با دادهها
مترین 3-2
تحلیل دادههای اقتصادی
میرود .به این منظور ،مجــددا مفهوم توزیع را ،که در بحث قبلیمان در مورد هیستوگرامها وجود داشت ،مطرح میکنیم. در مجموعه دادههای بینکشوریمان که شامل 90کشور است GDP ،سرانه واقعی کشــورها با هم متفاوت است و در بین آنها تغییر میکند .این تغییر را میتوان در نمودار هیستوگرام 2-2دید ،که توزیع GDPسرانه بین کشورها در آن ترسیم شده اســت .بهفرض میخواهید اطالعات موجود در هیستوگرام را بهصورت عددی خالصه و ارائه کنید .یک روش این است که از اعداد فراوانی در جدول نمودار 2-2اســتفاده کنید .حتی اگر این کار را انجام دهید ،باز هم تعداد زیادی عدد در جدول وجود دارد که تفسیر را دشوار میکند .در عوض، روش معمول این است که دو عدد ساده به نامهای میانگین و انحراف استاندارد ارائه شــود .میانگین ،عبارت آماری برای مفهوم متوســط است .رابطه ریاضی محاسبه میانگین عبارت است از: 58
Y
n
i =1 i
∑ =Y
N
در ایــن فرمول N ،حجم مثال (یعنی تعداد کشــورها) و Σعملگر جمع اســت (یعنی مقدار GDPســرانه واقعی تمام کشورها را با هم جمع میکند). در مثال ما ،میانگین GDPســرانه واقعی 5443/80 .دالر است .در این کتاب، اگر بخواهیم به میانگین اشــاره کنیم ،روی متغیر مورد نظر یک خط افقی قرار میدهیم (یعنی Yمیانگین متغیر X ،Yمیانگین متغیر Xو ...است). مفهوم میانگین ،با وســط یک توزیع ارتباط دارد .مثال اگر به هیســتوگرام پیشین نگاه کنیم ،عدد 5443/80دالر جایی در اواسط توزیع قرار دارد .توزیع GDPواقعی سرانه بین کشورها شکلی نامعمول دارد؛ یعنی دوقلهای است که پیشتر توضیح داده شــد .توزیع متغیرهــای اقتصادی معموال یک قله دارند و زنگولهای شکل 1هستند .چنین نموداری در هیستوگرام 4-2ترسیم شده است. 1- Bell-shaped
59
فصل :2مبانی کار با دادهها
در این توزیعها ،میانگین دقیقا در وسط توزیع و زیر قله قرار دارد. البته که رقم میانگین یا متوســط ،تغییرپذیری زیاد GDPسرانه واقعی بین کشــورها را نشــان نمیدهد .یک مفهوم آماری مفید دیگر که بهطور خالصه تغییرات این متغیر بین کشــورها را نشان میدهد ،مقدار کمینه و بیشینه است. در مجموعه دادههای ما ،کمینه GDPســرانه 408دالر (چاد) و بیشینه 17945 دالر (آمریکا) اســت .با نگاه به فاصله بین بیشینه و کمینه میتوانیم بفهمیم که توزیع چقدر پراکنده است. مفهوم پراکندگی در علم اقتصاد بســیار مهم است و با مفهوم تغییرپذیری و نابرابــری وابســتگی نزدیکــی دارد .مثال در مجموعه دادههــای ماGDP ، ســرانه واقعی در ســال 1992از 408دالر تا 17945دالر تغییر میکند .اگر در آینده نزدیک مثال در ســال ،2012کشــورهای فقیرتر بهسرعت رشد کنند و کشــورهای ثروتمندتر دچار رکود شــوند ،آنگاه پراکندگی GDPســرانه واقعــی بهطور معناداری کمتر خواهد شــد .مثال فرض کنید که در این ســال فقیرترین کشور GDP ،سرانه واقعی 10000دالری داشته باشد و GDPسرانه واقعی ثروتمندترین کشــور در 17945دالر ثابت بماند .اگر این اتفاق بیفتد، آنگاه توزیع بینکشــوری GDPسرانه واقعی به برابری نزدیکتر خواهد بود (پراکندگــی و تغییرپذیری کمتر) .در واقع مفاهیــم پراکندگی ،تغییرپذیری و نابرابری وابستگی نزدیکی با هم دارند. بــرای توضیح پراکندگی یک متغیر ،بیشــینه و کمینــه آن متغیر میتوانند گمراهکننده باشــند .مثال چه میشــد اگر تمام کشــورهای فقیــر بهجز چاد، بین ســالهای 1992و 2012رشــد اقتصادی ســریعی را تجربه میکردند و اقتصاد کشورهای ثروتمندتر اصال رشــد نمیکرد؟ در این شرایط ،پراکندگی بینکشــوری یا نابرابری باید کاهش یابد؛ اما چون بنا به فرض اقتصاد چاد و آمریکا در این فاصله اصال رشد نکردهاند ،کمینه و بیشینه در همان مقادیر قبلی 408دالر و 17945دالر باقی میماند.
نمودار .2-4هیستوگرامی كه توزیع زنگولهای را نشان میدهد
تحلیل دادههای اقتصادی
60
از ایــنرو پراکندگــی را معموال با انحراف اســتاندارد انــدازه میگیرند (آماردانها توان دوم انحراف اســتاندارد را واریانس مینامند) .فرمول ریاضی آن عبارت است از: 2
)∑ (Y − Y N
i
i =1
N −1
=s
در عمل شــاید هیچوقت مجبور نشوید انحراف استاندارد را دستی حساب کنید .میتوانید آن را بهآسانی در اکسل با استفاده از مسیر Tools/Descriptive statisticsیــا با ابزار فرمولها 1محاســبه کنید .در بعضــی از کتابها ،فرمول محاسبه انحراف استاندارد اندکی متفاوت است و در مخرج بهجای Nاز N-1 استفاده شده است. برخالف میانگین ،درک شــهودی مفهوم انحراف اســتاندارد اندکی دشوار اســت .در مجموعه دادههای بینکشــوری مــا از ،GDPانحراف اســتاندارد 5369/496دالر اســت؛ درک و حس مفهوم مطلق این عدد ســخت است اما میتوان مفهوم نسبی آن را تفســیر کرد .یعنی اگر انحراف استاندارد دو توزیع 1- Functions
متفاوت را مقایســه کنید ،توزیع دارای انحراف اســتاندارد کوچکتر همیشه پراکندگی کمتری هم دارد .در مثال ما ،اگر اقتصاد کشورهای فقیر ناگهان رشد کند و اقتصاد کشورهای ثروتمند دچار رکود شود ،انحراف استاندارد بهتدریج کاهش خواهد یافت.
مترین 2-4
آمــار توصیفی دو متغیر تغییر مراتع و گندمزار که در FOREST.XLSقرار دارند را محاسبه و تفسیر کنید.
خالصه
-1دادههای اقتصادی در اشکال مختلفی وجود دارند .اشکال معمول عبارتند از سریهای زمانی ،دادههای مقطعی و پنل دیتا. -2دادههای اقتصادی را میتوان از منابع گوناگونی تهیه کرد .امروزه اینترنت منبعی مفید از انواع و اقسام دادهها است. -3تکنیکهای ســاده نموداری مانند هیستوگرام و نمودار ،XYروشهایی مفید برای تلخیص اطالعات موجود در دادهها هستند. -4برای تلخیص عددی اطالعات موجــود در دادهها ،از ابزارهای زیادی میتوان اســتفاده کرد .مهمترین آنها ،میانگین و انحراف اســتاندارد اســت. میانگین ،مقیاس مکان 1توزیع و انحراف استاندارد مقیاس پراکندگی آن است.
1- Location
61
فصل :2مبانی کار با دادهها
در پایان فصل ،پیوســت 2-2و 2-3شــامل مباحث پیشرفتهتری در زمینه آمار توصیفی هستند.
پیوست :2-1اعداد شاخص
برای توضیح نکات اصلی در ساختن یک شاخص قیمت ،از دادههای جدول 2-1 استفاده میکنیم که در مورد قیمت میوههای مختلف در سالهای مختلف است.
محاسبه شاخص قیمت موز
پیش از آنکه در مورد محاسبه شاخص قیمت میوه صحبت کنیم ،از محاسبه شاخص قیمت برای یک میوه خاص مثال موز ،شروع میکنیم .همانطور که در متن کتاب توضیح داده شد ،محاسبه شاخص قیمت با انتخاب یک سال پایه آغاز میشود .در مورد شاخص قیمت موز ،ما سال 2000را بهعنوان سال پایه انتخاب میکنیم (الزم به توضیح است که میتوان هر سال دیگری را نیز انتخاب کرد).
تحلیل دادههای اقتصادی
جدول 2-1قیمت میوهها در سالهای مختلف 62
سال
کیوی
سیب
موز
1999
1/58
0/44
0/89
2000
1/66
0/43
0/91
2001
1/9
0/46
0/91
2002
2/1
0/5
0/94
2003
2/25
0/51
0/95
مطابق تعریف ،شاخص قیمت موز در ســال پایه برابر 100است .چگونه میتوانیم قیمت موز در سال 2000را بهنحوی تبدیل کنیم که به عدد 100برای شاخص قیمت در این سال برسیم؟ این تبدیل را میتوان با تقسیم قیمت موز در سال 2000بر خودش (یعنی قیمت موز در سال )2000و ضرب کردن در 100 انجام داد .برای اینکه قابلیت مقایســه قیمتها حفظ شــود ،باید این تبدیل را برای قیمت موز در تمام سالها انجام داد .نتیجه عبارت است از شاخص قیمت موز (با سال پایه .)2000این تبدیل در جدول 2-2توضیح داده شده است.
جدول 2-2محاسبه شاخص قیمت موز سال
قیمت موز
تبدیل
شاخص قیمت
1999
0/89
X100÷0/91
97/8
2000
0/91
X100÷0/91
100
2001
0/91
X100÷0/91
100
2002
0/94
X100÷0/91
103/3
2003
0/95
X100÷0/91
104/4
با مالحظه شــاخص قیمت موز معلوم میشــود که بین سالهای 2000و 2003قیمت موز %4/4افزایش یافته اســت و در سال 1999قیمت موز معادل 97/8درصد قیمت آن در سال 2000بوده است.
هنگام محاسبه شاخص قیمت موز (محاسبه برای یک کاال) ،تنها موضوعی که باید مالحظه کرد ،قیمت موز اســت .اما چنانچه بخواهیم شاخص قیمت میوه را محاســبه کنیم (شامل چندین کاال) ،باید قیمت تمام میوهها را بهنحوی با هم ترکیب کنیم .یک روش ســاده برای این کار این اســت که میانگین قیمتهای تمام میوهها در هر سال را حساب کنیم (و سپس شاخص قیمت میوه را با همان روش شاخص قیمت موز بســازیم) .اما این روش معموال مناسب نیست زیرا بهســادگی به تمام کاالها وزن برابر یا یک نسبت میدهد (یعنی مانند میانگین ساده ،قیمت سه میوه را با هم جمع میکند و بر سه تقسیم میکند) .در مثال ما (و تقریبا تمام کاربردهای محتمل در جهان واقعی) ،نسبت دادن وزن مساوی به تمام کاالها غیرقابل قبول است( .یک استثنا برای این قاعده ،متوسط صنعتی داو جونز است که به قیمت سهام تمام شرکتهایی که در محاسبه شاخص حضور دارند ،وزنی برابر نسبت میدهد) .جدول 2-1نشان میدهد که قیمتهای موز و ســیب طی زمان بهکندی افزایش مییابد (و در برخی سالها ثابت میماند یا حتی کاهش مییابد) .اما قیمت کیوی طی زمان با سرعت افزایش مییابد .موز
63
فصل :2مبانی کار با دادهها
محاسبه شاخص قیمت میوه
تحلیل دادههای اقتصادی
64
و ســیب میوههای متدوالی هستند که ب ه مقدار زیاد توسط افراد مختلف خریده میشــوند اما کیوی اینگونه نیست و در مقدار کمتر توسط بخش کوچکی از افراد جامعه خریداری میشــود .بههمین دلیل منطقی نیست که هنگام محاسبه شــاخص قیمت ،به هر ســه میوه وزن یکسانی نســبت دهیم .شاخص قیمت میوهای که بر مبنای میانگین ســاده بنا شــده باشد فرض را بر این میگذارد که قیمتهای میوه با نرخ یکسانی تغییر میکنند (یعنی ترکیب رشد کند قیمت موز و سیب با رشد بسیار سریع قیمت کیوی به شاخص قیمتی برای میوه میانجامد که با سرعتی نسبتا زیاد رشد میکند) .اما اگر دولت از این شاخص قیمت برای گزارش «قیمتهای میوه با نرخی نســبتا زیاد افزایش مییابند» اســتفاده کند، بخش بزرگی از جامعه این گزارش را با تجارب روزمرهشان ناسازگار مییابند. زیــرا عمده افراد فقط موز و ســیب میخرند و قیمت ایــن دو میوه طی زمان بهکندی رشد میکند. منطق پاراگراف قبل این است که چندان معقول نیست که برای ساختن یک شاخص قیمت به تمام کاالها وزنی برابر بدهیم .مطابق این قاعده ،برای ساختن یک شــاخص قیمت معقول ،باید از میانگین وزنی 1قیمت تمام میوهها استفاده کنیم تا اهمیت هر کاال را در نظر گرفته باشیم .در شاخص قیمت میوه مثال ما، باید وزن بیشــتری به موز و ســیب (میوههای متداول) و وزن کمتری به کیوی نسبت دهیم .برای دانشجویان مالی که عالقمند بحث پیشین ما در مورد میانگین صنعتی داو جونز هستند باید متذکر شد که S&P500یک شاخص قیمت است که به قیمت سهام با استفاده از اندازه شرکت وزن میدهد. روشهــای مختلف و زیادی بــرای انتخاب وزنها وجــود دارد .من دو روش معمــول را توضیح میدهم که بر مبنای این فکر بنا شــدهاند که وزنها باید نشــاندهنده مقدار کاالیی باشد که خریداری میشود .البته مقدار هر میوه خریداریشــده ممکن اســت طی زمان تغییر کند و با توجه به این نکته است 1- Weighted average
65
فصل :2مبانی کار با دادهها
دو شــاخص قیمت ما متفاوت هستند .شاخص قیمت الســپیرز( 1استفاده از وزن ســال پایه) :شاخص قیمت الســپیرز برای لحاظ کردن وزنها ،از مقدار خریداریشده هر میوه در ســال پایه استفاده میکند (سال 2000در مثال ما). به بیان دیگر ،برای ســاختن شاخص قیمت السپیرز ،باید میانگین قیمت میوه در هر ســال را با اســتفاده از میانگین وزنی محاسبه کرد که وزنها متناسب با مقداری از هر میوه است که در سال 2000خریده شده است .سپس با استفاده از این میانگین قیمت میوه و به همان روشــی که برای شــاخص قیمت موز استفاده کردیم (جدول 2-1را ببینید) ،یک شاخص قیمت میسازیم. اگر متوســط خریداران در ســال ،2000برای خریدن موز 100برابر بیشتر از کیوی هزینه کنند ،آنگاه در شــاخص قیمت السپیرز ،باید برای قیمتهای موز وزنی 100برابر بیشــتر از قیمتهای کیوی در نظر بگیریم .شاخص قیمت الســپیرز را میتوان بهصورت یک فرمول ریاضی نوشت .اگر Pقیمت کاالQ ، مقدار کاالی خریداریشده و زیرنویسها نشاندهنده کاال و سال باشد که موز کاالی ،1ســیب کاالی 2و کیوی کاالی 3اســت .بنابراین مثال P1.2000 ،قیمت موز در ســال Q3.2002 ،2000مقدار کیوی خریداریشــده در سال 2002و... است .اگر نشانهگذاری زیرنویسها یا عملگر جمع استفاده شده در فرمول زیر را نفهمیدید ،پیوست 1-1را بخوانید. با قرارداد باال در مورد نشــانهگذاریها ،شــاخص قیمت السپیرز ( )LPIدر سال ( tبرای )t =1999 , 2000 , 2001 , 2002 , 2003به شکل زیر است: 3
× 100
∑ PQ ∑ P Q
i.2000 i.2000
i =1 it
3
LPIt =
i =1 i.2000
در صورت کســر فوق قیمت هر میوه در مقدار همان میوه که در ســال 2000خریداری شــده است ضرب شده اســت .این ضرب کردن تضمین 1- Laspeyres
تحلیل دادههای اقتصادی
66
میکند که در شــاخص قیمت السپیرز ،موز و سیب وزن بیشتری میگیرند. در مورد مخرج کســر تا این اندازه بدانید که شــاخص قیمت السپیرز یک شــاخص صحیح و معقول و در ســال پایه برابر 100است .اگر بهجزییات ریاضی بیشــتری احتیاج دارید ،در مخرج کسر فرمول باال وزنهای میانگین وزنی مجموعی برابر یک دارند (که برای اطمینان از مناســب بودن میانگین وزنی الزم است). فرمول باال برای شــاخص قیمت السپیرز برای مثال ما نوشته شده است که در آن ســه کاال وجود دارد و سال پایه 2000است .در حالت عمومی میتوان فرمول باال را برای هر تعداد کاال و سال پایه دلخواه نیز نوشت؛ در آ ن صورت عدد 3و 2000به مقادیر مناسب تغییر میکنند. برای محاســبه شاخص قیمت السپیرز باید مقدار خریداریشده از هر میوه را بدانیم .این مقادیر در جدول 2-3وجود دارند. شــاخص قیمت الســپیرز برای میوهها را میتوان به همان شیوه شاخص قیمت موز تفسیر کرد .مثال ،میتوانیم بگوییم که بین سالهایی 2000و ،2003 شاخص قیمت میوه 8/7درصد رشد کرده است. شاخص قیمت پاشه( 1اســتفاده از وزن سال جاری) :در شاخص قیمت الســپیرز ،برای محاســبه میانگین قیمت میوهها هنگامی که ســه نوع میوه متفاوت وجود داشــت ،از وزنهای سال پایه استفاده کردیم .اما اگر الگوی مصرف میوه طی زمان بهطرز قابلتوجهی تغییر کند ،ممکن اســت اســتفاده از وزنهای ســال پایه (در مثال ما ،سال پایه 2000بود) نامناسب باشد .در مثال فوق ،در تمام ســالها موز و سیب میوههای پرمصرف هستند و کیوی کمی مصرف میشود.
1- Paasche
جدول .2-3مقادیر میوه خریداریشده (به تن) سال
موز
سیب
کیوی
1999
100
78
1
2000
100
82
1
2001
98
86
3
2002
94
87
4
2003
96
88
5
جدول 2-4محاسبه شاخص قیمت السپیرز برای میوهها 3
سال
صورت= i.2000
∑P Q it
i =1
3
مخرج=
∑Pi.2000Qi.2000 i =1
شاخص قیمت السپیرز
1999
126.64
127.92
99.0
2000
127.92
127.92
100
2001
130.62
127.92
102.1
2002
137.1
127.92
107.2
2003
139.07
127.92
108.7
67
فصل :2مبانی کار با دادهها
شاخص قیمت السپیرز ما (بهطور منطقی) ،به قیمت موز و سیب ،وزن بیشتری نسبت به کیوی نسبت میدهد .اما چه میشد اگر در سال ،2001اخطاری مبنی بر ناسالم بودن سیب منتشر میشد و افراد را از خوردن سیب منع و تشویق به خوردن مقدار بیشتری کیوی میکرد؟ شاخص قیمت السپیرز به نسبت دادن وزن کمتر به کیوی و وزن بیشتر به سیب ادامه میداد با وجود اینکه اکنون کیوی بیشتری توسط مردم مصرف میشد .شاخص قیمت پاشه با استفاده از میزان خرید سال جاری برای وزن دادن به هر یک از میوهها در ســاختن شاخص ،سعی در از میان برداشتن این مشکل دارد .به عبارت دیگر برای ساختن شاخص قیمت پاشه ،باید میانگین قیمت میوه در هر سال را با استفاده از میانگین وزنی حساب کرد که وزنها متناسب با مقدار میوه خریداریشــده در سال جاری هستند .سپس به همان شیوهای که پیشتر برای ســاختن شاخص قیمت موز استفاده کردیم (جدول 2-2را ببینید) از این میانگین قیمت میوه برای ساختن شاخص قیمت استفاده میکنیم.
فرمول ریاضی شاخص قیمت پاشه ( )PPIدر سال t؛ (برای )t =1999 , 2000 , 2001 , 2002 , 2003را میتوان به شکل زیر نوشت: 3
it
× 100 it
تحلیل دادههای اقتصادی
68
∑ PQ ∑ P Q i =1 it
3
PPIt =
i =1 i.2000
میبینید که PPIمشابه LPIاست با این تفاوت که Qitدر فرمول PPIوجود دارد ولی در فرمول LPIبهجای آن Qi.2000 ،وجود داشــت .پس دو شــاخص ماننــد یگدیگرند بهجز این موضوع که PPIبهجای مقدار خرید ســال پایه از مقدار خرید سال جاری استفاده میکند. جدول 2-5نحوه محاســبه شاخص قیمت پاشــه را با استفاده از دادههای قیمت میوه جدول 2-1و دادههای مقدار هر میوه جدول 2-3نشان میدهد. چون شــیوه وزندهی دو شاخص السپیرز و پاشه متفاوت است ،پس نتایج دو جدول 2-4و 2-5دقیقا یکسان نیست .مثال بر مبنای شاخص قیمت پاشه، بین ســالهای 2000و ،2003قیمت میوه %10.4رشد کرده است (در حالیکه مطابق شاخص السپیرز رشد برابر %8.7بود). شــاخصهای قیمت السپیرز و پاشه صرفا دو تا از بینهایت حالت ممکن هستند .اینجا در مورد سایر امکانها بحث نمیکنیم .اما باید به یاد داشت که شاخصها کاربردهای زیادی در علم اقتصاد و مالی دارند .مثال ،تورمی که در روزنامهها گزارش میشــود ،بر اساس شاخصهای قیمت محاسبه شده است. در اقتصاد ،هزاران کاال توســط افراد خریداری میشود و شاخصهای قیمتی 2 مانند شــاخص قیمت مصرفکننده )CPI( 1یا شــاخص قیمت خردهفروشی ( )RPIمیانگینهای وزنی قیمت این هزاران کاالهای خریداریشــده هستند. اطالعات بازار سهام اغلب با شاخص قیمت سهام بیان ارائه میشوند.
2- Retail price index
1- Consumer price index
جدول 2-5محاسبه شاخص قیمت پاشه برای میوهها سال
3
صورت= i.t
∑P Q it
i =1
3
مخرج=
∑Pi.2000Qi.t i =1
شاخص قیمت پاشه
1999
124/90
126/20
99/0
2000
127/92
127/92
100
2001
134/44
131/16
102/5
2002
140/26
129/59
108/2
2003
144/33
133/50
110/4
69
فصل :2مبانی کار با دادهها
یک موضوع دیگر هــم وجود دارد که گاهی اوقات باعث پیچیدگی مطالعات تجربی بهخصوص در مورد دادههای اقتصاد کالن میشود .سازمانهای آماری دولتی اغلب ســال پایه مورد استفاده در محاسبه شاخصهای قیمتشان را بهروز میکنند. بنابراین در هنگام جمعآوری دادهها ممکن است با موقعیتی مواجه شوید که بخشی از دادههای شما دارای یک سال پایه باشد و بخش دیگر سال پایهای متفاوت داشته باشد .حل این مشکل دشوار نیست ،بهشرطی که یک سال مشترک داشته باشید که مقدار یا عدد مربوط به آن را برای هر دو ســال پایه بدانید .جدول 2-6به شما یاد میدهد که چگونه این مشکل را حل کنید؛ یعنی دو سری از شاخص قیمت که سال پایه متفاوتی دارند را با هم ترکیب کنید و به یک سری از شاخصهای قیمت با سال پایه مشترک دست پیدا کنید .دفتر آمار شاخص قیمتی با استفاده از سال پایه 1995 ســاخته اما محاسبه آن را در سال 2000متوقف کرده است .مقدار این شاخص در ستون «شاخص قیمت قدیمی با سال پایه »1995وجود دارد .در سال ،2001دفتر آمار مجددا شروع به محاسبه شاخص قیمت نموده است اما اینبار از سال 2001بهعنوان سال پایه استفاده کرده است .خوشبختانه دفتر آمار شاخص قیمت جدید با استفاده از سال پایه جدید (یعنی سال )2001را برای سال 2000هم محاسبه کرده است .این شاخصهای قیمت با سال پایه جدید در ستون «شاخص قیمت جدید با سال پایه »2001آورده شده است .دقت کنید که یک سال مشترک در اختیار داریم ،یعنی سال
.2000برای اینکه عدد شــاخص قیمت سال 2000با سال پایه قدیمی یعنی 107 به عدد سال پایه جدید یعنی 95تبدیل شود باید عدد قدیمی را در 95ضرب و بر 107تقسیم کنیم .بهمنظور حفظ سازگاری ،باید این تبدیل را برای اعداد تمام سالها با سال پایه قدیمی ،تکرار کنیم .نتیجه تبدیل تمام اعداد شاخص با سال پایه قدیمی به شاخص با سال پایه جدید در ستون آخر جدول 2-6نشان داده شده است .اکنون میتوانیم از این شــاخص یککاسهشده برای کارهای تجربیمان استفاده کنیم زیرا مقدار شاخص برای تمام سالها را با یک سال پایه مشترک ،2001در اختیار داریم. جدول .2-6تغییر سال پایه برای شاخص قیمت
تحلیل دادههای اقتصادی
70
شاخص قیمت جدید با سال پایه 2001
تبدیل شاخص قیمت قدیمی
شاخص قیمت تمام سالها با سال پایه 2001
سال
شاخص قیمت قدیمی با سال پایه 1995
88/8
1995
100
×95 ÷ 107
1996
102
×95 ÷ 107
90/6
1997
103
×95 ÷ 107
91/5
1998
103
×95 ÷ 107
91/5
1999
105
×95 ÷ 107
93/2
2000
107
95
95
2001
100
100
2002
101
101
2003
105
105
پیوست :2-2آمار توصیفی پیرشفته
میانگین و انحراف استاندارد متداولترین مفاهیم آمارههای توصیفی هستند اما بسیاری آمارههای دیگر هم وجود دارند .میانگین ،سادهترین مقیاس مکان توزیع اســت .از واژه «مکان» برای بیان مفهوم مرکز توزیع اســتفاده میشود .میانگین نوعی متوسط است .مقیاسهای متداول دیگر برای مکان عبارتند از نما و میانه. برای ایجاد تمایز بین میانگین ،مد و میانه به یک مثال ســاده توجه کنید .هفت نفر درآمد ساالنه خود به پوند ( )£را بهترتیب زیر گزارش کردهاند 18000 :پوند،
71
فصل :2مبانی کار با دادهها
15000پوند 9000 ،پوند 15000 ،پوند 16000 ،پوند 17000 ،پوند و 20000پوند. میانگین یا همان متوسط درآمد ساالنه این هفت نفر 15714پوند است. نما ،پرتکرارترین مقدار است .در مثال حاضر ،دو نفر درآمد خود را 15000 پونــد گزارش کردهاند .هیچ عدد دیگری بــرای درآمد بیش از یکبار گزارش نشده است .بنابراین 15000پوند پرتکرارترین درآمد بین این هفت نفر است. میانه ،مقداری اســت که در وســط مقادیر دیگر قــرار میگیرد .یعنی میانه مقداری اســت که توزیع را به دو نیمه مساوی تقسیم میکند .در مثال ما ،میانه مقدار درآمدی است که افراد را به دو نیمه با درآمد باال و با درآمد پایین تقسیم میکنــد .در این مثال میانه برابر 16000پوند اســت .توجه کنید که ســه نفر درآمدی کمتر از میانه و سه نفر هم درآمدی بیش از آن دارند. نمــا و میانه را میتــوان با مالحظه دو نمودار شــکلهای 2-2و 2-4هم تشخیص داد که در آنها دو هیســتوگرام یا توزیع متفاوت ترسیم شده است. یکی از مشکالت نما این است که ممکن است هیچ مقداری مشترک نباشد .مثال در مجموعه داده GDPســرانه ( ،)GDPPC.XLSهیچ دو کشوری مقادیر دقیقا یکسان ندارند .بنابراین مقداری هم وجود ندارد که بیش از یک بار تکرار شده باشد .برای حالتهای اینچنینی ،نما عبارت است از باالترین نقطه هیستوگرام. یک مشکل کاربردی کوچک برای تعریف نما در این حالت این است که مقدار نما ممکن است به انتخاب فواصل طبقهای حساس باشد (و بههمین دلیل است که پاسخ اکســل برای مقدار نما GDPPC.XLSبا مقداری که اینجا ذکر شده است اندکی متفاوت است) .در شــکل ،2-2طبقه با برچسب 2000بیشترین ارتفاع را در هیســتوگرام دارد .توجه کنید انتخاب اکسل برای برچسبگذاری طبقات به این معناست که طبقه اول از 0تا 2000است .پس میتوانیم بگوییم کــه فاصله طبقهای 0تا ،2000مد اســت .روش متداول دیگر این اســت که عدد وســط طبقه شامل نما را بهعنوان نما گزارش کنیم .در این مثال ،میتوانیم بگوییم که «نما برابر 1000دالر است» .احتماال نما کمکاربردترین آماره از بین سه آمارهای است که در این بخش برای مقیاس مکان توزیع توضیح داده شد.
تحلیل دادههای اقتصادی
72
برای فهم میانه ،تصور کنید که تمام مســاحت هیســتوگرام هاشور خورده باشــد .میانه ،نقطهای روی محور xها است که این مساحت هاشور خورده را دقیقا به دو نیمه تقسیم کند .در شکل 2-4مرتفعترین نقطه (یعنی نما) همچنین نقطه وسطی است که توزیع را دو نیمه میکند (یعنی میانه) .پس این نقطه ،میانه توزیع هم هســت .بههر حال در شــکل ،2-2میانگین ( 5443/80دالر) ،میانه ( 3071/50دالر) و نما ( 1000دالر) مقادیری کامال متفاوت هستند. یک آماره مختصرکننده دیگر بر مبنای مفهوم صدک 1بنا شــده است .به مجموعه داده GDPســرانه دقت کنید .برای هر کشور منتخب ،مثال بلژیک، میتوان پرســید که «چند کشور از بلژیک فقیرتر هستند؟» یا به بیان دقیقتر «چه نسبتی از کشورها از بلژیک فقیرتر هستند؟» وقتی چنین سوالی پرسیده میشــود در واقع داریم میپرســیم که بلژیک در چه صدکی قرار دارد؟ به زبان فنی و رســمیتر ،صدک Xاُم مقدار دادهای (یعنی رقم GDPســرانه) اســت که Xدرصد از مشاهدات (یعنی کشورها) دارای مقادیری کمتر از آن هســتند .در مجموعه داده بینکشوری GDPسرانه ،صدک 37اُم 2092دالر است .این رقم GDPسرانه کشور پرو است 37 .درصد کشورهای دادههای ما از پرو فقیرتر هستند. مفاهیم زیادی با مفهوم صدک مرتبط هســتند .مثال صدک 50ام همان میانه اســت .کمینه و بیشینه بهترتیب صدکهای 0ام و 100ام هستند .صدک دامنه دادهها را به صد قســمت تقسیم میکند در حالیکه باقی مفاهیم مرتبط از دیگر واحدهای عمومی اســتفاده میکنند .چارکها 2دامنه دادهها را به چهار قسمت مســاوی تقســیم میکنند .بنابراین اولین چارک معادل 25اُمین صدک ،دومین چارک معادل 50امین صدک (یا میانه) و ســومین چارک75 ،امین صدک است. دهکهــا ،3دادهها را دهتا دهتا بخش میکنند .ب ه عبارت دیگر ،دهک اول معادل صدک 10ام ،دومین دهک معادل صدک 20ام و مانند اینها است. 3- Deciles
2- Quartiles
1- Percentile
پس از انحراف اســتاندارد ،متداولترین مقیاس بــرای پراکندگی ،دامنه بینچارکی 1اســت .همانطور که از نام آن برمیآید ،این مقیاس تفاوت بین ســومین و اولین چارک را اندازه میگیرد .در مجموعه داده بینکشــوری، 75درصد کشــورها GDPســرانهای کمتر از 9802دالر و 25درصدشان GDPســرانهای کمتــر از 1162دالر دارند .به عبــارت دیگر 1162 ،دالر چارک اول و 9802دالر چارک ســوم است .دامنه بینچارکی هم -$9802 $8640=$1162است.
1- Interquartile range
فصل :2مبانی کار با دادهها
73
فصل 3 همبستگی
1- Correlation
75
فصل :3همبستگی
اغلب اوقات اقتصاددانان عالقهمند به دانستن چگونگی ارتباط بین متغیرهای مختلف مانند ســطح تحصیالت کارگران و دستمزدهایشان یا نرخهای بهره و تورم هســتند .یک روش مهم برای بیان کمی و عددی ارتباط بین دو متغیر، همبستگی 1است. یک مفهوم مرتبط با همبستگی ،که در فصلهای آتی به آن پرداخته میشود، رگرسیون است که اساسانوعی تعمیم همبستگی برای حالتهایی است که در آن سه متغیر یا بیشتر وجود دارند و بر جنبه علیت تاکید میکند .همانطور که خودتان پس از خواندن این فصل و فصلهای آتی متوجه خواهید شــد ،اصال اغراق نکردهایم اگر بگوییم که همبستگی و رگرسیون مهمترین مفاهیم سازنده این کتاب هستند. در این فصل ،ابتدا نظریه موجود در پس مفهوم همبستگی را شرح میدهیم و پس از آن روی چند مثال کار میکنیم که برای درک مستقیم مفهوم همبستگی به روشهای مختلف طراحی شدهاند.
فهم همبستگی
تحلیل دادههای اقتصادی
76
Yدو متغیر (مثال بهترتیب تراکم جمعیت و جنگلزدایی) فرض کنیــد که Xو باشند و ما دادههای =i 1.….Nواحد مختلف (مثال کشور) را برای این دو متغیر در اختیار داریم .همبســتگی بین Xو Y را با حروف کوچک rنشان میدهیم که فرمول ریاضی دقیق آن در پیوســت 3-1آورده شــده است .البته در عمل هیچگاه مجبور نخواهید شد که از این فرمول بهشکلی مستقیم استفاده کنید .هر نرمافزاری صفحهگسترده 1مانند اکسل یا بستههای نرمافزاری اقتصادسنجی این کار را برایتان انجام خواهد داد. معموال از شرایط متن مشخص است که rهمبستگی بین کدام دو متغیر را نشان میدهد اما در برخی موارد از اندیس برای اشاره به نام دو متغیر استفاده میکنیم Yرا نشان میدهد یا rXZکه اشاره به مثل rXYکه همبســتگی بین دو متغیر Xو همبستگی بین Xو Zدارد و نظایر اینها. نتیجه محاسبه همبســتگی بین دو متغیر ،یک عدد است (مثال .) r = 0.55 موضوع مهم ،چگونگی تفســیر این عدد است .در این بخش ،سعی میکنیم به نوعی درک شــهودی پیرامون همبستگی دست یابیم .ابتدا برخی از ویژگیهای عددی همبستگی را فهرست میکنیم.
ویژگیهای همبستگی
r -1همیشه بین -1و 1قرار میگیرد که بهصورت −1 ≤ r ≤ 1نشان داده میشود. -2مقادیر مثبت rبهمعنی وجود رابطه مثبت بین Xو Y است .مقادیر منفی رابطه منفی را نشان میدهند r = 0 .به این معناست که Xو Y ناهمبسته 2هستند. -3مقادیر مثبت بزرگتر rبهمعنای وجود رابطه مثبت قویتر استr = 1 . نشاندهنده رابطه مثبت کامل است .مقادیر منفی بزرگتر [ r ]1بهمعنای رابطه منفی قویتر هســتند r = −1 .نشــاندهنده رابطه منفی کامل است (البته توجه 2- Uncorrelated
1- Spreadsheet
کنید که منظور از مقدار منفی بزرگتر ،منفی بیشتر است .مثال -0/9مقدار منفی بزرگتری از -0/2است). -4همبستگی بین Yو Xمشابه همبستگی بین Xو Y است. -5همبستگی هر متغیری با خودش (مثال همبستگی بین Yو Y) برابر 1است.
فهم همبستگی با استفاده از استدالل کالمی
آماردانها از واژه همبســتگی اغلب ب ه همان شــکلی اســتفاده میکنند که افراد غیرحرفهای .مثال زیر که ادامه مثال تراکم جمعیت/جنگلزدایی است که در فصل 2 مطرح شد ،روشهای کالمی برای تصور مفهوم همبستگی را نشان میدهد.
فرض کنید که عالقهمند به بررســی رابطه بیــن جنگلزدایی و تراکم جمعیت هستیم .به یاد داشته باشــید که فایل اکسل FOREST.XLS
دربرگیرنده دادههای مقطعی 70کشور گرمسیری برای این متغیرها (و متغیرهای دیگر) است .با استفاده از اکسل ،درمییابیم که همبستگی بین جنگلزدایی ( )Yو تراکم جمعیت ( 0/66 )Xاســت .بزرگتر از صفر
بودن این عدد میتواند ما را به نتایج زیر برساند:
.1ارتباطی مثبت (یا وابستگی 1مثبت) بین جنگلزدایی و تراکم جمعیت وجود دارد.
.2کشــورهای بــا تراکم جمعیت باالتــر گرایش به نرخهــای باالتر جنگلزدایــی دارند .کشــورهای با تراکم جمعیــت پایین به نرخهای
پایین جنگلزدایی گرایش نشان میدهند .توجه کنید که اینجا از واژه
1- Association
77
فصل :3همبستگی
مثال :3-1همبستگی بین جنگلزدایی و تراکم جمعیت
«گرایش» 1استفاده کردیم .یک همبستگی مثبت به این معنا نیست که هر کشــور با تراکم جمعیتی باالتر الزاما باید نرخ جنگلزدایی باالتر داشته
باشــد ،بلکه این بیشتر نوعی گرایش عمومی است .ممکن است تعداد
اندکی از کشورها از این الگو پیروی نکنند (بحث مربوط به مشاهدات پرت در فصل 2را مالحظه کنید).
.3نرخهای جنگلزدایی همانند تراکم جمعیت ،در بین کشــورهای مختلف متفاوت است (به این دلیل است که آنها را متغیر مینامیم).
برخی کشــورها نرخهای جنگلزدایی بــاال و برخی دیگر نرخهای پایینــی دارند .این تغییرات باال/پاییــن در نرخهای جنگلزدایی بین
کشــورها ،گرایش بــه «هماهنگی» 2با تغییــرات باال/پایین در تراکم تحلیل دادههای اقتصادی
جمعیت دارد.
78
اظهارات پیشین ما زمانی درست خواهد بود که rمثبت باشد .چنانچه
rمنفی میبود ،عکس این مطلب درســت میبود .مثال ،مقادیر باالی Xممکن اســت با مقادیر پایین Yهمراه باشــد ،و غیره .درک مستقیم یا شــهودی رقم همبستگی اندکی دشوار است (مثال چه تفاوتی وجود
دارد بین همبستگی 0/66و همبستگی 0/26؟) .نمودار XYکه در ادامه توضیح داده شده است میتواند اندکی کمک حال باشد ،اما اینجا نکته
ن مورد بیان میکنیم که هنگام بحث در مورد رگرسیون، مهمی را در ای چهچیزی را بهدست میآوریم.
.4با اســتفاده از فرمول انحراف معیار که در فصل 2ارائه شد ،میتوان
مقدار دقیق درجه تغییر نرخهای جنگلزدایی بین کشــورها را محاسبه کرد .همانگونه که در نکته 3باال اشــاره شد ،این حقیقت که نرخهای
2- Match up
1- Tend
جنگلزدایــی و تراکم جمعیت بهطور مثبت همبســته هســتند به این معناست که الگوهای تغییر بین کشوری آنها گرایش به هماهنگی دارد.
توان دوم همبســتگی ( ) r 2نسبتی از تغییرات بین کشوری جنگلزدایی که با تغییرات تراکم جمعیت هماهنگی دارد یا توســط آن توضیح داده میشود را اندازه میگیرد .به عبارت دیگر ،همبستگی یک مقیاس عددی
اســت از میزان هماهنگی یا تطابق الگوهای Xو Y .در مثال جمعیت/
جنگلزدایی ما ،از آنجاکه 0 / 662 = 0 / 44است ،میتوانیم ادعا کنیم که 44درصد از تغییرات بین کشوری جنگلزدایی را میتوان بهوسیله تغییرات بین کشوری تراکم جمعیت توضیح داد.
(الف) با اســتفاده از دادههای ،FOREST.XLSمیانگین ،انحراف معیار ،کمینه و
بیشینه جنگلزدایی و تراکم جمعیت را محاسبه و تفسیر کنید. (ب) نشان دهید که همبستگی بین این دو متغیر 0/66است.
مثال :3-2قیمتهای خانه در وینسور ،1کانادا
فایل اکســل HPRICE.XLSشــامل دادههای مرتبط با N=546خانه
است که در تابستان 1987در وینسور کانادا به فروش رسیده است .این
فایل شامل قیمت فروش (به دالر کانادا) ب ه همراه بسیاری از ویژگیهای هر خانه است.
1- Windsor
فصل :3همبستگی
مترین 3-1
79
ما در فصلهای آتی از این مجموعه داده بهشــکلی گســترده استفاده
خواهیم کرد ،امــا حاال میخواهیم تنها بر چند متغیر متمرکز شــویم.
بهطور خاص فرض میکنیم که Yقیمت فروش خانه و Xاندازه آن 1به فوت مربع 2باشد که شامل خود خانه بهعالوه باغچه و حیاط آن است.
همبستگی بین این دو متغیر rXY = 0 / 54
است.
عبارتهای زیر را میتوان در مورد قیمتهای خانه در وینسور بیان کرد:
.1خانههای بزرگتر در مقایسه با خانههای کوچکتر گرایش به ارزش
بیشتر دارند.
.2همبستگی مثبت بین اندازه خانهها و قیمتهای فروش وجود دارد.
.3تغییــرات انــدازه خانهها ( %29یعنــی ) 0.542 = 0.29از تغییرات
تحلیل دادههای اقتصادی
قیمتهای خانه را توضیح میدهد. 80
اکنون اجازه بدهید که متغیر ســوم یعنی Zتعــداد اتاقهای خواب را اضافه کنیم .با محاسبه همبستگی بین قیمتهای خانه و تعداد اتاقهای
خواب به rYZ = 0 / 37میرسیم .این نتیجه میگوید که ،مطابق انتظارمان،
خانههایی که اتاقهای خواب بیشــتری دارند گرایش دارند که قیمت بیشتری نسبت به خانههای با اتاقهای خواب کمتر داشته باشند.
بهطور مشــابه ،میتوانیم همبســتگی بین تعداد اتاقها خواب و اندازه خانهها را محاســبه کنیم .این همبســتگی rXZ = 0 / 15است و به این معناســت که در خانههای بزرگتر گرایش به تعداد بیشــتر اتاقهای خواب وجود دارد.
-1منظور خانههای ویالیی یا یک طبقه اســت که خانه و متعلقات آن در یک قطعه زمین واقع شــدهاند. متغیر xاندازه این زمین است. ً ً -2هر فوت مربع معادل 0/093متر مربع اســت .مثال اتاقی با مســاحت 100فوت مربع حدودا 9/3متر مربع خواهد بود.
اما این همبستگی بسیار اندک است و بیان میکند که ارتباط بین اندازه
خانهها و تعداد اتاقهای خواب ناچیز است؛ که کامال بر خالف انتظار اســت .به عبارت دیگر ،احتماال شما هم انتظار داشتید که خانههایی که در زمینهای بزرگتری واقع شــدهاند ،بزرگتر باشــند و در مقایسه با خانههایــی که در زمینهای کوچکتر واقع شــدهاند ،اتاقهای خواب
بیشتری داشته باشــند .اما این همبستگی نشان میدهد که تنها گرایش اندکی برای رخ دادن این اتفاق وجود دارد.
1- Causality
81
فصل :3همبستگی
مثــال بــاال این انگیــزه را ایجاد میکند کــه در مــورد موضوعی مهم در اقتصادسنجی ،به نام علیت ،1بحث کنیم .در واقع اقتصاددانان ،در اغلب اوقات، میخواهنــد بدانند که آیا یک متغیر «علت» متغیر دیگر اســت؟ اینجا تعریفی رســمی از علیت را ارائه نمیکنیم و از این واژه در معنای روزمره و عامیانهاش اســتفاده میکنیم .در این مثال ،منطقی است که از همبستگی مثبت بین قیمت خانه و اندازه آن برای نشان دادن رابطهای علی استفاده کنیم .یعنی ،اندازه خانه متغیری است که مستقیما بر قیمت آن موثر است (یا علت آن است) .به عبارت دیگر ،جهت علیت از سمت اندازه خانه به قیمت آن است ،و نه برعکس. یک راه دیگر برای فکر کردن در این مورد این است که از خودتان بپرسید که چه میشــد اگر یک صاحبخانه زمین مجــاور خانهاش را میخرید و در نتیجــه ،اندازه زمین خانهاش (همان اندازه خانــه) را افزایش میداد .این عمل احتماال منجر به افزایش ارزش خانه میشــد (یعنی افزایش اندازه خانه ممکن اســت علت افزایش قیمت خانه باشــد) .اما به سوال وارونه سوال باال نیز فکر کنید« :آیا افزایش قیمت خانه علت افزایش اندازه خانه اســت؟» متوجه هستید
تحلیل دادههای اقتصادی
82
که ان سوال وارونه بی معناست (یعنی افزایش قیمت خانه علت افزایش اندازه خانه نیســت) .مثال ،اگر قیمت خانه در وینســور ناگهان به دلیلی افزایش یابد، (مثال به دلیل رونق اقتصادی) این به آن معنا نیست که خانهها در وینسور ناگهان ییابند. اندازه بزرگتری م بحث مطرحشــده در پاراگراف پیش را میتــوان با جایگزین کردن «تعداد اتاقهای خواب» با «اندازه خانه» نیز تکرار کرد .یعنی فرض وجود ارتباط مثبت بین Yیا قیمت خانه و Zتعداد اتاقهای خواب ب ه دلیل اینکه Zبر Yتاثیرگذار (یا علت آن) است ،منطقیتر از فرض مقابل آن است .یعنی این گرایش وجود دارد که خانههای با اتاق خواب بیشتر ،اندازه بزرگتری (زیربنای بیشتری) نیز داشته باشند ،اما این گرایش به این معنا نیست که اولی علت دومی باشد. یکی از مهمترین موضوعات در کارهای تجربی دانســتن چگونگی تفسیر نتایج است .مثال خانه ،این دشواری را بهخوبی نشان میدهد .تنها گزارش کردن عدد همبســتگی (مثال )rxY=0/54کافی نیســت .تفسیر این عدد نیز مهم است. برای تفســیر این عدد عالوه بر دانش شــهودی در مورد مفهوم همبستگی ،به درک و قضاوتی درست در مورد پدیدههای اقتصادی مورد مطالعه نیاز است .با دانستن اهمیت تفسیر نتایج در کارهای تجربی ،در بخش بعدی مثالهای زیادی ارائه شده است تا نشان دهد که چرا متغیرها همبسته هستند و عقل سلیم چگونه میتواند راهنمای ما در تفسیر همبستگی باشد.
مترین 3-2
(الف) با اســتفاده از دادههــای فایل ،HPRICE.XLSمیانگیــن ،انحراف معیار،
کمینه و بیشــینه متغیرهای Yقیمت خانه (با برچســب «قیمت فروش» در فایل Zتعداد اتاقهای خواب (دارای برچســب ) X ، )HPRICE.XLSاندازه خانه و
« )»bedroom#را محاسبه و تفسیر کنید.
Yبرابر مقدار ارائهشده در مثال باال (ب) بررســی کنید که آیا همبستگی میان Xو است .مقدار همبستگی را برای Xو Zو سپس برای Yو Z گزارش کنید.
(ج) حاال یک متغیر جدید به نام W ایجاد کنید که برابر تعداد حمامها اســت (با
برچسب « .)»bath#میانگین W را حساب کنید.
(د) همبســتگی میان Wو Y را محاســبه و تفســیر کنید .توضیح دهید که چقدر Yاست. میتوان ادعا کرد که Wعلت
(ه) قسمت (ج) را با Wو Xو سپس با Wو Zتکرار کنید.
درک دلیل همبستگی متغیرها
مثال :3-3همبستگی الزاما به معنای علیت نیست
این موضوع بهطور عام پذیرفته شــده اســت که سیگار کشیدن باعث ســرطان ریه میشود .فرض کنید که دادههایی زیر را برای افراد زیادی
Xتعداد ســیگارهایی که هر نفر در طول جمــعآوری کردهایم( :الف)
هفته میکشــد و (ب) Y آیا این افراد هیچگاه به سرطان ریه داشتهاند یا
83
فصل :3همبستگی
در مثال جنگلزدایی/تراکم جمعیت ،فهمیدیم که دو متغیر جنگلزدایی و تراکم جمعیت همبستگی مثبت دارند که به وجود یک رابطه مثبت بین این دو داللت دارد .اما شکل دقیق این رابطه چگونه است؟ همانطور که در باال بحث شد ،ما اغلب تمایل داریم که واژگان علیت یا تاثیر را بهکار ببریم و در واقع هم ممکن اســت که همبستگی و علیت ارتباط نزدیکی داشــته باشند .مثال ،این یافته که تراکم جمعیت و جنگلزدایی همبسته هستند ممکن است به این معنا باشد که اولی علت مســتقیم دومی است .بهطور مشابه ،یافته دیگر ما دال بر اینکه میان سطح تحصیالت و دستمزدها همبســتگی مثبت وجود دارد میتواند اینگونه تفسیر شــود که تحصیالت بیشتر بهشکلی مستقیم و بیواسطه بر میزان درآمد یک نفر تاثیر میگذارد .اما همانطور که مثالهای بعدی نشــان میدهند ،تفسیر همبستگی به مثابه علیت ،الزاما همواره دقیق و درست نیست.
اکنون دارند .چون سیگار کشیدن باعث سرطان ریه میشود ما باید قطعا
به
نتیجه rXY > 0
برسیم؛ یعنی ،سیگاریها در مقایسه با غیرسیگاریها،
گرایش بیشــتری به نرخهای باالی ســرطان ریه دارند .در این مورد،
همبستگی مثبت بین Xو Y به معنای علیت بیواسطه است.
حــاال فرض کنید که ما دادههــای دیگری نیز از این افــراد در اختیار داریم ،یعنی مقدار نوشیدنیهایی که ایشان بهطور معمول در یک هفته
مینوشند .نام این متغیر را Zمیگذاریم .در عمل ،افرادی که مقدار زیادی
نوشیدنی مینوشند تمایل به کشیدن سیگار نیز دارند،
بنابراینrXZ > 0 ،
است .این همبستگی به این معنا نیست که کشیدن سیگار باعث میشود
که افراد بنوشند ،بلکه به احتمال زیاد نشاندهنده نوعی رفتار اجتماعی تحلیل دادههای اقتصادی
اســت .به عبارت دیگر ،این همبســتگی این واقعیت را نشان میدهد
84
که ســیگاریها چندان مراقب تغذیه خود نیستند ،زندگی اجتماعیشان بیشتر در مکانهایی میگذرد که در آنجا سیگار و نوشیدنی اغلب با هم
مصرف میشوند .همبستگی مثبت میان سیگار کشیدن و نوشیدن ،متاثر از برخی علل زمینهای است (یعنی رفتار اجتماعی)؛ این عامل زمینهای
اســت که باعث بروز هر دو میشود .بنابراین ،همبستگی میان دو متغیر الزاما به این معنا نیســت که یکی علت دیگری است ،بلکه ممکن است عامل سومی مسئول بروز هر دو باشد.
حاال همبستگی بین ســرطان ریه و نوشیدن افراطی را در نظر بگیرید.
چون سیگاریها گرایش بیشتری به ابتال به سرطان ریه دارند و همچنین
ســیگاریها گرایش بیشتری به نوشــیدن دارند ،غیرمنطقی نیست اگر انتظار داشته باشیم که در بین نوشندگان افراطی ،نرخهای باالتر سرطان
ریه نیز وجود داشــته باشــد (یعنی .) rYZ > 0فرامــوش نکنید که این
همبستگی مثبت به این معنا نیست که نوشیدن علت سرطان ریه است؛
بلکه کشیدن سیگار علت سرطان ریه است ،اما سیگار کشیدن و نوشیدن هر دو ناشی از نوعی رفتار زمینهای اجتماعی هستند .در این مثال سعی
شــد تا بر انواع الگوهای پیچیده علیت که در عمل وجود دارند تاکید شود و نشان داده شود که مرتبط ساختن مفاهیم همبستگی و علیت ،باید با چه احتیاطی انجام شود.
مثال :3-4علیت مستقیم در مقابل علیت غیرمستقیم
بین علیت مســتقیم (یا بیواســطه )1و علیت غیرمســتقیم (باواســطه جنگلزدایی/تراکــم جمعیــت ،بین متغیرهای تراکــم جمعیت ( )Xو
جنگلزدایی ( )Yهمبستگی مثبت یافت شد
(یعنی > 0
.) rXYیک دلیل
بر وجود این همبســتگی مثبت این اســت که فشار جمعیت در مناطق روستایی باعث ترغیب کشــاورزان به قطع درختان بهمنظور در اختیار
داشــتن زمین بیشتر برای کشــت و زرع و تامین غذا میشود .در واقع
فرایند توسعه کشــاورزی مزبور ،علت مستقیم جنگلزدایی است .اگر
همبســتگی بین جنگلزدایی و توسعه کشاورزی ( )Zرا حساب کنیم، احتماال باید به نتیجه rYZ > 0برســیم .در این مورد ،تراکم جمعیت باید علت غیرمســتقیم و توسعه کشاورزی علت مستقیم جنگلزدایی باشد.
به بیان دیگر ،میتوانیم بگوییم که ( Xفشــار جمعیت) علت ( Zتوسعه کشــاورزی) و Zعلت Y (جنگلزدایی) اســت .این الگوی علیت با یافتههای rXY > 0و rZY > 0
سازگار است.
2- Proximate
1- Immediate
85
فصل :3همبستگی
یــا تقریبی )2تفــاوت مهمی وجــود دارد .به یاد بیاوریــد که در مثال
اما در مثال قیمت خانه ،همبستگی مثبت یافتشده احتماال دال بر علیت
مســتقیم است .مثال ،داشتن خانه بزرگتر (زمین زیربنای بزرگتر برای خانه و ملحقات آن) بهخودیخود ،از نظر بیشتر افراد چیز خوبی است،
بنابراین افزایش اندازه خانه احتماال باید علت مســتقیم افزایش ارزش خانه باشــد .در این مثال متغیر مداخلهگر 1دیگری وجود ندارد بنابراین میگوییم که علیت مستقیم است .موضوع را میتوان از زاویهای دیگر نیز
بررسی کرد :محلههای مرغوبتر گرایش به خانههای با اندازه بزرگتر دارند .مردم حاضرند بــرای زندگی در محالت بهتر و مرغوبتر ،پول
بیشــتری بپردازند .بنابراین ممکن است که خانههای با اندازه بزرگتر،
همچنین گرایش به قیمتهای فروش بیشتر داشته باشند نه به این دلیل
تحلیل دادههای اقتصادی
که مردم تمایل به داشــتن خانههای بزرگتر دارند بلکه به این دلیل که 86
مردم تمایل به ســکونت در محالت مرغوب دارند .به ســخن دیگر،
عبارت «اندازه خانه» ممکن اســت بهعنــوان جایگزین عبارت «محله
مرغــوب» عمل کند و تاثیر آن را نشــان دهد .در مــورد جزییات این موضوع در فصل بعد ،رگرسیون ،بحث خواهیم کرد .در این فصل تنها
الزم اســت بدانید که تفسیر همبســتگی میتواند کامال پیچیده باشد و یک الگوی همبستگی مشخص ممکن است با چندین موضوع متفاوت سازگار باشد.
بهعنوان یک نتیجه کلی میتوان گفت که هرچند ممکن است همبستگی
متضمن مفاهیم گســتردهای باشد ،اما بهتنهایی دال بر علیت نیست .در مثال سیگار/ســرطان ،وجود همبســتگی مثبت بین ســیگار کشیدن و سرطان ریه ،به همراه شــواهد پزشکی دال بر وجود موادی در ترکیب
1- Intervening variable
سیگار که تغییراتی را در بدن انسان ایجاد میکند ،بیشتر افراد را متقاعد میکند که سیگار علت سرطان است .در مثال قیمت خانه ،عقل سلیم و
فهــم عمومیمان به ما میگویند که متغیر تعداد اتاقهای خواب بهطور مستقیم بر قیمت خانه تاثیر میگذارد .در علم اقتصاد ،میتوان از مفهوم
همبســتگی برای تایید این فهم عمومی یا ارائه یــک نظریه اقتصادی متقاعدکننده برای علیت استفاده کرد.
مترین 3-3
افراد دارای تحصیالت دانشــگاهی در مقایسه با افراد فاقد آن ،گرایش به مشاغل
به افراد مهارتهای مهمی را میآمــوزد که از نظر کارفرمایان ارزش زیادی دارد. یک توجیه دیگر این اســت که افراد باهوش گرایش به رفتن به دانشــگاه دارند و کارفرمایان میخواهند که افراد باهوش را اســتخدام کنند (یعنی مدرک دانشگاهی
بهخودیخود مدنظر کارفرمایان نیســت) .فرض کنید کــه دادههای YدرآمدX ،
تعداد سالهای تحصیل و Zنتیجه آزمون هوش افراد زیادی را در اختیار دارید (با اجتناب از این مجادله روانشناســانه که آیا آزمونهای هوش واقعا بهشکلی دقیق
نشــاندهنده بهره هوشی افراد هستند یا نه) و rXZ ، rXYو rYZرا محاسبه کردهاید .از
دید عملی ،انتظار دارید این همبستگیها چه عالمتی داشته باشند؟ با فرض اینکه همبستگیها عالمتهای مورد انتظارتان را داشته باشند ،آیا میتوانید بگویید کدام یک از سناریوی مطرحشده در پاراگراف قبل درست است؟
درک همبستگی با استفاده از منودار XY
مفهوم همبســتگی را میتوان از نمودار XYتوضیح دادهشده در فصل 2نیز بهطور شــهودی درک کرد .به یاد بیاورد که در آن فصل ما بر مبنای وجود
87
فصل :3همبستگی
با درآمد بیشــتر دارند .این میتواند به این دلیل باشــد که تحصیالت دانشگاهی
تحلیل دادههای اقتصادی
88
شیب رو به باال یا منفی در نمودار ،XYروابط مثبت یا منفی را طرح کردیم. در فصل بعد که مربوط به رگرســیون است ،معنای دقیق و رسمی «شیب رو به باال» و «شــیب رو به پاییــن» در نمودار XYرا توضیح خواهیم داد .برای تفســیر بهتر ،بهشکل ذهنی خط مستقیمی را از میان نقاط نمودار XYترسیم کنیــد که بهتریــن توصیف ممکن از الگوی موجود در دادهها باشــد (یعنی بهترین خط برازششــده .)1شیب رو به باال یا پایین در اینجا به معنی شیب چنین خطی است. حال اگر دو متغیر همبسته باشند ،آنگاه در نمودار XYیک متغیر در مقابل متغیر دیگر نیز چنین الگویی وجود خواهد داشــت .مثال ،در نمودار XYتراکم جمعیت در مقابل جنگلزدایی الگویی با شــیب رو به باال وجود دارد (نمودار 2-3را ببینید). این نمودار نشــان میدهد که این دو متغیر باید بهطور مثبت همبسته باشند، و ما با محاســبه r = 0 / 66فهمیدیم که این همبستگی واقعا وجود دارد .نکته مهم اینجا این اســت که همبســتگی مثبت با شــیب رو به باال نمودار XYو همبستگی منفی با شــیب رو به پایین نمودار XYهمراه است .درکی که فصل پیش از نمودارهای XYبهدســت آوردیم را اکنون میتوانیم برای فهم بیشــتر مفهوم همبستگی بهکار بریم. در نمودار 3-1از مجموعه دادههای قیمت خانه وینسور ()HPRICE.XLS برای رسم نمودار XYای استفاده شده است که در آن محور افقی Xاندازه خانه و محور عمودی Yقیمت آن است .به یاد آورید که همبستگی بین این دو متغیر rxy = 0 / 54محاسبه شده بود که عددی مثبت است.
1- Best fitting line
نمودار .3-1نمودار XYقیمت در مقابل اندازه خانه
فصل :3همبستگی
رابطه مثبت (شــیب رو به بــاال) بین اندازه خانه و قیمــت آن را میتوان بهوضوح در نمودار 3-1دید .یعنی ،خانههای با اندازه کوچکتر (مقادیر کمتر محور افقی) گرایش به قیمتهای کمتــر (مقادیر کمتر محور عمودی) دارند. بهشکل معکوس ،خانههای بزرگتر گرایش به قیمت بیشتر دارند. بحث پیشــین ارتباطی مستقیم با عالمت همبستگی دارد .اما از نمودار XY میتوان همچنین برای درک و تفسیر مفهوم اندازه یا میزان بزرگی همبستگی نیز استفاده کرد ،همانطور که در مثال قبل نیز مشخص است. نمــودار 3-2نمودار XYدو متغیر را نشــان میدهد که همبســتگی کامل (یعنی ) r = 1دارند .به یاد داشــته باشــید که دادههــای متغیرهای این نمودار، دادههای اقتصادی واقعی نیســتند بلکه بهوسیله رایانه شبیهسازی شدهاند .تمام نقاط دقیقا روی یک خط مستقیم قرار دارند. نمــودار 3-3فضــای XYدو متغیر اســت که همبســتگی مثبــت دارند ( ،) r = 0.51اما همبستگیشان کامل نیست .دقت کنید که نمودار XYهمچنان دارای الگویی با شیب رو به باال است اما نقاط پراکندهتر هستند.
89
نمودار .3-2نمودار XYدو متغیر با همبستگی کامل ()r=1
تحلیل دادههای اقتصادی
نمودار .3-3نمودار XYدو متغیر با همبستگی مثبت ()r= 0/51 90
نمودار 3-4نشــاندهنده نمودار XYدو متغیر کامال ناهمبسته ( )r=0است. مالحظه کنید که ب ه نظر میرسد نقاط بهطور تصادفی در سراسر نمودار پراکنده هســتند .نمودارهای XYمتغیرهایی با همبســتگی منفی دارای الگویی با شیب رو به پایین هستند هرچند ممکن اســت شکل این الگوها با یکدیگر متفاوت باشد مثال در نمودار ،3-5نمودار XYهرچند الگویی متفاوت دارد اما همچنان
نشاندهنده دو متغیر با همبستگی منفی ( )r=-0/58است .شکلهای باال شیوهای برای نمایش و فهم همبســتگی است :همبستگی نشــان میدهد که یک خط مســتقیم با چه دقتی بــر نقاط یک نمودار XYمنطبق میشــود .متغیرهایی که همبســتگی قوی دارند کامال یا تقریبا روی یک خط مســتقیم قرار میگیرند. متغیرهایی با همبستگی ضعیف ،در سراسر نمودار XYپراکنده هستند.
مترین 3-4
فایل EX34.XLSشامل 4متغیر
استX2 ، X1 ،Y :
و . X3
(الف) همبســتگی را بین Yو X1بهدســت آورید .محاســبه را برای Yو X2و
همچنین برای Yو X3تکرار کنید.
(ب) نمودار XYبرای Yو X1رســم کنید .ایــن کار را برای Yو X2
(ج) نتایج (الف) و (ب) را تفسیر کنید.
نمودار .3-4نمودار XYدو متغیر کامال ناهمبسته ()r=0
91
فصل :3همبستگی
تکرار کنید.
وYو
X3
همبستگی بین چند متغیر
تحلیل دادههای اقتصادی
92
همبستگی یک ویژگی است که دو متغیر را به هم مرتبط میکند .اما اقتصاددانان در بیشتر موارد با چند متغیر سروکار دارند .مثال قیمت خانه به اندازه آن ،تعداد اتاقهای خواب ،تعداد حمام و بســیاری ویژگیهای دیگر خانه بستگی دارد. همانگونه که در فصل آتی خواهیم دید ،رگرسیون مناسبترین ابزار قابل استفاده برای زمانی اســت که بیشتر از دو متغیر در تحلیل وجود داشته باشد .با وجود این بین محققین نامعمول نیســت که به هنگام کار با چند متغیر ،همبستگی را بین هر جفت متغیر محاسبه کنند .اگر تعداد متغیرها زیاد باشد ،چنین محاسباتی دشوار خواهد بود .مثال اگر سه متغیر X، Yو Zداشته باشیم ،آنگاه بهطور بالقوه سه همبســتگی وجود دارد (یعنی rXZ ، rXY ، rXYو .) rYZاما با اضافه شدن متغیر چهارم مثل ،Wتعداد همبستگیهای ممکن به شش افزایش مییابد (یعنی ، rXY rYW ، rXW ، rXZو .) rZWبهطور کلی برای Mمتغیر M × (M − 1) / 2 ،همبستگی وجود خواهد داشــت .یک روش راحت برای محاسبه تمام این همبستگیها، ساختن یک ماتریس یا تابلو است که با مثال زیر توضیح داده شده است. نمودار .3-5نمودار XYدو متغیر با همبستگی منفی ()r=-0.58
فایل CORMAT.XLSشامل دادههای سه متغیر به نامهای X، Yو Zاست. X در ستون اول Y ،در ستون دوم و Zدر ستون سوم است .با استفاده از اکسل میتوانیم ماتریس همبستگی را (جدول )3-1برای این سه متغیر بسازیم. عدد 0.318237همبستگی بین متغیرهای ستون اول ( )Xو ستون دوم ()Y است .بهطور مشابه -0/13097 ،همبستگی بین Xو Zو 0/096996همبستگی بین Yو Zاست .به یاد داشته باشید که 1های موجود در ماتریس همبستگی به این معنا هستند که هر متغیر با خودش همبستگی کامل دارد. جدول .3-1ماتریس ستون اول
ستون اول
همبستگی Xو Yو Z
ستون دوم
ستون سوم
1
ستون سوم
-0/13097
مترین 3-5
(الف) با استفاده از دادههای ،FOREST.XLSماتریس همبستگی را برای متغیرهای
جنگلزدایی ،تراکم جمعیت ،تغییر مراتع و تغییر گندمزار محاسبه و تفسیر کنید.
(ب) بند (الف) را با اســتفاده از متغیرهای زیر موجود در فایل HPRICE.XLS
تکرار کنید :قیمت خانه ،اندازه خانه ،تعداد اتاقهای خواب ،تعداد حمامها و تعداد
طبقات .چند همبستگی منحصربهفرد محاسبه کردید؟
خالصه فصل
-1همبستگی روشــی معمول برای اندازهگیری رابطه بین دو متغیر است. همبســتگی یک عدد اســت که میتوان آن را با اکسل یا هر نرمافزار اقتصادی محاسبه کرد. -2ســادهترین تفسیر همبستگی عبارت است از یک مقدار یا اندازه عددی که به ارتباط یا وابستگی بین دو متغیر نسبت داده میشود.
93
فصل :3همبستگی
ستون دوم
0/318237
1 0/096996
1
-3همبســتگی را همچنین میتوان به شکل نموداری با استفاده از نمودار XYتفسیر کرد .به این معنی که عالمت همبستگی بستگی دارد به شیب بهترین خطی که میتوان بین نقاط نمودار XYرســم کرد .مقدار یا بزرگی همبستگی نیز بســتگی دارد به اینکه نقاط موجود در نمودار XYچگونه در اطراف این خط پراکنده شدهاند. -4همبستگی ممکن است به دالیل مختلفی وجود داشته باشد اما این دالیل هرچه باشند ،همبستگی الزاما به معنای رابطه علی بین دو متغیر نیست.
ضمیمه :3-1جزییات ریاضیاتی
تحلیل دادههای اقتصادی
همبستگی بین Xو Yکه با rنشان داده میشود را میتوان از رابطه زیر بهدست آورد:
)
94
2
)
−X
−X
∑ ( Y − Y )( X N
i
∑ (Y − Y) ∑ (X N
i
i
i =1
2
N
=r
i ==i 1 i 1
کــه در آن Xو Yمیانگین Xو Yاســت (فصــل 2را ببینید) .همچنین اگــر صورت و مخرج رابطه باال را بر N-1تقســیم کنیم ،آنگاه مخرج تبدیل به انحراف معیار Xو Yو صورت تبدیل به کوواریانس بین Xو Yمیشــود. کوواریانس مفهومی اســت که آن را توضیح ندادهایم اما ممکن است شما در آینده با آن مواجه شــوید ،بهخصوص اگر متمایل به کســب درکی عمیقتر از نظریه آماری پس مفهوم همبستگی باشید.
فصل 4 معرفی رگرسیون ساده
95
فصل :4معرفی رگرسیون ساده
رگرسیون مهمترین ابزاری است که اقتصاددانان کاربردی برای درک رابطه میان دو یا چند متغیر از آن استفاده میکنند .بهخصوص زمانی که تعداد متغیرها زیاد (بهعنوان مثال ،بیکاری و نرخهای بهره ،عرضه پول ،نرخهای ارز ،تورم و نظایر اینها) یا اثرات متقابل بین آنها پیچیده باشد. بهعنوان مثال ،در تابســتان ،1998تنظیم نرخهای بهره در سطح مناسب در کانون توجه رســانههای انگلســتان قرار گرفت .بهطور خاص ،بخش تولید از نرخهای بهره باال ناراضی بود و اعتقاد داشت که نرخهای بهره باال ،باعث ترغیب خارجیان به سرمایهگذاری پولشان در انگلستان میشود و این ،ارزش پوند را افزایــش میدهد .پوند گرانتر صادرات محصول را برای بنگاههای انگلیســی دشــوار میکند و باعث کاهش فروش ،افزایش اخراج کارگران و افزایش نرخ بیکاری میشود. اما این تنها بخشــی از داستان اســت .برخی دیگر عقیده داشتند که نرخهای بهره بسیار پایین است و بر مبنای رابطه نرخ بهره و تورم بحث میکردند که برای سرکوب فشارهای تورمی نرخهای بهره باالتر مورد نیاز است .پس پای یک سوال مهم اقتصادی (یعنی تعیین نرخ بهره) در میان بود و برای رسیدن به پاسخ مناسب میبایست تعداد بسیار زیادی متغیر -نرخهای بهره ،نرخهای ارز ،تورم ،مقدار تولید،
تحلیل دادههای اقتصادی
صادرات ،بیکاری -در نظر گرفته شود .تمام این متغیرها (و متغیرهای دیگر) در این بحث که نرخ بهره مناسب چقدر باید باشد دخیل بودند. بهعنــوان مثال دوم ،موضوع تالش برای توضیح قیمت مســکن را در نظر بگیرید .قیمت مســکن به عوامل متعددی بســتگی دارد (مثال تعداد اتاقهای خواب ،تعداد حمامها ،موقعیت مسکن ،متراژ آن و نظایر اینها) .مانند مثال باال، برای ساختن مدلی برای توضیح اینکه چرا برخی خانهها از بقیه گرانتر هستند، متغیرهای زیادی باید در نظر گرفته شوند. این دو مثال ،مثالهای خارقالعادهای نیســتند .بیشــتر مسائل در اقتصاد در همین ســطح از پیچیدگی قرار دارند .متاسفانه ،ابزار اصلی که پیشتر با آن آشنا شدیم -تحلیل همبستگی ساده -برای چنین سطحی از پیچیدگی مناسب نیست. برای این مسائل دشــوار -یعنی مسائلی که شامل بیش از دو متغیر هستند -از ابزار رگرسیون استفاده میشود. 96
رگرسیون بهعنوان بهرتین خط برازش شده
برای توضیح رگرســیون ،بگذارید با دو متغیر شروع کنیم ( Yو .)Xموضوع را با رگرســیون ساده شروع میکنیم .رگرسیون چندگانه ،شامل چندین متغیر ،در فصل 6بررسی خواهد شد .شروع کردن با رگرسیون ساده از این جهت مناسب است که میتوان با استفاده از نمودار ،درکی مستقیم و شهودی بهدست آورد و ارتباط بین رگرسیون و همبستگی را بهآسانی نشان داد. اجازه بدهید به نمودار XYای که پیشــتر داشتیم برگردیم (مثال نمودار 2-3 که تراکم جمعیت را در مقابل جنگلزدایی رســم میکرد یا نمودار 3-1که در آن اندازه خانه در مقابل قیمت آن ترســیم شــده بود) .در فصل 2و 3توضیح دادیم که بررســی این نمودارهای XYچگونه میتواند موضوعات مهمی را در مورد رابطه بین Xو Yآشــکار کند .بهطور خاص ،خط مستقیمی که بین نقاط نمودار XYترسیم شد خالصهای آسان و سرراست از ارتباط بین Xو Yرا نشان میدهد .در تحلیل رگرسیون ،این ارتباط را بهشکلی رسمیتر تحلیل میکنیم.
برای آغاز ،فرض میکنیم که رابطهای خطی بین Yو X وجود دارد .بهعنوان Yرا قیمت مســکن (خانه) و Xرا انــدازه آن فرض کنید که مثــال ،میتوانید دادههای آن در فایل HPRICE.XLSوجود دارد .این فایل شامل قیمت فروش به همراه چند ویژگی دیگر ،برای 546خانه در وینســور کانادا اســت .منطقی است اگر فرض کنیم که اندازه خانه بر قیمت فروش آن تاثیر میگذارد .ارتباط Xرا میتوان بهشکل رابطه ریاضی زیر نشان داد: خطی بین Yو Y = α + βX
97
فصل :4معرفی رگرسیون ساده
میدانیم که در بسیاری مواقع عالمت ضرب را برای سادگی حذف میکنیم. مثال بهجای اینکه بنویسیم ) Y = α + ( β × Xفقط مینویسیم Y = α + βX که αجزء یا مقدار ثابت (عرض از مبدا) خط و βشیب آن است .این معادله را خط رگرســیون مینامند .اگر مقدار αو βمعلوم میبود ،آنگاه میدانستیم کــه دقیقا چه رابطهای بین αو βوجود دارد .در عمل البته ما این اطالعات را نداریم .بهعالوه ،حتی اگر مدل رگرســیون ما که ارتباطی خطی بین Yو Xرا فرض میکند درســت میبود ،نقاط مشاهدات یا دادهها در جهان واقعی هرگز روی یک خط مستقیم قرار نمیگرفت .عواملی مانند خطای اندازهگیری باعث میشــوند تا تکتک نقاط یا دادهها دقیقا روی یک خط مســتقیم قرار نگیرند هرچند ممکن است نزدیک به آن باشند. مثــا فرض کنید قیمت فروش خانه ( )Yبــه اندازه یا زیربنای خانه ( )Xبا رابطه Y=34000+7Xبستگی داشته باشد (یعنی α =34000و β =7است). اگر Xبرابر 5000فوت مربع (حدود 465متر مربع) باشد ،مدل به ما میگوید که =باشد .اما البته Y 34000 + 7 × 5000 قیمت فروش خانه باید = $ 69000 هر خانهای با زیربنای 5000فوت مربع قیمت فروشی دقیقا برابر 69000دالر نخواهد داشت .بدون شک مدل رگرسیون ما برخی متغیرهای مهم (مثل تعداد اتاقهای خواب) که ممکن اســت بر قیمت خانه موثر باشند را نادیده میگیرد. بهعالوه ،قیمت برخی خانههای فروختهشده ممکن است از ارزش واقعی آنها بیشتر باشد (مثال اگر خانه توسط خریداری پولدار با رفتار غیرعقالیی خریداری
تحلیل دادههای اقتصادی
98
شــده باشــد) .در مقابل نیز برخی خانهها هســتند که به قیمتی کمتر از ارزش واقعیشان به فروش رفتهاند (مثال به این دلیل که فروشنده باید بهسرعت محل زندگی خود را تغییر دهد و در نتیجه نیاز فوری به پول حاصل از فروش خانه خــود دارد) .بنا به همه این دالیل ،حتی اگــر معادله Y=34000+7Xتوصیفی دقیق از خط مستقیم مبین رابطه بین Yو Xباشد ،باز هم به این معنا نیست که هر نقطه از دادهها -یا مشاهدات -دقیقا روی این خط قرار میگیرد. مثال قیمت خانه حقیقتی را در مورد مدلسازی رگرسیون نشان میدهد :در تمام موارد ،مدل رگرســیون خطی فقط تخمینی از رابطه واقعی است .تخمین حاصل از مدل رگرســیون خطی به دالیل مختلفی ممکن است با رابطه واقعی تفاوت داشته باشد .در علم اقتصاد ،بیشتر خطاها بهدلیل متغیرهای مفقود است؛ متغیرهایی که معموال قادر به مشــاهده آنها نیســتیم .در مثال پیشــین ،قیمت خانــه به برخی عوامل واکنش نشــان میدهد که قادر به جمــعآوری داده در موردشان هستیم (مثل تعداد اتاقهای خواب ،تعداد حمامها و غیره) .اما قیمت خانه به عوامل دیگری نیز وابســته اســت که جمعآوری داده برایشان اگر نه غیرممکن ،بســیار دشوار اســت (مثال تعداد مهمانیهای پر سر و صدایی که توسط همســایگان برگزار میشود ،میزان دقت صاحبان پیشین در مورد حفظ، نگهداری و تعمیرات خانه ،کیفیت دکوراسیون داخلی خانه و غیره) .حذف این متغیرها از مدل رگرسیون به این معنا خواهد بود که مدل با خطا همراه است. چنین خطاها یا جزءخطایی 1را eمینامیم .پس اکنون میتوان مدل رگرسیون را بهصورت زیر نوشت: Y = α + βX + e
در مــدل رگرســیون Y ،را متغیر وابســته X ،را متغیر توضیحی و αو β
را ضرایب مینامند .عموما بهشــکل ضمنی فرض میشود که متغیر توضیحی «علت» Yاســت و ضریب βمیزان تاثیــر Xبر Yرا اندازه میگیرد .با توجه به 1- Errors
1- association
99
فصل :4معرفی رگرسیون ساده
مطالــب فصل گذشــته در مورد اینکه چرا همبســتگی الزاما بهمعنای علیت نیست ،ممکن است این سوال برایتان پیش آمده باشد که چگونه فرض شده اســت که متغیر توضیحی علت متغیر وابسته است .به این سوال به سه شکل میتوان پاسخ داد .اول اینکه به یاد داشته باشید که ما در مورد مدل رگرسیون صحبت کردیم .یک مدل ،مشــخص میکند کــه چگونه متغیرهای مختلف بر یکدیگر اثر میگذارند .مثال مدل اســتفاده از زمین (در فصل )2فرض میکند که فشــار جمعیت باعث میشــود که کشاورزان روســتایی مزارع خود را با قطع کردن درختان گسترش دهند ،بنابراین باعث جنگلزدایی میشوند .چنین مدلهایــی علیت را بهصورت پیشفرض درون خود دارند و هدف از برآورد مدل رگرسیون با متغیر جنگلزدایی= Yو تراکم جمعیت= Xفقط این است که میزان بزرگی تاثیر فشــار جمعیت را انــدازه بگیرد (یعنی فرض علیت ممکن اســت منطقی باشــد و فرض گرفتن آن مهم نیســت) .دوم اینکه ،میتوانیم رگرســیون را صرفا بهعنوان یک تکنیک برای تعمیم همبستگی در نظر بگیریم و از آن برای تفســیر اعدادی که مدل رگرسیونی تنها بهمنظور منعکس کردن ارتباط بین متغیرها تولید میکند اســتفاده کنیــم .به عبارت دیگر ،در صورت نیاز میتوانیم از فرض علیت صرفنظر کنیم .ســوم این که میتوان اذعان کرد که فرض تلویحی علیت ممکن اســت مشکلزا باشــد و روشهای جدیدی را توســعه دهیم .در فصل آخر این کتاب این موضوع بهطور خالصه تشریح خواهد شــد اما افزودن توضیحی کوتاه در این بخش هم احتماال مفید است. بعضی کتابهای آماری بین همبســتگی و رگرسیون تفاوت قائل میشوند و بحث میکنند که همبســتگی را باید بهعنوان معیار وابســتگی 1بین دو متغیر تفســیر کرد نه معیار علیت .در مقابل ،تفسیر رگرســیون باید بر مبنای علیت و بهشــکل چنین گزارهای باشــد« :نظریه اقتصادی به ما میگوید که Xعلت Yاست» .البته قائل شــدن به وجود این تفاوت باعث ساده شدن تفسیر نتایج
تحلیل دادههای اقتصادی
100
تجربی میشود .گذشــته از این بحثها ،سادهتر این است که فکر کنیم متغیر وابســته -که بهتنهایی در یک ســمت معادله رگرســیون قرار دارد« -معلول» متغیرهای توضیحی اســت که در سمت دیگر معادله رگرسیون قرار دارند .اما میتوان اینگونه هم بحث کرد که این تفاوت در تفســیر در واقع ســاختگی است .همانطور که در فصل 3دیدیم ،بسیاری موارد وجود دارد که همبستگی در وافع نشاندهنده علیت اســت .عالوه بر این ،در فصلهای آتی با مواردی مواجه میشویم که رگرســیون بر مبنای علیت است ،مواردی که بر مبنای آن نیست و همچنین مواردی که مطمئن نیستیم که هست یا نیست .پیام کلی این بحث این است که برای تفســیر نتایج رگرسیون بهعنوان یک رابطه علی باید احتیاط کرد .همین نتیجه در مورد همبســتگی هم وجود دارد .بهترین راهکار برای تفسیر نتایج این دو ،تکیه بر عقل سلیم و نظریه اقتصادی است. بــا توجه بهجزءخطا یا eو این موضوع که مقــدار αو βرا نمیدانیم، مشکل اول در تحلیل رگرسیون این است که مقدار αو βرا بهطور تقریبی ∧ ∧ تعیین یا برآورد کنیم .بهشــکل اســتاندارد تخمین αو βرا با αو βنشان ∧ ∧ میدهند (یعنی αو βاعداد واقعی هســتند که رایانه محاســبه میکند مثال ∧ α =34136و β =6 / 599کــه تخمینهایــی از مقادیر واقعــی غیرقابل مشــاهده α =34000و β =7هستند) .در عمل ،روش یافتن این تخمینها، ترســیم خطی از میان نقاط روی نمودار XYاست که بهترین برازش را داشته باشد .بنابراین باید معنی عبارت «بهترین خط برازششده» 1را تعریف کنیم. پیش از انجام این کار ،الزم اســت که بیــن دو عبارت خطاها یا جزءخطا و پســماند 2تفاوت قائل شــویم .جزءخطا بهعنوان فاصله بین هر مشاهده یا داده (هر نقطه در نمودار )XYو خط رگرســیون واقعی تعریف میشــود .از لحاظ ریاضی ،میتوان با بازنویسی مدل رگرسیونی مقدار جزءخطا را با رابطه Yi − α − βXi = eنشــان داد .این رابطه مقدار جزءخطا را برای مشــاهدهi i 2- Residuals
1- Best fitting line
∧
101
فصل :4معرفی رگرسیون ساده
ام نشــان میدهد .اگر بهجای مقادیــر αو ، βتخمینهای آنها یعنی αو ∧ βرا جایگذاری کنیم یک خط مســتقیم بهدســت میآید که در مجموع فقط اندکی متفاوت از خط رگرســیون واقعی است .انحراف از این خط رگرسیون برآوردشده را پسماند یا جزءپسماند مینامند .برای اشاره کردن بهجزءپسماند ∧ ∧ از uاستفاده میکنیم .بنابراین جزءپسماند عبارت است از u=i Yi − α − β Xi .اگر درک تفاوت بین اجزای خطا و پســماند برایتان ســخت است ،احتماال اشکالی نخواهد داشــت که در ادامه کتاب از تفاوت بین این دو صرفنظر و فرض کنید که اجزای خطا و پسماند یک چیز هستند .اما اگر قصد دارید که به مطالعه اقتصادسنجی ادامه دهید ،درک تمایز این دو حیاتی است. مطابق اصول اولیه هندســه ،یک و فقط یک خط میتوان رسم کرد که دو نقطه مجزا را به هم متصل کند .بنابراین اگر دو نقطه داشته باشیم ،معنی بهترین خط برازششــده در نمودار XYواضح است .اما معموال با تعداد زیادی نقطه مواجه هســتیم -مثال در مثال جنگلزدایی/تراکم جمعیت 70کشــور مختلف و در نتیجــه 70نقطه مجزا در نمــودار XYوجود دارد -و معنی «بهترین خط برازششده» با ابهام همراه است .نمودار XYشکل 4-1دارای 3نقطه مشاهده ( Cو )A.Bاست .واضح است که هیچ خط مستقیمی که از هر 3نقطه بگذرد وجود ندارد .خط رسمشــده از هیچیک از این 3نقطه عبور نمیکند؛ هر نقطه اندکی از خط فاصله دارد. بهعبارت دیگر ،خط کشیدهشــده نشان میدهد که اجزای پسماند u2 ، u1 و u3هســتند .هر جزءپسماند عبارت اســت از فاصله عمودی بین هر نقطه مشــاهده و خط رگرسیون .یک خط رگرســیون که خوب برازششده باشد اجزای پسماند کوچکی دارد.
نمودار .4-1بهترین خط برازش برای سه مشاهده
تحلیل دادههای اقتصادی
روش معمول اندازهگیری مقدار پســماندها ،مجموع مربعات پســماندها ( )SSRاست که با رابطه زیر تصریح میشود:
1
102
N
SSR = ∑ui2 i =1
که =i 1 .….Nتعداد مشاهدات (نقاط) اســت .ما در پی یافتن بهترین خط برازش هستیم که مجموع مربعات پسماندها را حداقل کند .به این منظور ،برآوردی که به این روش انجام میشود را برآورد حداقل مربعات 2مینامند .برای تشخیص تفاوت بین این برآوردگر با سایر برآوردگرهای پیچیدهتری که تا فصل آخر کتاب در مورد آن بحث نمیکنیم ،این روش را حداقل مربعات معمولی 3یا OLSنیز مینامند. در عمل ،بستههای نرمافزاری مانند اکسل میتوانند بهطور خودکار مقادیری برای ∧ ∧ ∧ ∧ αو βبیابند که مجموع مربعات پسماندها را حداقل کند .فرمول دقیق محاسبه α و βرا میتوان با محاســبهای ساده بهدست آورد اما ما این فرمول را در این بخش نمیآوریم (برای جزییات بیشتر ضمیمه 4-1را مالحظه کنید). 3- Ordinary
2- Least squares
1- Sum of squared residuals
مثال 4-1الف :رگرسیون جنگلزدایی بر روی تراکم جمعیت
مجددا مجموعه داده FOREST.XLSرا بهخاطر بیاورید که شــامل دادههای تراکم جمعیت و جنگلزدایی برای 70کشور گرمسیری است.
منطقی اســت اگر فرض کنیم که تراکم جمعیت بیشتر بر جنگلزدایی تاثیــر دارد تا جنگلزدایی بر تراکم جمعیت .پــس متغیر جنگلزدایی
را متغیر وابســته (یعنی جنگلزدایــی= ) Yو تراکم جمعیت را متغیر
توضیحــی (یعنی تراکم جمعیــت = )Xفرض میکنیم .با اســتفاده از
اکسل (مســیر )Tools/Data Analysis/Regressionمقدار ضرایب ∧
∧
رگرسیون معمول است که بگوییم « Yرا بر Xرگرس کردیم».
در نظر داشته باشید که محاسبه این اعداد در بیشتر بستههای نرمافزاری
واقعا ساده است؛ بههمین دلیل به موضوعی مهمتر میپردازیم :چگونه باید این اعداد را تفسیر کرد.
مثال 4-2الف :هزینه تولید در صنعت برق
فایــل ELECTRIC.XLSشــامل دادههای هزینه تولیــد (به میلیون
دالر) برای 123شــرکت تولیدی صنعت برق آمریکا در ســال 1970
اســت .هدف اصلــی درک عوامل موثــر بر هزینههاســت .از اینرو،
هزینه تولید= Yمتغیر وابسته است .هزینههایی که یک شرکت فعال در صنعت برق متحمل میشود بهشکل بالقوه میتواند از عوامل گوناگونی تاثیر بپذیرد .یکی از مهمترین این عوامل بدون شــک ،مقدار تولید (بر
103
فصل :4معرفی رگرسیون ساده
α =0 / 6و β = 0 / 000842بهدســت میآید .برای آشــنایی بیشتر شــما با اصطالحات پرکاربرد بهتر اســت بدانید که هنگام برآورد خط
حسب هزار کیلووات ساعت برق تولیدشــده) شرکت است .میتوان
انتظار داشــت شــرکتهایی که برق بیشــتری تولید میکنند ،متحمل
هزینههای بیشتری نیز بشوند (زیرا برای تولید برق بیشتر باید سوخت
بیشتری بخرند) .بنابراین تولید = Xیک متغیر توضیحی قابل قبول است. ∧
∧
اگــر هزینهها را روی تولیــد رگرس کنیم α =2 / 19 ،و β = 0 / 005
بهدست میآوریم.
مثال 4-3الف :تاثیر تبلیغات بر فروش تحلیل دادههای اقتصادی
فایل ADVERT.XLSشامل دادههای ساالنه فروش و مخارج تبلیغات
(هر دو بر حسب میلیون دالر) 84شرکت آمریکایی است .ممکن است 104
مدیر شــرکتی عالقهمند به کمی کردن تاثیر تبلیغات بر فروش باشــد.
چنین کاری با برآورد یک مدل رگرسیونی با متغیر وابسته فروش = Yو متغیر توضیحی مخارج تبلیغات = Xانجام میشود .پس از رگرس کردن، ∧
∧
مقادیر α =502 / 02و β = 0 / 218بهدســت میآید که نشــاندهنده رابطه مثبت بین تبلیغات و فروش است.
تفسیر برآوردهای OLS
در مثــال رابطه بین جنگلزدایی و تراکم جمعیت ،برآوردهــای OLSرا در مورد جزء ثابت (عرض از مبدا) و شــیب خط رگرسیون بهدســت آوردیم .سوالی که اکنون بهوجود میآید این اســت :چگونه باید این برآوردها را تفســیر کنیم؟ برای جزء ثابت (عرض از مبدا) مدل رگرسیون یعنی ، αمعموال تفسیر اقتصادی چندانی ارائه نمیشــود پس اینجا در مورد آن بحث نمیکنیم .اما βمعموال بســیار مهم اســت .این ضریب شیب بهترین خط مستقیم برازششــده در نمودار XYاست.
∧
در مثــال جنگلزدایی/تراکم جمعیت β ،مثبت بود .با به یاد آوردن بحث در مورد ∧ چگونگی تفسیر همبستگی در فصل قبل ،میدانیم که چون βمثبت است پس Xو ∧ Y همبستگی مثبت دارند .با مشتق گرفتن از مدل رگرسیون میتوانیم βرا بیشتر هم تفسیر کنیم .رابطه مشتق عبارت است از: dY = β dX
1- Marginal effect
105
فصل :4معرفی رگرسیون ساده
حتی اگر مشــتق گرفتن بلد نباشید ،درک شهودی رابطه باال دشوار نیست. این مشــتق به ما میگوید که اگر Xمقدار اندکی (نهایی ،حاشیهای یا مارژینال) Yچقدر تغییر میکند .بنابرایــن βمیتواند بهعنوان تاثیر نهاییX 1 تغییــر کند ، بر Yتفسیر شــود و مقیاسی اســت برای اندازهگیری مقدار تاثیر Xبر .Yاگر بخواهیــم دقیقتر صحبت کنیم میتوانیم βرا بهعنوان مقیاس میزان گرایش Y بــه تغییر در نظر بگیریم زمانی که X یــک واحد تغییر میکند .تعریف «واحد» در جمله پیشــین بســتگی به دادههای مورد بررســی دارد و بهتر است با مثال بیان شــود .مثال هر مقدار دلخواهی را برای β ، αو Xانتخاب کنید سپس با Yرا بهدست آورید (این جایگذاری این مقادیر در رابطه Y = α + βXمقدار Xرا یــک واحد افزایش دهید و αو βرا مقــدار را « Yواقعی» بنامید) .حاال تغییر ندهید و Y جدید را حســاب کنید .مهم نیست که مقادیر دلخواه اولیه α β ،و Xچقدر بودهاند؛ Yجدید منهای Y واقعی دقیقا برابر βاست .بهعبارت دیگر β ،مقیاس تاثیر بر Yدر اثر افزایش X به اندازه یک واحد است.مجددا تاکید میکنیم که رگرسیون در واقع گرایش موجود در دادهها را اندازه میگیرد (به استفاده از واژه «گرایــش» در توضیح βدر چنــد جمله قبل دقت کنید) .به عبارت دیگر الزامی نیست که هر مشاهده (کشور یا خانه) با الگوی کلی بنا شده بر مبنای -تمام- سایر مشاهدات بخواند .چنین مشاهدات نامعمولی را در فصل 2مشاهدات پرت نامیدیم و بحث کردیم که در برخی موارد بررسی این مشاهدات پرت میتواند بسیار
آموزنده باشد .در مدل رگرسیون ،مشاهدات پرت آنهایی هستند که جزءپسماندشان بهطور غیرمنتظرهای بزرگ است .بنابراین بررسی پسماندهای مدل رگرسیون امری معمول است( .در منوی رگرسیون اکسل میتوان با کلیک کردن گزینه Residuals پسماندها را بررسی کرد).
مثال 4-1ب :رگرسیون جنگلزدایی بر روی تراکم جمعیت در مثال جنگلزدایی/تراکم
∧
جمعیت β = 0 / 000842
بهدســت آمد .این
معیاری است برای اندازهگیری میزان گرایش به تغییر جنگلزدایی زمانی که تراکم جمعیت مقدار اندکــی تغییر میکند .چون تراکم جمعیت بر
تحلیل دادههای اقتصادی
حســب تعداد افراد به ازای هر 1000هکتار و جنگلزدایی بر حسب
درصد ساالنه کاهش وسعت جنگل اندازهگیری میشود ،رقم
106
β
به این
معناست که اگر یک نفر به هر 1000هکتار اضافه کنیم (یعنی یک واحد
تغییر در متغیر توضیحی) متغیر جنگلزدایی گرایش دارد که 0/000842 افزایش یابد.
میتوانیم این اطالعــات را بهصورت زیر هم بیان کنیم .در عمل تغییر تراکم جمعیت بین کشورها بسیار کم است :از کمتر از 100نفر تا بیش
از 2500نفر در هر 1000هکتار .پس عجیب نیســت که تغییر فقط 1
نفر تاثیر اندکی بر جنگلزدایی داشــته باشد .میتوانیم تمام اعدادمان را در 100ضرب کنیم و بگوییم که «افزایش تراکم جمعیت به اندازه 100 نفر در هزار هکتار گرایــش دارد که جنگلزدایی را %0/0842افزایش
دهد» .حتی این عدد آخر هم ممکن است ناچیز یا بیمعنی بهنظر برسد اما فراموش نکنید که اگر نرخ ســاالنه جنگلزدایی کشــوری هر سال %0/0842افزایش یابد باعث میشود که آن کشور پس از 50سال %5از
جنگلهایش را از دست بدهد .در بلندمدت و برای مساحتهای بزرگ -مقیاسهای مکانی و زمانی که برای اقتصاددانان محیط زیســت عادی
است -این درجه از کاهش جنگلها قابل توجه است.
مثال 4-2ب :هزینه تولید در صنعت برق
∧
در رگرسیون هزینههای شــرکت بر تولید ،مقدار βرا 0/005بهدست آوردیم .به یاد داشــته باشــید که واحد ، βتاثیر بر متغیر وابسته در اثر
کیلووات ســاعت اندازه گرفته میشــود پس یک واحد تغییر در متغیر
توضیحی معادل اســت با یــک هزار کیلووات ســاعت؛ و از آنجاکه
هزینهها بر حسب میلیون دالر هســتند ،واحد βعبارت میشود از
β
میلیــون دالر .با ترکیب اینها میتوانیم بگوییم «که یک هزار کیلووات ســاعت افزایش تولید گرایش دارد کــه هزینهها را 5000دالر افزایش
دهد» (زیرا 5000 = .) 0 / 005 × 1.000.000البته میتوانیم همین نتایج
را در مورد کاهش متغیرها نیز بیان کنیم .یعنی میتوانیم «بگوییم کاهش
تولید گرایش دارد که هزینهها را 5000دالر کاهش دهد».
مثال 4-3ب :تاثیر تبلیغات بر فروش
∧
هر دو متغیر تبلیغات و فروش بر حسب میلیون دالر هستند و β = 0 / 218
بهدســت آمد .با همان منطق دو مثال پیشین ،میتوانیم بگوییم که یک
107
فصل :4معرفی رگرسیون ساده
یک واحد تغییر در متغیر توضیحی اســت .چون تولید بر حسب هزار
میلیون دالر افزایش تبلیغات گرایش دارد که فروش را 218.000دالر = .) 1.000.000 × 0 / 218این نتیجه افزایش دهد (زیــرا 218.000
ممکن است به این معنی باشد که خرج کردن برای تبلیغات چندان مولد و پرحاصل نیست زیرا یک میلیون دالر افزایش این مخارج ،فروش را فقط 218.000دالر افزایش میدهد.
آیا نتیجه این رگرســیون به آن معناســت که مدیر شرکت باید مخارج تبلیغــات را کاهش دهد؟ شــاید ،اما نه الزاما .دلیــل این عدم اطمینان
به مفهوم علیت و چگونگی تفســیر همبســتگی و رگرســیون بستگی دارد (فصــل 3یا مطالــب قبلی همین فصل را مالحظــه کنید) .یعنی
تحلیل دادههای اقتصادی
اگر رگرســیون واقعا یک رابطه علی باشــد (به این معنی که تبلیغات تاثیر مســتقیم بر فروش داشته باشــد) ،آنگاه عدد 218.000دالر را
108
میتوانیم نشــاندهنده چگونگی تاثیر تغییر در مخارج تبلیغات بدانیم. اما اگر رگرســیون یک رابطه علی نباشــد ،آنگاه برای استفاده از نتایج
رگرســیون برای ارائه توصیههای استراتژیک به شــرکت باید احتیاط کنیم .در واقع ممکن است که روسای شرکتهای بزرگتر تمایل داشته
باشند که برتری خود و شــرکت خود را با تبلیغات بیشتر نشان دهند.
اگر این موضوع ،هرچند غیرمحتمل اما درســت باشد آنگاه میتوانیم انتظار داشته باشیم که شرکتهای بزرگتر ،تبلیغات بیشتری هم داشته
باشند؛ یعنی دقیقا همان نتیجهای که رگرسیون ما هم به آن رسید .چنین
تفســیری میتواند ضمنا به این معنا باشد که ممکن است تبلیغات تاثیر
مســتقیمی بر فروش نداشته باشد .رابطه مستقیم بین تبلیغات و فروش
که در تحلیل رگرسیون بهدست آمد ممکن است تنها به دلیل شیوه رفتار روسای شرکتهای بزرگ باشد.
تصمیم گرفتن در این مورد که آیا مدل رگرســیونی نوعی رابطه علی است که در نتیجه آن یک متغیر بهطور مســتقیم بر متغیر دیگر تاثیر میگذارد ،بسیار دشوار است و نمیتوان قاعده یا راهحل کلی برای آن ارائه کرد .بهترین پیشنهاد شاید این باشد که عقل سلیم و نظریه اقتصادی را راهنمای تفسیر خود کنیم.
مترین 4-1
دادههــای اکســل فایــل FOREST.XLSشــامل دادههــای جنگلزدایی =،Y
Zاست. تراکم جمعیت = ،Xتغییر گندمزار =W و تغییر در مراتع = (الف) Yرا روی Xرگرس و نتایج را تفسیر کنید.
Zرگرس و نتایج را تفسیر کنید. (ب) Yرا روی Wو مجددا Yرا روی متغیر جدید چیست؟
(د) رگرسیون Yرا روی V انجام دهید .نتایج را با بند (الف) مقایسه کنید .چگونه ∧
ضریب برآوردشده βرا تفسیر میکنید؟ تفاوت αدر بند (الف) و (د) چیست؟ (ه) واحد شمارش متغیرهای وابسته و توضیحی را تغییر دهید (با تقسیم کردن آنها بر یک عدد) و مالحظه کنید که این تغییر چه تاثیری بر ضرایب برآوردشده دارد؟
مقادیر برازششده و :R2اندازهگیری نیکویی برازش 1مدل رگرسیون ∧
∧
در بحث پیشــین آموختیم که چطور ضرایب رگرسیون یعنی αو βرا محاسبه و تفســیر کنیم .بهعالوه توضیح دادیم که مدل رگرسیون با حداقل کردن ،SSR «بهترین خط برازششــده» را نتیجه میدهد .اما میتوان حالتی را در نظر گرفت که این «بهترین» برازش ،اصال برازش خوبی نباشــد .بنابراین مطلوب اســت که معیاری برای خوب بودن یا نیکویی خط برازششــدهمان در اختیار داشته باشیم (یا معیاری برای تشــخیص اینکه بهترین خط برازشمان چقدر خوب است؟) 1- Fit
109
فصل :4معرفی رگرسیون ساده
Vبسازید .واحد شمارش این (ج) با تقسیم کردن Xبر ،100متغیر جدیدی به نام
تحلیل دادههای اقتصادی
110
رایجترین معیار برای نیکویی برازش R 2 ،نامیده میشود .این معیار رابطه نزدیکی Yو Xدارد .در واقع ،در مدل رگرسیون ساده ،این معیار با مفهوم همبســتگی بین برابر با مقدار ضریب همبستگی به توان دو است و در نتیجه رگرسیون و همبستگی را بهشکل آماری به هم مرتبط میکند .اما ارتباط غیررسمی یا مفهومی رگرسیون و همبستگی نیز در بحثهای قبلی بیان شد .هدف رگرسیون و همبستگی ،هر دو عبارت است از کمی کردن درجه ارتباط بین متغیرهای متفاوت و هر دو را میتوان Xنشان داد. با استفاده از خط برازش و بهوسیله نمودار Y برای بهدســت آوردن و توصیف R 2از برخــی مفاهیم پایه و با تمرکز بر مقدار برازششــده آغاز میکنیم .به یاد بیاورید که رگرسیون یک خط مستقیم Xرســم میکند اما از تمام نقاط موجود را در نمودار پراکنش مشــاهدات یا Y در این نمودار (مشــاهدات) رد نمیشــود (پس جزءخطا ایجاد میشود) .در مثال جنگلزدایی/تراکم جمعیت ،این مفهوم به آن معناست که برخی کشورها هســتند که نقطه مشــاهده آنها دقیقا روی خط رگرســیون نمیافتد .مقدار برازششــده برای مشاهده iاُم عبارت اســت از مقدار منتاظر با Xiآن مشاهده (مثال هر خانه یا کشور) که دقیقا روی خط رگرسیون میافتد .بهعبارت دیگر Xیک خط صاف و عمودی رســم کنید، اگــر از روی هــر نقطه در نمودار Y تقاطع این خط عمودی و خط رگرسیون عبارت است از مقدار برازششده آن نقطهای که انتخاب کردید .میتوانیم مفهوم مقدار برازششده را با فرمول مدل رگرسیون بیان کنیم: Yi = α + βXi + ei
اضافه کــردن اندیس ( iمثل ) Yiبه این موضوع اشــاره میکند که منظور ما یک مشــاهده خاص (مثال کشــور iاُم یا خانه iاُم) اســت .اگر از جزءخطا
صرفنظر کنیم ،میتوانیم بگوییم که پیشبینی مدل رگرســیون از Yiباید برابر ∧ ∧ با α + βXiباشــد .اگر مقدار αو βرا با بــرآورد LS Oآنها یعنی αو β جایگذاری کنیم ،آنگاه مقدار برازششده یا پیشبینیشده Yiبهدست میآید: ∧
∧
∧
Y i = α + β Xi
این موضوع را فراموش نکنید که ما از مقدار متغیر توضیحی استفاده میکنیم و خروجی یا همان پیشبینی OLSعبارت است از برآورد متغیر وابسته .با مقایسه ∧ مقدار واقعی ( ) Yiو مقدار پیشبینیشده( ) Yiمیتوانیم تصوری از «نیکویی برازش» مدل رگرسیون بهدست آوریم .بسیاری از بستههای نرمافزاری امکان رویت نسخه چاپی مقادیر واقعی و برازششــده هر مشاهده را فراهم میکنند .بررسی این دو مقدار نه تنها معیاری برای نیکویی برازش مدل رگرسیونی بهدست میدهد بلکه این امکان را فراهم میکند تا فاصله (دوری یا نزدیکی) هر مشاهده از خط رگرسیون را دید .چون خط رگرســیون الگوی کلی یــا گرایش موجود در مجموعه دادهها (مشاهدات) را نشان میدهد ،میتوان دید که کدام داده از این الگوی کلی تبعیت میکند و کدام تبعیت نمیکند.
با اســتفاده از دادههــای فایــل ( FOREST.XLSتمریــن 4-1را ببینید) ،یک رگرســیون از Yروی Xانجام دهید .این کار را در نرمافزار اکسل با کلیک کردن
« »Line Fit Plotدر منوی رگرســیون انجام دهید .مقادیر واقعی و برازششده را
بهصورت عددی و نموداری مقایسه کنید (یعنی به ستون با نام خروجی پسماندها
1
و نمودار آن نگاه کنید).
پیش از این توضیح دادهایم که اجزای پسماند به هنگام برازش کردن بهترین خط برازش ایجاد میشــوند .روش دیگر برای تعریف پســماندها استفاده از فاصله یا تفاوت بین مقادیر واقعی و برازششده Yاست .یعنی: ∧
u=i Yi − Y i
بســتههای نرمافزاری مانند اکسل میتوانند پسماندهای یک مدل رگرسیونی را ترســیم یا لیســت کنند .از این موضوع میتوان برای درک و همچنین آزمون 1- Residual Output
111
فصل :4معرفی رگرسیون ساده
مترین 4-2
نیکویی برازش یک مدل رگرسیون استفاده کرد .تاکید میکنیم که جزءپسماندی که بهشــکل غیرعادی بزرگ باشــد مربوط به مشــاهدات پرت اســت و این مشاهدات پرت گاهی اوقات میتوانند جالب توجه باشند.
مترین 4-3
(الف) با اســتفاده از دادههای فایل ( FOREST.XLSتمرین 4-1را ببینید) ،یک
Yروی Xانجام دهید .در نرمافزار اکســل و در منوی رگرســیون، رگرســیون از
گزینههــای Residualو Residual Plotsرا تیک بزنید .پســماندها را چگونه
تفسیر میکنید؟ آیا مشاهده پرتی وجود دارد؟
(ب) سوال بند (الف) را برای سایر متغیرها W ،و Zدر این مجموعه داده تکرار کنید.
تحلیل دادههای اقتصادی
112
برای مشــخص شــدن نوع اطالعاتی که تحلیل پســماندها به ما میدهد، به خروجــی رایانه خود پس از انجام بند (الــف) تمرین 4-3دقت کنید .در خروجی پسماندها ،مشــاهده 39اُم مقدار برازششده 2/93و پسماند -1/63 دارد .بــا اضافه کردن این دو عــدد به هم (یا با نگاه کردن به دادههای اصلی)، میبینید که مقدار واقعی نرخ جنگلزدایی برای این کشــور برابر 1/3اســت. معنی این اعداد چیســت؟ میبینید که مقدار پیشبینی مدل رگرســیون برای جنگلزدایی ( )2/93بیشــتر از مقدار واقعی برای این کشور ( )1/3است .این یعنی عملکرد واقعی کشــور مزبور در محافظــت از جنگلهایش بهتر از آن چیزی اســت که مدل رگرســیون پیشبینی میکند و در چه بســا تالش این کشــور برای محافظت از جنگلهایش موثرتر از ســایر کشــورها است .این گونه اطالعات ممکن اســت برای سیاستگذاران کشورهای دیگر مهم باشد، بهخصوص وضعیت این کشــورِ دارای مشاهده پرت شاید درسهای مفیدی برای ایشان به همراه داشته باشد. مفاهیم پســماند و مقدار برازششده در کسب درکی شهودی و غیررسمی از نیکویی برازش مدل رگرســیون مهم هستند .با این وجود هنوز تعریفی رسمی و
عــددی از آن ارائه نکردهایم .در این مرحله ،به دنبال ارائه چنین معیاری ،یعنی R2
هستیم .میدانیم که واریانس ،معیار پراکندگی یا تغییرپذیری در دادهها است .اینجا مفهومی نزدیک به آن را ارائه میکنیم ،مجموع کل مربعات 1یا :TSS 2
)
(
= TSS ∑ Yi − Y
بهخاطر بیاورید که فرمول واریانس Y عبارت اســت از ( TSS/N-1فصل 2 را ببینیــد) .با اندکی اغماض ،عبارت N-1در فرمول نهایی R2وجود ندارد و در نتیجه از آن صرفنظر میکنیم TSS .معیاری برای تغییرپذیری Yاســت .مدل رگرســیون نیز در پی توضیح تغییرات Yدر اثر تغییر متغیر توضیحی Xاست. میتوان نشان داد که مجموع تغییرات Yرا میتوان به دو بخش تقسیم کرد: که RSSمجموع مربعات رگرسیون 2و معیاری است که میزان توضیحدهندگی مدل رگرسیون را نشان میدهد .3فرمول RSSبهشکل زیر است: 2
∧ = RSS ∑ Yl − Y
از قبــل میدانیم که SSR مجموع مربعات پســماندها اســت و یک مدل رگرسیون که خوب برازششده باشدSSR ، بسیار کوچکی خواهد داشت .حاال میتوانیم با ترکیب کردن فرمولهای باال ،معیاری برای برازش بهدست بیاوریم: SSR TSS
یا بهطور مشابه:
R2 = 1 −
RSS TSS
2- Regression Sum of Squares
= R2
1- Total sum of squares
-3در نرمافزار اکســل میتوانید مقدار TSS، RSSو SSRرا با اســتفاده از جدول ANOVAچاپ کنید. ستون با عنوان SSشامل این سه مجموع مربعات است .در مورد معنی واژه ANOVAدر فصل 7توضیحاتی ارائه خواهد شد.
113
فصل :4معرفی رگرسیون ساده
TSS=RSS+SSR
تحلیل دادههای اقتصادی
114
Yاست که میتواند بهوسیله Xتوضیح داده شود. R2نســبتی از کل تغییرات میدانیم که TSS، RSSو SSRهر ســه مجموع مربعات (مجموع اعدادی که به توان دو رسیدهاند) هستند و در نتیجه ،هر سه تا اعدادی غیر منفی هستند .این به آن معناست که TSS ≥ RSSو TSS ≥ SSRاست .با بهکارگیری اینها ،میتوان دید که 0 ≤ R2 ≤ 1اســت .برای کسب درکی بیشــتر در مورد این معیار برازش، میتوان به این نکته اشــاره کرد که مقادیر کوچک SSRبه این معناست که مدل رگرسیون بهخوبی برازششده است .یک خط رگرسیون که از تمام نقاط مشاهدات در نمودار XY عبور کند ،هیــچ جزءخطایی ندارد و در نتیجه SSR=0وR2 = 1 خواهد بود .اگر به فرمول باال دقت کنید میبینید که مقدار R2نزدیک به 1بهمعنی خوبــی برازش و R2 = 1به معنی برازش (فیت بودن) کامل اســت .در مجموع، مقادیر زیاد R2بهمعنی برازش خوب و مقادیر کم آن نشاندهنده برازش بد است. Rاین مقدار را اندازه میگیرد از زاویه RSSهم میتوان موضوع را درک کرد SS . که چقدر از تغییرات Y توسط متغیرهای توضیحی توضیح داده میشود .اگر مقدار RSSنزدیک TSSباشد به این معناست که متغیرهای توضیحی تقریبا تمام تغییرات را توضیح میدهند و خط رگرسیون برازش خوبی خواهد داشت .با دقت به فرمول قبلی میبینید که در این شرایط R2نزدیک به 1است.
مثال 4-2ج :هزینه تولید در صنعت برق
Xبرای 123شرکت فعال در رگرســیون هزینه تولید = Yروی تولید = در صنعت برق R2 = 0 / 92 ،اســت .عدد بهدســت آمده عدد بزرگی
برای R2و نزدیک به 1است و نشان میدهد که برازش خط رگرسیون کامال مناســب است .به عبارت دیگر %92 ،تغییرات هزینه شرکتهای
مختلف میتواند بهوســیله تغییرات تولید این شــرکتها توضیح داده شــود .به این موضوع توجه کنید که اگر همبستگی بین تولید و هزینه
را حساب
کنید rxy = 0 / 96
بهدست میآید .توان دوم همبستگی دقیقا
برابر R2است ( .) 0 / 962 = 0 / 92این مثال رابطه نزدیک بین همبستگی و رگرسیون را نشــان میدهد .توجه کنید که R2رگرسیون Yروی X
دقیقا برابر توان دوم همبســتگی بین Yو Xاست .بهطور دقیق میتوان
گفت که رگرســیون ،تعمیم همبستگی است .اما رگرسیون بیان صریح
و روشــنی از تاثیر نهایی ( ) βبهدست میدهد که در اغلب موارد برای
تحلیل و سیاستگذاری مفید است.
R2رگرســیون فروش بر مخارج تبلیغات با اســتفاده از دادههای فایل ADVERT.XLSبرابر 0/09اســت که عددی نسبتا کوچک محسوب
میشــود .این عدد نشــان میدهد کــه تغییرات مخــارج تبلیغات در شرکتهای مختلف تنها بخش کوچکی از تغییر در فروش این شرکتها را حساب میکند (توضیح میدهد) .این یافته بهنظر منطقی است زیرا
عوامل مهــم دیگری (مثل کیفیت تولیــدات ،قیمتگذاری و غیره) بر
فروش این شرکتها تاثیر میگذارند.
مترین 4-4
(الف) با اســتفاده از دادههای فایل ( FOREST.XLSتمریــن 4-1را ببینید) و
نرمافزار اکسل Y ،را روی X رگرس کنید R2 .چند است؟ (ب) همبستگی بین Yو Xرا حساب کنید.
(ج) در مورد رابطه بین جواب بند (الف) و (ب) بحث کنید.
115
فصل :4معرفی رگرسیون ساده
مثال 4-3ج :تاثیر تبلیغات بر فروش
(د) بند (الف) را برای متغیرهای مختلف آن فایل مثل W، X، Yو Zدوباره انجام
دهید .در مورد نیکویی برازش هر یک از این رگرسیونها اظهار نظر کنید.
غیرخطی بودن در رگرسیون
تحلیل دادههای اقتصادی
116
تاکنون در مورد رگرسیون خطی صحبت میکردیم و خط برازش ما در نمودار ،XYیک خط مستقیم بود .اما این روش همواره مناسب نیست .مثال نمودار XY شکل 4.2را در نظر بگیرید .بهنظر میرسد که ارتباط بین Yو Xخطی نیست. اگر بخواهیم خطی مستقیم از میان دادهها رسم کنیم (برازش کنیم) ،ممکن است ارتباط بین Yو Xرا بهشکل نادرستی نشان دهیم .در واقع فرض کردیم ارتباط بین Yو Xبهشــکل Yi = 6Xi2است و بر مبنای این فرض ،دادهها را خودمان تولید کردیم؛ یعنی ارتباط واقعی دو متغیر از نوع توان دوم است .نگاهی گذرا به نمودار XYاغلب میتواند نشان دهد که برازش یک خط مستقیم مناسب است یا خیر .حال اگر بهجای رابطه خطی یک رابطه درجه دوم وجود داشته باشد چه باید کرد؟ پاسخ ساده است :بهجای رگرس کردن Yبر Y ،Xرا بر X2رگرس کنید .البته ممکن است رابطهای که در نمودار XYرویت میشود نه خطی باشد نه توانی. یعنی ممکن اســت Yبا ) ،Ln(Xبا ،1/Xبا X3یا هر تبدیل دیگری از Xارتباط داشته باشــد .در هر صورت یک دستور کلی وجود دارد X :را بهشکل مناسبی تبدیل کنید و سپس Yرا روی این فرم مناسب و تبدیلشده Xرگرس کنید .در صورت نیاز میتوان Yرا نیز تبدیل کرد. یک تبدیل مفید ،چه برای متغیر وابســته چــه توضیحی ،تبدیل لگاریتمی است .حتی اگر مبحث لگاریتم را در ریاضیات بلد نباشید ،انجام این تبدیل در هر بسته نرمافزاری اقتصادسنجی یا اکسل آسان است .اغلب اوقات اقتصاددانان از لگاریتم طبیعی استفاده میکنند که عالمت آن lnاست .در این کتاب ،همیشه از لگاریتم طبیعی استفاده و از عبارت « »logsبرای اشاره به آن استفاده میکنیم. در این موارد معموال گفته میشــود« :از متغیر Xلگاریتم گرفتیم» یا «از لگاریتم X استفاده کردیم» .نشانهگذاری ریاضی آن عبارت است از ).ln(X
نمودار .4-2ارتباط توانی
بین Xو Y
1- Formula bar
فصل :4معرفی رگرسیون ساده
در اکســل میتوانیــد لگاریتم طبیعی هر عددی را با اســتفاده از نوار ابزار فرموال 1حســاب کنید .مثال اگر بخواهید لگاریتــم عدد موجود در خانه D4را حســاب کنید ،به نوار ابزار فرموال بروید و تایپ کنید «) »=ln(D4و سپس اینتر کنید .موضوعی که در مورد لگاریتم باید به یاد داشته باشید این است که لگاریتم فقط برای اعداد مثبت تعریف میشــود .بنابراین اگر دادههای شما شامل اعداد منفی یا صفر باشد ،نمیتوانید از آنها لگاریتم بگیرید (یعنی نرمافزار پیغام خطا نمایش میدهد). چرا معموال از ) ln(Yبهعنوان متغیر وابسته و از ) ln(Xبهعنوان متغیر توضیحی اســتفاده میشود؟ دلیل اول این است که این کار به ما اجازه میدهد تا نتایج را ن است که دادههایی که به این شکل تبدیل بهراحتی تفســیر کنیم .دلیل دوم ای شدهاند در اغلب موارد شرط خطی بودن مدل رگرسیون را برآورده میکنند. بــرای درک کامل دلیــل اول ،به پیشزمینهای از ریاضی احتیاج اســت که
117
توضیــح آن فراتر از اهداف این کتاب اســت .اما خوشــبختانه نکته اصلی را میتوان به شکل شفاهی بیان کرد .در رگرسیون زیر: ln ( Y ) = α + βln ( X ) + e
تحلیل دادههای اقتصادی
118
βرا میتوان بهعنوان کشش تفسیر کرد .میدانیم که در رگرسون پایه بدون لگاریتــم ،میگفتیم که «یک واحد تغییر در Xباعث میشــود که Yگرایش به βواحد تغییر داشته باشــد» .در رگرسیونی که هم متغیر وابسته هم توضیحی لگاریتمی باشــند ،اکنون میتوانیم بگوییم که «یک درصــد تغییر در Xباعث میشــود که Yگرایش به βدرصد تغییر داشــته باشد» .یعنی بهجای اینکه در مورد واحد شــمارشها نگران باشیم ،نتایج رگرســیون با متغیرهای لگاریتمی را همیشه میتوان بهشکل کشش تفســیر کرد .برای توجیه سهولت استفاده از لگاریتم میتوان دالیل دیگری نیز آورد .مثال ،همانطور که در فصل 2توضیح داده شــد ،زمانی که با دادههای سریزمانی سر و کار داریم ،درصد تغییرات در متغیر تقریبا برابر با 100 × ln ( Yt ) − ln ( Yt −1 ) است .این تبدیل در فصلهای بعدی کتاب نیز مفید خواهد بود. توجیه دوم برای اســتفاده از تبدیل لگاریتمی کامــا کاربردی و عملی اســت :برای بسیاری از دادهها ،اگر از متغیرهای وابسته و توضیحی لگاریتم بگیرید آنگاه نمودار XY ارتباط دو متغیر ،شــکل خطی خواهد داشت .این موضوع در نمودارهای 4-3و 4-4نشــان داده شــده است .در شکل 4-3 نمودار XYدو ســری از دادههای Yو Xرسم شده است که روی هیچکدام از این دو هیچ تبدیلی صورت نگرفته است .شکل 4-4نمودار XY دادههای دو ســری ) ln(Xو ) ln(Yاســت .مالحظه کنید که بهنظر نمیرسد که نقاط نمودار اول روی یک خط مســتقیم قرار داشــته باشند .برای مقادیر کوچک ،Xخــط گذرنده از نقاط تقریبا عمودی اســت و با افزایش تدریجی مقدار ،Xاین خط فرضی تقریبا صاف میشــود .وجود این الگوی شایع در دادهها به این معناســت کــه باید از آنها لگاریتم گرفت .نمــودار 4-4این تبدیل
لگاریتمــی را نشــان میدهد که در نتیجه آن الگویــی خطی در نمودار ایجاد شده است .حال اگر برای نقاط نمودار اخیر OLSرا برآورد کنیم ،یک خط مســتقیم با دقت باال برازش میشود .اما برازش کردن یک خط مستقیم از بین نقاط نمودار 4-3بسیار دشوار است. XY
نمودار .4-3متغیرهای Xو Yنیاز به لگاریتمگیری دارند
نمودار ln (X) .4-4در مقابل
)ln (Y
فصل :4معرفی رگرسیون ساده
119
تحلیل دادههای اقتصادی
120
بر چه اساسی باید تشخیص دهیم که از تبدیل لگاریتمی (و نه سایر تبدیلها) برای دادهها اســتفاده کنیم؟ دستور سادهای وجود ندارد که همواره درست باشد اما امتحان کردن تبدیلهای مختلف روی دادهها و دیدن تاثیر آن بر نمودار XYاغلب مفید اســت .کارتان را با نگاه کردن به نمودار پراکنش Xدر مقابل Yشروع کنید. ممکن است نمودار خطی بهنظر برسد؛ در اینصورت نیاز به ایجاد تغییر نیست و میتوانید Yرا روی Xرگرس کنید .اگر نمودار خطی بهنظر نرســد ،ممکن است الگوهای دیگری داشته باشد که شما آن را تشخیص بدهید (مثال الگوی درجه دوم مثل نمودار 4-2یا الگوی لگاریتمی مثل نمودار .)4-3اگر اینطور باشــد ،نمودار پراکنش یا همان XY متغیرهای تبدیلشده (مثال ) ln(Yدر مقابل ) )ln(Xرا رسم کنید تا ببینید که آیا خطی بهنظر میرسند یا نه .این استراتژی زمانی که رگرسیون ،ساده و فقط شامل یک متغیر توضیحی باشد ،جواب میدهد .در فصل ،6در مورد رگرسیون با چندین متغیر توضیحی بحث میکنیم .در آن شــرایط ،آزمون نمودار XY دشوار است زیرا میتوان چندین نمودار XYمختلف رسم کرد.
مترین 4-5
با اســتفاده از دادههای فایــل FOREST.XLSنمودارهای XYمختلفی را برای Zرســم کنید (اگر تعریف این متغیرها را نمیدانید ،تمرین متغیرهای X، Y، Wو 4-1را ببینید) .آیا رابطهای غیرخطی بین هر جفت متغیری وجود دارد؟ تمرین را
با استفاده از دادههای مثال تبلیغات ( )ADVERT.XLSتکرار کنید.
مترین 4-6
مجموعه داده EX46.XLSشامل دو متغیر به نامهای Yو Xاست.
(الــف) نمودار پراکنش یا XYاین دو متغیر را رســم کنید .آیا ارتباط بین Yو X
بهنظر خطی میآید؟
(ب) ریشــه دوم متغیر Xرا محاســبه کنید .از دستور SQRTدر اکسل برای این کار استفاده کنید.
(ج) نمودار XYریشــه دوم Xرا در مقابل Yرســم کنید .آیا این ارتباط بهنظر خطی میآید؟
مترین 4-7
از دادههای مثال هزینه تولید صنعت برق ( )ELECTRIC.XLSاســتفاده کنید که در آن هزینه تولید = Yو تولید = Xاست.
(الف) Yرا روی Xرگرس کنید.
(ب) از هر دو متغیر لگاریتم بگیرید.
(ج) رگرسیون ) ln(Yرا بر ) ln(Xانجام دهید و نتاج را بهصورت شفاهی تفسیر کنید.
-1رگرسیون ساده تاثیر یک متغیر توضیحی ،X ،را بر متغیر وابسته ،Y ،بهصورت کمی و عددی اندازه میگیرد و در واقع ،ارتباط بین دو متغیر را میسنجد. -2فرض میشــود که ارتباط بین Yو Xبه فرم Y = α + βXباشد که در آن αرا جزء ثابت (عرض از مبدا) و βرا شیب خط مینامند .این فرمول خط رگرسیون است. -3خط رگرسیون بهترین خط برازششده از میان نقاط نمودار ( XYیا همان نمودار پراکنش) است. -4هیــچ خطی وجــود ندارد که از تمــام نقاط موجــود در نمودار Y X بگذرد (برازش کامل داشــته باشد) .فاصله بین هر نقطه و خط (رگرسیون) را جزءپسماند مینامند. ن َزنی) اســت که -5حداقــل مربعات معمولی (OLS) برآوردگری (تخمی مجموع مربعات پسماندها را حداقل میکند. ∧ ∧ Oبرآوردی از αو βارائه میکند که آنها را αو βمینامیم. -6روش LS -7ضرایب رگرسیون را باید بهعنوان تاثیر نهایی یا مارژینال (یعنی تغییر در Yدر اثر یک تغییر کوچک در )Xتفسیر کرد.
121
فصل :4معرفی رگرسیون ساده
خالصه فصل
R2 -8معیاری برای میزان خوب بودن (نیکویی) خط برازششــده از میان Xاست. نقاط نمودار Y -9برآوردهای OLSو R2توسط بســتههای نرمافزار رایانهای مثل اکسل محاسبه میشوند. -10خط رگرســیون حتما نباید خطی باشــد .برای اجرای یک رگرسیون غیرخطی تنها کافی است Yو/یا X در مدل رگرسیون را با یک تبدیل غیرخطی مناسب آنها (مثال ) ln(Yیا ) X2جایگزین کنید.
ضمیمه :4-1جزییات ریاضی تحلیل دادههای اقتصادی
Oبهترین خط برازش از میان نقاط نمودار XYرا نشــان میدهد. برآوردگر LS ∧ ∧ از نظر ریاضی ،میخواهیم مقداری برای αو βبهدســت بیاوریم که مجموع مربعات پسماندها را حداقل کندSSR . را میتوان بهشکل زیر نوشت: 2
122
مترین اختیاری
∧
N
∧ ∧ = SSR ∑ Yi − α− β Xi i =1
∧
از ( SSRعبارت باال) نســبت به αو βمشــتق اول و دوم بگیرید .از پاسخ خود ∧ بــرای یافتن مقادیر ∧ αو βای که SSRرا حداقل میکند اســتفاده کنید .مطمئن شوید که جواب بهدست آمده SSR ،را حداقل میکند نه حداکثر.
اگر تمرین قبلی را درست حل کرده باشید باید عبارت زیر را بهدست آورده باشید:
) ∑ ( Y − Y )( X − X =β )∑ ( X − X N
و
i
i
2
i =1
∧
N
i
i =1
∧
∧
α= Y − β X
که Yو Xمیانگین Yو Xهســتند (فصل 2را ببینیــد) .دو فرمول اخیر، Oبرای αو βهستند .مطلع باشید که روشهای گوناگونی برای برآوردهای LS ∧ نوشــتن فرمول βوجود دارد .اگر به سایر کتاب های درسی نگاه کنید ممکن ∧ ∧ است شکلهای دیگر فرمول αو βرا ببینید. میتوان نتایج این معادالت را بر حســب انحــراف از میانگین 1متغیرها نیز نشــان داد .فرض ضمنی برای بهدســت آوردن معادالت باال این بوده است که متغیرهای وابســته و توضیحی Y ،و ،Xبر حســب دادههای خام هستند .اما در برخی موارد محقق فقط با دادههای خام ،یعنی Yو X کار نمیکند بلکه با Yو Xمنهای میانگینشان کار میکند: x=i Xi − X
فرض کنید که بخواهیم از OLSبرای برآورد رگرسیون زیر استفاده کنیم: y =a + bX + e
که در آن از عالمتهای aو b برای نشان دادن تفاوت آنها با ضرایب αو Xاستفاده کردهایم. βدر رگرسیون شامل متغیرهای Yو بهنظر میرســد که درک ارتباط بین برآوردهای OLSاز رگرسیون اصلی و آن رگرسیونی که با متغیرهای انحراف از میانگین نوشته شده است آسان باشد. ∧ برآورد OLSاز bهمیشــه دقیقا برابر با βو برآورد OLSاز aهمیشــه برابر صفر است .بهعبارت دیگر ،انحراف از میانگین گرفتن ،مدل رگرسیون را ساده میکند زیرا در چنین رگرسیونی دیگر جزء ثابت یا همان عرض از مبدا وجود ندارد (یعنی دلیلی برای وجود آن نیســت زیرا ضریب آن همیشه صفر است). این سادهسازی تاثیری بر ضریب شیب مدل رگرسیون ندارد .ضریب شیب پس از انحراف از میانگین گرفتن بدون تغییر میماند و تفســیر آن همچنان مثل قبل 1- Deviations from means
123
فصل :4معرفی رگرسیون ساده
و
xy=ii Yi − Y
و نشــاندهنده تاثیر نهایی یا مارژینال است .اثبات ادعای پاراگراف قبل سخت نیســت و اگر ریاضیتان خوب باشد میتوانید خودتان انجامش دهید .بهعنوان راهنما ،به این نکته توجه کنید که میانگین yو x صفر است. در فصل ،6مدل رگرسیونی را در نظر میگیریم که چندین متغیر توضیحی داشته باشــند .در این حالت اگر از متغیر وابســته و تمام متغیرهای توضیحی انحراف از میانگین بگیرید ،نتیجه یکســانی بهدست میآورید .یعنی جزء ثابت از رگرسیون ناپدید میشود ولی باقی ضرایب رگرسیون بدون تغییر میمانند.
تحلیل دادههای اقتصادی
124
فصل 5 جنبههای آماری رگرسیون
1- Introductory statistics for business and economics 2- Thomas Wonnacut 3- Ronald 4- Undergraduate econometrics 5- R. Carter Hill 6- William Griffiths 7- George Judges
125
فصل :5جنبههای آماری رگرسیون
علم آمار ،رشــتهای است مبتنی بر ریاضیات و نظریه احتمال .اما از آنجاکه پیشفرض این کتاب آن اســت که شما دانشــی در این حوزهها ندارید ،درک ِ آماری مدل رگرســیون ،منوط به مطالعات بیشتر شما خواهد کامل موضوعات 2 1 بود .کتاب مقدمهای بر آمار برای بازرگانی و اقتصاد نوشــته توماس واناکات و رونالد 3واناکات (چاپ چهارم ،انتشــارات جان وایلی اند سانز )1990 ،یک کتاب آمار پایه مناسب است .همچنین کتاب اقتصادسنجی کارشناسی 4نوشته آر. کارتر هیل ،5ویلیام گریفیتز 6و جرج جاجز(7چاپ دوم ،انتشارات جان وایلی اند سانز )2000 ،یک کتاب درسی مقدماتی مناسب برای درس اقتصادسنجی است. امــا بهجای منتظر ماندن برای انجام مطالعات بیشــت ِر شــما ،در فصل حاضر ایــن کارها را انجام میدهیم )1( :بحث در مورد اینکه در مدل رگرســیون از چه روشهای آماری استفاده میشود؛ ( )2نشان دادن اینکه چگونه میتوان با استفاده از این روشهای آماری تحلیل رگرسیون را انجام داد و نتایج بهدست آمده را تفسیر کرد؛ و ( )3استفاده از نمودار برای درک و کشف اینکه نتایج آماری مزبور از کجا
میآیند و چرا اینطور تفسیر میشوند (یعنی کجا و چرای تحلیل آماری) .کارمان را با تاکید بر تمایزی که در فصل قبل بین ضرایب رگرسیون αو ، βو برآوردهای ∧ ∧ روش OLSاز آنها یعنی αو βبهوجود آمد آغاز میکنیم .بهخاطر بیاورد که فصل 4با یک مدل رگرسیون بهشکل زیر شروع شد: Yi = α + βXi + ei
تحلیل دادههای اقتصادی
126
که i=1تا N تعداد مشــاهدات است .همانطور که قبال گفتیم α ،و βارتباط Xرا اندازه میگیرند .به این موضوع هم اشــاره کردیم که ما نمیدانیم که بین Yو این ارتباط چگونه است ،یعنی αو βدقیقا چند هستند .سپس به روشی که حداقل ∧ ∧ مربعات معمولی یا OLSنامیده میشــود ،برآورد آنها یعنی αو βرا بهدســت آوردیم .همچنین تاکید کردیم که αو βضرایب واقعی اما ناشناختهاند در حالیکه ∧ ∧ αو βصرفا برآورد هستند (و به احتمال زیاد دقیقا برابر αو βنیستند). این مالحظات ما را به این پرســش میرساند که آیا میتوانیم بفهمیم که این برآوردها چقدر دقیق هستند؟ خوشبختانه میتوانیم ،البته با استفاده از تکنیکهای آماری .به بیان دقیقتر ،این تکنیکها ما را قادر میسازند تا برای ضرایب رگرسیونمان فاصله اطمینان 1بسازیم و روی آنها آزمون فرضیه 2انجام دهیم. ،Oبــرآورد نقطهای 3از βارائــه میکند (یعنی بهاصطــاح میگوییم که LS ∧ β = 0 / 000842برآورد نقطهای βدر رگرسیون جنگلزدایی بر تراکم جمعیت در فصل قبل اســت) .میتوان تصور کرد که برآورد نقطهای بهترین حدس ما از مقدار βاست .فاصله اطمینان ،برآورد فاصلهای 4ارائه میکند که به ما اجازه میدهد تــا عدم اطمینان خــود در مورد مقدار واقعی βرا با یــک جمله بیان کنیم (مثال «مطمئن هستیم که βبزرگتر از 0/0006و کوچکتر از 0/0010است») .متناظر با سطوح اطمینان متفاوت ،میتوانیم فواصل اطمینان متفاوتی بهدست آوریم .مثال با فاصله اطمینان %95میتوانیم بگوییم که « %95اطمینان داریم که βدر این فاصله قرار میگیرد»؛ در مورد فاصلــه اطمینان %90میتوانیم بگوییم که « %90اطمینان 2- Hypothesis tests 4- Interval estimate
1- Confidence interval 3- Point estimate
داریــم که βدر این فاصله قرار میگیرد» و بههمیــن ترتیب .درجه اطمینانی که در فاصله مدنظرمان داریم (مثال )%95معموال سطح اطمینان 1نامیده میشود .کار عمده دیگری که محققین در عمل انجام میدهند ،آزمون فرضیه اســت .یک مثال از فرضیهای که یک محقق ممکن است بخواهد آزمون کند β =0است .اگر این فرضیه درســت باشد به این معناست که متغیر توضیحی ،قدرت توضیحدهندگی ندارد .روش آزمون فرضیه به ما امکان میدهد که چنین آزمونهایی را انجام دهیم. هر دو روش فاصله اطمینان و آزمون فرضیه در ادامه همین فصل بیشتر توضیح داده میشوند .از آنجاکه در مسائل اقتصادی βمعموال بیش از αاهمیت دارد ،تمرکز ما بر آن خواهد بود .اما تمام بحثهایی که برای βانجام میشود ،بهطور مشابه برای αنیز مورد توجه قرار میگیرد.
ما چهار مجموعه داده مختلف برای Xو Yدر مدل رگرسیون با α =0وβ =1
را خودمان بهطور مصنوعی شبیهســازی کردیم .نمودار XY این چهار مجموعه داده مختلف در نمودارهای 5-3 ،5-2 ،5-1و 5-4نشان داده شدهاند .تمام این مجموعه دادهها دارای مقدار ضرایب واقعی مشابه برابر α =0و β =1هستند (چون خودمان آنها را ســاختهایم) و امیدواریم هنگامی که مدل رگرسیون را ∧ برای هر کدام از این چهار مجموعه داده تخمین میزنیم ،برآوردهای ما از αو ∧ βتقریبا بهترتیب برابر 0و 1باشد .اما تصور کنید که بخواهید یک خط مستقیم از میان نمودار XYبرازش کنید (همانند آنچه OLSانجام میدهد) ،نباید انتظار داشته باشــید که تمام این چهار خط بهطور یکسانی دقیق باشند .از دقت خط مستقیمی که االن برازش کردهاید چقدر اطمینان دارید؟ بهآسانی میتوان دید که خط Yدر این نمودار برازش نمودار 5-3دقیقترین است .یعنی بهراستی ارتباط بین Xو به همان شکل خط صافی است که باال میرود؟ حتی اگر از خطکش استفاده کنید و 1- Confidence level
127
فصل :5جنبههای آماری رگرسیون
∧
چه عواملی بر دقت برآورد βتاثیر میگذارند؟
بهترین خط برازش از میان نمودار XYرا با دست رسم کنید ،میبینید که جزء ثابت (عرض از مبدا) یا همان αبسیار نزدیک به صفر و شیب یا βنزدیک به 1است .بر خالف این نمودار ،در مورد دقت خط برازش مستقیمی که در نمودارهای 5-2 ،5-1 و 5-4ترسیم میکنید اطمینان کمتری خواهید داشت. نمودار .5-1حجم مثال بسیار کوچک
تحلیل دادههای اقتصادی
128
نمودار .5-2حجم مثال بزرگ ،واریانس خطای بزرگ
این نمودارها سه عامل اصلی تاثیرگذار بر دقت برآوردهای OLSو بهطور متناظر ،عدم اطمینان و فقدان دانش ما در مورد مقدار واقعی βرا نشان میدهند: -1داشتن دادههای بیشــتر دقت برآورد را افزایش میدهد .این موضوع را میتوان با مقایسه نمودار )N=5( 5-1و نمودار )N=100( 5-3دید. نمودار .5-3حجم مثال بزرگ ،واریانس خطای کوچک
نمودار .5-4مقادیر xمشاهدات به یک ناحیه کوچک محدود است
فصل :5جنبههای آماری رگرسیون
129
تحلیل دادههای اقتصادی
130
-2داشتن خطاهای کوچکتر دقت برآورد را افزایش میدهد .بهطور مشابه، اگر SSRکوچک باشد یا واریانس خطاها کوچک باشد ،دقت برآورد افزایش خواهد یافت .این موضوع را میتوان با مقایســه نمودار ( 5-2واریانس خطای بزرگ) با نمودار ( 5-3واریانس خطای کوچک) مالحظه کرد .اگر در فهم این نکته به مشــکل برخوردید ،خط مســتقیمی با جزء ثابت صفر و شیب یک در نمودارهای 5-2و 5-3رســم کنید و سپس به پســماندها دقت کنید (همانند آنچــه در نمودار 4-1وجود دارد) .باید بتوانید ببینید که اغلب پســماندها در نمودار 5-2بسیار بزرگتر (قدر مطلقشان) از پسماندهای نمودار 5-3هستند. این باعث بزرگتر شــدن ( SSRفرمول مربوطه را در فصل 4ببینید) میشود، و چون پسماندها و اجزای خطا چیزهای مشابهی هستند ،باعث بزرگتر شدن واریانس اجزای خطا نیز میشــود (فرمول محاسبه انحراف معیار متغیرها را در بخش آمار توصیفی فصل 2مالحظه کنید و بهیاد داشته باشید که واریانس همان توان دوم انحراف معیار است). -3داشــتن محدودهای بزرگتر (یا واریانــس بزرگتر) برای مقادیر متغیر توضیحی ( )Xدقت برآورد را افزایش میدهد .این موضوع را میتوان با مقایسه نمودار ( 5-3مقادیر متغیر توضیحی در تمام نمودار از 0تا 6گسترده شدهاند) با نمودار ( 5-4مقادیر متغیر توضیحی در محدودهای کوچک توزیع شــدهاند و همه آنها بهشکل یک خوشه حول عدد 3متمرکز هستند) مالحظه کرد. تاثیر این ســه عامل منطقی و بدیهی اســت .با توجه به دو عامل اول ،قابل فهم است که با در اختیار داشتن دادههای بیشتر یا خطاهای کوچکتر باید دقت برآورد افزایش یابد .عامل سوم احتماال کمتر بدیهی بهنظر میرسد اما یک مثال ساده کمک میکند تا موضوع را درک کنید. فرض کنید که عالقهمند به بررســی تاثیر سطح آموزش (سالهای تحصیل = )Xبــر درآمد افراد هســتید (درآمد = .)Yبرای فهم طبیعــت چنین ارتباطی، قصد دارید با افراد گوناگونی (یعنی افراد بیســواد ،افراد دارای مدرک متوسطه یا دیپلمه ،افراد دیپلمهای که برخی آموزشهای حرفهای پس از دبیرســتان را
^ محاسبه فاصله اطمینان برای α
تاثیر سه عامل باال در تخمین فاصلهای βیا همان فاصله اطمینان منعکس میشود. ∧ این فواصل نشــاندهنده عدم اطمینان در مورد دقت برآورد βهستند .هرچه فاصله اطمینان کوچکتر باشد ،نشاندهنده دقت بیشتر است .بهطور معکوس، یک فاصله اطمینان بزرگ نشــاندهنده عدم اطمینان زیاد در مورد مقدار واقعی ∧ βاســت .در اغلب موار محققین فاصله اطمینان را عالوه بر (یا حتی به جای) بــرآورد نقطهای OLSگزارش میکنند .فرمول ریاضی فاصله اطمینان βعبارت است از]3[ : ∧ ∧ β− t b sb . β+ t b sb
گــزاره «متغیر Wبیــن aو bقرار میگیرد» یا « Wبزرگتر مســاوی aو کوچکتر مســاوی bاست» را بهشکل ریاضی میتوان اینگونه نوشت کهW« :
131
فصل :5جنبههای آماری رگرسیون
گذراندهاند ،افراد دارای مدرک دانشــگاهی ،افراد دارای مدرک دکتری و غیره ) مصاحبــه کنید .ب ه عبارت دیگر ،میخواهید با طیف گســتردهای از جمعیت مصاحبه کنید تا بتوانید تا جای ممکن اطالعات بیشــتری از سطوح تحصیالت افراد مختلف جمعآوری کنید .به اصالح آماری ،این یعنی شــما میخواهید X واریانس بزرگی داشــته باشد .اگر از این استراتژی پیروی نکنید -مثال اگر فقط بــا افراد دارای مدرک دکتری مصاحبه کنیــد -تصویر غیرقابلاعتمادی از تاثیر آموزش بر تحصیالت خواهید داشت .در این مورد ،شما احتماال نمیفهمید که آیا ارتباط بین آموزش و درآمد مثبت بوده است .مثال بدون جمعآوری دادههای مربوط به افرادی که در 16ســالگی مدرسه را ترک کردهاند احتماال نمیفهمید که آنان درآمد کمتری از افراد دارای مدرک دکتری کسب میکنند. داشــتن گسترهای بزرگ از مقادیر (یعنی واریانس بزرگتر) متغیر توضیحی یا همان ،Xیک ویژگی مطلوب هر تحلیل است ،در حالیکه داشتن گسترهای بزرگ از مقادیر (یعنی واریانس بزرگتر) خطا یا همان ،eیک ویژگی نامطلوب است.
در بازه یا فاصله [ ]a.bقرار میگیرد» .از این نماد ریاضی به تناوب در این کتاب استفاده شده اســت .روش دیگر بیان فرمول باال این است که بگوییم اطمینان زیادی وجود دارد که مقدار واقعی βدر نابرابری زیر صدق کند: ∧
∧
β− t b sb ≤ β ≤ β+ t b sb ∧
در معادله باال از ســه عدد استفاده شده است که باید محاسبه شوندt b ، β : ∧
تحلیل دادههای اقتصادی
132
و . sbاولیــن عدد یعنی βرا قبال بــا جزییات توضیح دادیم اما با دو تای دیگر تاکنون آشنا نشدهاید .بســتههای نرمافزار رایانهای مثل اکسل میتوانند بهطور یتوانید مقدار فاصله اطمینان اتوماتیک فاصله اطمینان را حســاب کنند .پس م را حتی بدون دانســتن فرمول باال و تعاریف tbو sbحساب کنید .سادهترین ∧ چیزی که در مورد tb ، βو sbمیتوان گفت این است که اینها سه عدد هستند که توســط رایانه محاسبه میشــوند .اما ارزش دارد که درک و دانشی اولیه در مورد اینکه فاصله اطمینان از کجا میآید داشته باشید و این دانش به فهم نتایج کمک میکند .در ادامه هر یک از ســه عددی که برای محاسبه فاصله اطمینان نیاز است را توضیح میدهیم و این توضیحات را با موضوعی که قبال در مورد ∧ ∧ عوامل موثر بر دقت برآورد βوجود داشت پیوند میدهیم .اولین عدد βاست که همیشــه در فاصله اطمینان وجود دارد (در واقع ،درســت در وسط آن قرار ∧ دارد) .دومین عدد sbیا انحراف معیار βاســت .موضو ِع اندکی گیجکننده این اســت که sbاغلب به نام پارامتر مقابل انحراف معیار خوانده میشود؛ همچنان که خطای استاندارد هم اینطور اســت .در فصل ،2انحراف معیار را بهعنوان مقیاسی برای پراکندگی (یعنی گستره یا تغییرپذیری) یک متغیر تعریف کردیم. مثال نمودار 2-2هیستوگرام متغیر GDPسرانه برای مجموعه داده بین کشوری GDPPC.XLSاســت .در همان فصل 2بحــث کردیم که انحراف معیارGDP سرانه مقیاس میزان تغییرات GDPسرانه بین کشورهای مختلف است .هرچند ∧ ممکن اســت کمی عجیب بهنظر برسد اما میتوان βرا نیز یک متغیر دانست همانطور که GDPســرانه یک متغیر است .به عبارت دیگر میتوانیم انحراف معیار آن را حســاب کنیــم و از آن بهعنوان معیاری بــرای عدماطمینانمان در
مورد دقت برآوردش اســتفاده کنیم .مقادیر بزرگ sbدال بر عدم اطمینان زیاد ∧ اســت .در این مورد β ،ممکن است تخمینی بسیار نادقیق از βباشد .در مقابل مقادیر کوچک sbنشاندهنده عدماطمینان کمتر است .اگر اینطور باشد آنگاه، ∧ βتخمینــی دقیق از βخواهد بود .در فصلهای دیگــر فرمولهای ریاضی را در ضمیمــه قرار میدهیم اما اینجا بهمنظور درک چگونگی ارتباط بین فرمول فاصله اطمینان و نمودارهای 5-1تا ،5-4به کمی فرمول ریاضی نیاز است .از ∧ فرمول زیر برای انحراف معیار βاستفاده میکنیم: SSR
2
) ( N − 2 ) ∑ ( Xi − X
= sb
∧
133
فصل :5جنبههای آماری رگرسیون
ایــن فرمــول ،تغییرپذیری یا عــدم اطمینان βرا انــدازه میگیرد و تمام موضوعاتــی که قبال در مورد نمودارهای 5-3 ،5-2 ،5-1و 5-4بحث کردیم را شامل میشود .با دقت به فرمول فاصله اطمینان معلوم میشود که هرچه sb بزرگتر باشــد ،فاصله اطمینان نیز گستردهتر (عریضتر) میشود .به این نکته دقت کنید؛ سپس به جمالت فرمول sbنگاه کنید ،میتوانیم نتیجه بگیریم که: sb -1و در نتیجــه عرض فاصله اطمینان ،بهطور مســتقیم با SSRارتباط دارد (یعنی هرچه خطای/پسماند متغیرها بیشتر باشد ،دقت برآورد کمتر است). sb -2و در نتیجــه عرض فاصله اطمینان ،بهطور معکوس با Nارتباط دارد (یعنی هرچه تعداد مشاهدات بیشتر باشد ،دقت برآورد بیشتر است). 2 sb -3و در نتیجــه عرض فاصله اطمینان ،بهطور معکوس با ) ∑ ( Xi − X ارتباط دارد (یعنی هرچه تغییرپذیری Xبیشتر باشد ،دقت برآورد بیشتر است). 2 همانطور که در فصل 2توضیح داده شــد ،میدانیم که ) ∑ ( Xi − Xمولفه اصلی انحراف معیار Xاست .بهشکل دقیقتر ،هرچه این عبارت بزرگتر باشد، انحراف معیار Xهم بزرگتر خواهد بود. تاکید میکنیم که این ســه فاکتور (یعنــی N، SSRو انحراف معیار )Xکه بر عرض فاصلــه اطمینان تاثیر میگذارند ،همان عواملی هســتند که بر دقت
∧
روش OLSبرای برآورد βهم تاثیر میگذارند .سومین عدد در فرمول فاصله اطمینان tb ،است .بدون داشتن زمینه و مطالعه قبلی در آمار ،سخت بتوان درکی شــهودی و مستقیم از این مفهوم بهدست آورد .برای خوانندگانی که اندک آمار میدانند ،یادآوری میکنیم که tbمقداری است که از جداول آماری tاستیودنت بهدست میآید .در ضمیمه 5-1در مورد tbبحث شده است .در مثال زیر سعی کردیم بهطور ضمنی معنای آن را بیان کنیم.
مثال :5-1نظرسنجیهای انتخاباتی
در نظرســنجیهای سیاســی که معموال در هفتههــا و ماههای پیش از
تحلیل دادههای اقتصادی
انتخابات برگزار میشــوند ،ممکن اســت با مفهوم «بــرآورد نقطهای» و فاصله اطمینان مواجه شــوید .در چنین نظرســنجیهایی معموال از
134
چندصد نفر از رایدهندگان بالقوه طی تماس تلفنی پرسیده میشود که به کدام حزب یا کاندیدا رای خواهند داد .فرض کنید که حزب الف در
انتخابات شــرکت کرده است .روزنامه گزارش میدهد که %43از افراد بررسی شــده به حزب الف رای خواهند داد .این عدد تخمین نقطهای
روزنامه از تصمیم رایدهندگان در روز انتخابات اســت .البته بهندرت اتفاق میافتد که نتیجه واقعی انتخابــات دقیقا منطبق بر پیشبینیهای قبلی باشد .این اختالف ،نکتهای را نشان میدهد که قبال در همین فصل ∧
در زمینه مدل رگرســیون بر آن تاکید کردیم :تخمین نقطهای (یعنی ) β اگر نگوییم هیچوقت ،بهندرت با مقدار واقعی (یعنی ) βیکسان میشود.
روزنامهها معموال میدانند که نظرسنجیشان کامال دقیق نخواهد بود و
اغلب اوقات جمالتی مانند «دقت این نتایج %±2اســت» را به گزارش
خود اضافه میکنند .این نتایج از فاصله اطمینان (معموال فاصله اطمینان
)95%بهدســت میآینــد هرچند در روزنامه اشــارهای به این موضوع نمیشود .اگر روزنامه بخواهد نتایج خود را با جمالتی علمی بیان کند
باید بگوید» ما %95اطمینان داریم که رای حزب الف در انتخابات بین %41و 45%خواهد بود( ».فاصله اطمینان %95بســیار متداول است و
هرجا مالحظه کردید که فاصله اطمینان دقیقا تصریح نشــده است ،آن را %95فــرض کنید).این مثال درک شــما از فاصله اطمینان را افزایش میدهد .نکته این مثال آن اســت که سطوح اطمینان متفاوت ،منجر به
فواصل اطمینان متفاوتی میشوند .مثال بیایید به سطح اطمینان %100فکر کنیم؛ این سطح اطمینان یعنی مطمئن هستیم حزب الف بین %0و %100
اطمینان %100برای درصد آرای حزب الف عبارت اســت از [.]100/0 حاال به مثالی دیگر توجه کنید :چقدر میتوانیم مطمئن باشیم که حزب
الف دقیقا %43از آرا را بهدست خواهد آورد؟ احتماال خیلی نمیتوانیم
مطمئن باشیم زیرا همانطور که گفته شد در عمل بهندرت اتفاق میافتد که نتیجه نظرسنجیها و نتایج واقعی انتخابات دقیقا بر هم منطبق باشند.
به این دلیل است که یک فاصله اطمینان کمعرض یا کوچک حول عدد ( %43مثال [ )]42.9.43.1ســطح اطمینان بسیار کوچکی خواهد داشت
(مثال .)%10پس نتیجه میگیریم که هرچه اطمینان بیشــتری به فاصله تعیینشده داشته باشیم ،عرض آن بیشتر خواهد شد .مثال فاصله اطمینان
%99همیشــه عریضتر از فاصله اطمینان %95خواهد بود .عدد tbدر
واقع سطح اطمینان را کنترل میکند .اگر سطح اطمینان زیاد باشد (مثال گ خواهد بود اما اگر ســطح اطمینان کم باشد (مثال )%99آنگاه tbبزر tb )%10نیز کوچک خواهد بود.
135
فصل :5جنبههای آماری رگرسیون
آرا را در روز فاصله انتخابات به خود اختصاص خواهد داد .پس فاصله
تحلیل دادههای اقتصادی
136
مطابق نظریه آماری رگرسیون باید بر نکات تاکید کنیم (بدون فراتر رفتن از توضیحاتی که در مثال قبل گفتیم): tb -1با Nافزایش مییابد (یعنی هرچه دادههای بیشــتری در اختیار داشته باشیم ،فاصله اطمینان کوچکتر خواهد شد). tb -2با سطح اطمینانی که انتخاب میکنید ،افزایش مییابد. محققین اغلب از فاصله اطمینان %95اســتفاده میکنند هرچند از ســایر فواصل نیز میتوان اســتفاده کرد (مثال گاه از فواصل اطمینان %99یا %90هم استفاده میشود). عبارت زیر یک تعریف مفید (اما نادقیق) فاصله اطمینان %95است%95« : احتمال دارد که مقدار واقعی βدر فاصله اطمینان %95واقع شــود ».تفســیر دقیق و درســت (اما کتابی و دشوار) عبارت فوق این است :اگر برای محاسبه فاصلــه اطمینان بهطور مکرر (و در مجموعه دادههای متفاوت) از فرمول باال اســتفاده کنید %95 ،از فواصل اطمینانی که ساخته میشوند دربرگیرنده مقدار واقعی βهستند ».همین عبارت را میتوان برای فواصل اطمینان %99یا %90 هم بیان کرد. واضح است که تفسیر فاصله اطمینان نسبتا ساده است (و در مثالهای ِ بعدی همین فصل بیشــتر توضیح داده خواهد شــد) .انتظار میرود که با توضیحات قبلی ،اندکی با نظریه آماری موجود در فاصله اطمینان آشــنا شده باشید .حتی اگر این توضیحات را بهطور کامل نفهمیده باشــید باز هم میتوانید با استفاده از اغلب بستههای نرمافزاری اســتاندارد رایانهای ،فاصله اطمینان را بهسادگی محاسبه کنید .مثال ،وقتی رگرسیونی را در اکسل اجرا میکنید ،نرمافزار بهطور پیشفرض فاصله اطمینان را محاســبه میکند و حد بــاال و پایین آن را با نام « »%lower 95و « »%upper 95نمایش میدهد .عالوه بر این در اکسل میتوانید سطح اطمینان را از %99تا %90تغییر دهید.
مثال :5-2فاصله اطمینان برای مجموعه دادههای منودارهای 5-1تا 5-4
شــکلهای 5-1تا 5-4شامل چهار مجموعه داده مختلف است که در
همه آنها α =0و β =1است .دادههای شکل 5-3ویژگیهای مطلوبی دارند :حجم مثال بزرگ اســت ،مقادیر متغیــر توضیحی در آن بهطور
مناســبی پراکنده و اجزای خطا کوچک هســتند .هر یک از سه نمودار دیگــر ،یکی یا چند تا از این ویژگیهــای مطلوب را دارند .در جدول ∧
5-1تخمین نقطهای βبه روش OLSدر فواصل اطمینان %95 ،%90و % 99برای این چهار مجموعه داده است.
∧
مجموعه داده
β
فاصله اطمینان %99
فاصله اطمینان %95
فاصله اطمینان %99
نمودار 5-1
0/91
[]-0/92 ,2/75
[]-1/57 ,3/39
[]-3/64 ,5/47
نمودار 5-2
1/04
[]0/75 ,1/32
[]0/70 ,1/38
[]0/59 ,1/49
نمودار 5-3
1/00
[]0/99 ,1/01
[]0/99 ,1/02
[]0/98 ,1/03
نمودار 5-4
1/52
[]-1/33 ,4/36
[]-1/88 ,4/91
[]-2/98 ,6/02
به نکات زیر توجه کنید
-1اگر به اعداد هر سطر توجه کنید میبینید که با بزرگتر شدن سطح
اطمینان ،فاصلــه اطمینان نیز عریضتر میشــود .عریضترین فاصله
مربوط به سطح اطمینان %99دادههای نمودار 5-4است .در این مورد، اگر بخواهید %99اطمینان داشته باشید ،باید قبول کنید که βهر مقدار
دلخواهی بین -2/98و 6/02را داشته باشد.
-2مجموعه داده نمــودار - 5-3همان که بهترین ویژگیها را در بین
137
فصل :5جنبههای آماری رگرسیون
جدول .5-1برآورد OLSو فواصل اطمینان
تمام مجموعه دادههای دیگر دارد -به برآورد OLای برابر 1/00منجر
میشــود که با دو رقم اعشــار برابر با مقدار واقعی است (مقدار دقیق ∧
β = 1/ 002577است). -3مجموعه داده نمودار 5-3نسبت به دادههای نمودارهای 5-1و 5-2
و ،5-4به فاصله اطمینانی باریکتر (عرض کمتر) منجر میشــود .این
نتیجه منطقی است چون استفاده از دادههای نمودار ،5-3نسبت به سایر دادهها ،به برآورد OLSدقیقتری هم منجر شد.
-4مجموعه دادههای استفادهشــده در ســه نمودار 5-2 ،5-1و 5-4 نتایج مختلفی را بهبار آورده اســت .در پروژههای تجربی که بهدرستی
طراحی شــدهاند ،معموال دادههایی مانند دادههای نمودار 5-2بهدست تحلیل دادههای اقتصادی
میآیــد (و بهندرت مجموعه دادهای مانند آنچه در نمودار 5-3وجود
138
دارد بهدست میآید) .این مجموعه داده هم ویژگیهای مناسبی دارد اما
ایراد آن ،خطاهای نسبتا بزرگ است که نشاندهنده خطای اندازهگیری و
نقص در نظریه اقتصادی است که گاهی اوقات خود را در امور تجربی نشان میدهد .برای این مجموعه
∧
دادهβ = 1/ 04 ،
بهدست میآید که از
مقــدار واقعی β =1چندان فاصله ندارد .با توجه به این مجموعه داده، میتوان گزارهای به شکل زیر بیان کرد« :مقدار βدر سطح اطمینان %95 در فاصله بین [ ]0/70 ,1/38قرار میگیرد» یا « 99%مطمئن هستیم که β
بین 0/59و 1/49قرار میگیرد».
مترین 5-1
مجموعه دادههای استفادهشــده برای ترســیم نمودارهای 5-3 ،5-2 ،5-1و 5-4در فایلهای FIG51.XLS، FIG52.XLS، FIG53.XLSو FIG54.XLSموجود است. ∧
∧
(الف) برآورد OLSاز αو βرا برای این چهار مجموعه داده بهدســت آورید.
برآوردها چقدر به مقادیر واقعی یعنی 0و 1نزدیک هستند (یعنی مقادیری که ما
بر مبنای آنها مجموعه داده را ساختیم)؟
(ب) فاصله اطمینان %95را در هر چهار مجموعه داده حساب کنید .ارتباط عرض این فاصله اطمینان با تعداد مشاهدات Nو تغییرات جزءخطا را آزمون کنید.
(ج) فاصله اطمینان %99و %90را برای تمام مجموعه دادهها حســاب کنید .نتایج
بهدست آمده را با نتیجه فاصله اطمینان بند (ب) مقایسه کنید.
مثال 5-3الف :رگرسیون جنگلزدایی بر تراکم جمعیت
یعنی دادههای FOREST.XLSتوجــه کنید .در فصل قبل دیدیم که ∧
β = 0 / 000842بود .ب ه عبارت دیگــر تاثیر نهایی یا مارژینال تراکم جمعیت بر جنگلزدایی 0/000842اســت .فاصله اطمینان %95برای این مقدار [ ]0/00061 ,0/001057اســت و نشان میدهد (با اطمینان
زیاد) که تاثیر نهایی جمعیت بــر جنگلزدایی بزرگتر از 0/00061و کوچکتر از 0/001057است.
مثال 5-4الف :رگرسیون اندازه خانه بر قیمت آن
در فصل قبل تاثیر اندازه خانه = Xبر قیمت فروش خانه = Yرا با استفاده از 564خانه به فروش رفته در وینســور کانادا بررسی کردیم (دادههای
HPRICE.XLSرا مالحظــه کنید) .با رگرس کــردن Yبر Xمعادله
برآوردی زیر بهدست میآید:
= Y 34 / 136 + 6 / 59X
139
فصل :5جنبههای آماری رگرسیون
دوبــاره به مجموعه داده مثال جنگلزدایــی ( )Yو تراکم جمعیت ()X
∧
∧
یا بهطور مشابه α =34 / 136 ،و β = 6 / 59است .میتوانیم بگوییم که برآورد OLSاز تاثیر نهایی Xبر Yبرابر 6/59اســت .بهترین حدسی که میتوان زد این اســت که افزایش اندازه خانــه به اندازه یک فوت
مربع (حــدودا 0/092متر مربع) ،باعث 6/59دالر افزایش قیمت خانه میشود.
فاصله اطمینان %95برای βبرابر با [ ]5/72 , 7/47اســت .هرچند تاثیر اندازه خانه بر قیمت آن 6/59دالر برآور د شده است اما مطمئن نیستیم
که این عدد دقیقا درست باشد .اما بسیار مطمئن هستیم %95-اطمینان- که تاثیر اندازه خانه بر قیمت آن حداقل 5/72دالر و حداکثر 7/47دالر
باشــد .ب ه نظر میرســد که این فاصله به هر خریدار یا فروشنده بالقوه تحلیل دادههای اقتصادی
معیار و مظنهای از ارزش هر فوت مربع خانه را بدهد.
140
مترین 5-2
فایل ADVER.XLSشامل دادههای فروش ساالنه= Yو مخارج تبلیغات =( Xهر دو به میلیون دالر) برای 84شرکت در آمریکا است.
(الف) رگرسیون Yبر Xو فاصله اطمینان %95برای αو βرا بهدست آورید.
(ب) با اســتفاده از مفهوم حداکثر و حداقل تاثیر ممکن متغیر توضیحی بر متغیر وابسته و طی یک جمله توضیح دهید که فاصله اطمینان βیعنی چه؟
مترین 5-3
فایل ELECTRIC.XLSشامل دادههای هزینه تولید =( Yبه میلیون دالر) و تولید =X
(به هزار کیلووات ساعت) برای 123شرکت فعال در صنعت برق آمریکاست .تمرین
5-2را برای این مجموعه داده تکرار کنید.
آزمون فرضیه
141
فصل :5جنبههای آماری رگرسیون
آزمون دیگری که معموال توســط اقتصاددانان تجربی انجام میشــود ،آزمون فرضیه است .مثل فاصله اطمینان ،در مورد آزمون فرضیه هم وارد بحث نظری آماری نمیشــویم .در عوض ،روی جزییات کاربردی آن تمرکز میکنیم ،یعنی این موضوع که چطور آزمون فرضیه را انجام دهیم و نتایج آن را چگونه تفسیر کنیم .آزمون فرضیه با تعیین یک فرضیه برای آزمون کردن آغاز میشــود .این ینامند و با H0نشان میدهند .این فرضیه با فرضیه مقابل فرضیه را فرضیه صفر م یا H1مقایسه میشود .یک فرضیه صفر پرکاربرد ،فرضیه صفر β =0است .این آزمون بهشکل رسمی اینگونه بیان میشود که H0 : β =0در مقابل H1 : β ≠ 0 آزموده میشود. نکته این اســت که اگر β =0باشد آنگاه Xنباید در مدل رگرسیونی وارد شــود یعنی متغیر توضیحی اصال نمیتواند متغیر وابسته را توضیح دهد .اگر به نوع سواالت مورد عالقه اقتصاددانان فکر کنید (مثال «آیا سطح تحصیالت باعث افزایش میزان دستمزد بالقوه افراد خواهد شد؟» یا «آیا یک استراتژی مشخص بــرای تبلیغات باعث افزایش فروش خواهد شــد؟» یا «آیا برنامه دولت جدید برای آمــوزش باعث کاهش بیکاری خواهد شــد؟» و غیره) مالحظه خواهید کرد که اغلب این ســواالت دارای فرمی بهصورت «آیا متغیر توضیحی تاثیری بر متغیر وابســته دارد؟» یا «آیا در رگرســیون Yروی ،Xمقدار βمساوی صفر است؟» هدف آزمون فرضیه β =0پاسخ به این سوال است. اولین نکته مهم این اســت که آزمون فرضیه و فاصله اطمینان ارتباط نزدیکی بــا یکدیگر دارند .در حقیقت یک روش بــرای آزمودن این فرضیه که آیا β =0 است ،دقت به فاصله اطمینان βو مشاهده این موضوع است که آیا این فاصله شامل صفر اســت یا خیر؟ اگر چنین نباشــد ،ضمن معرفی یک اصطالح آماری ،آنگاه میتوانیــم فرضیه β =0را رد کنیم و نتیجه بگیریم که « Xبهطور معناداری قدرت توضیحدهندگی Yرا دارد» یا « βبهطور معناداری متفاوت از صفر است» یا « βاز نظر آماری معنادار است» .اگر فاصله اطمینان شامل صفر باشد آنگاه واژه «رد میکنیم» را
تحلیل دادههای اقتصادی
142
به «میپذیریم» و عبارت «بهطور معناداری قدرت توضیحدهندگی دارد» را به «بهطور معناداری قدرت توضیحدهندگی ندارد» تغییر میدهیم و بههمین ترتیب .این روش اســتفاده از فاصله اطمینان برای آزمودن فرضیهها دقیقا معادل روش رسمی آزمون فرضیه است که در ادامه توضیح داده میشود. همانطور که فاصله اطمینان را میتوان بهازای سطوح مختلف اطمینان (که %95فاصله اطمینان معمول اســت) محاسبه کرد ،آزمون فرضیه را نیز میتوان بهازای ســطوح مختلف معناداری محاســبه کرد .اگر از روش فاصله اطمینان برای آزمون فرضیه اســتفاده کنیم ،آنگاه ســطح معناداری برابر خواهد بود با %100منهای ســطح اطمینان .یعنی اگر فاصله اطمینان %95شامل صفر نباشد، آنگاه میتــوان گفت که «میتوان فرضیه β =0را در ســطح معناداری %5رد کرد» (یعنی .)%100-%95=%5اگر از فاصله اطمینان %90استفاده شده باشد (و این فاصله اطمینان شامل صفر نباشد) آنگاه میتوان گفت که «میتوان فرضیه β =0را در سطح معناداری %10رد کرد». روش جایگزین برای آزمودن فرضیه ،محاســبه آماره آزمون است .در مورد آزمودن فرضیه ، β =0آماره آزمون را آماره tیا نســبت tمینامند که بهشــکل زیر محاسبه میشود: ∧
β =t sb
اگر مقدار آماره tمحاسبهشــده بزرگ باشــد به آن معناســت که β ≠ 0است در حالیکه مقادیر کوچک آن نشــان میدهد که β =0است .مفهوم ریاضی این ∧ نتیجهگیریها به این شکل است که :اگر βدر مقایسه با انحراف معیار خودش یعنی sbبزرگ باشد ،آنگاه میتوانیم نتیجه بگیریم که βبهطور معناداری مخالف صفر است .حال سوالی که پیش میآید این است که منظور از دو واژه بزرگ و کوچک چیست؟ چقدر بزرگ یا کوچک کافی است؟ بزرگ یا کوچک بودن آماره آزمون در مقایسه با یک «مقدار بحرانی» -که از جدولهای آماری tاستیودنت گرفته میشود- معنا مییابد .جزییات بیشتر در این مورد در ضمیمه 5-1ارائه شده است .خوشبختانه
143
فصل :5جنبههای آماری رگرسیون
نیاز نیست خودمان را درگیر جدولهای آماری کنیم چون اغلب بستههای نرمافزاری رایانهای مثل اکسل مقداری بهنام P-valueرا بهطور خودکار محاسبه میکنند .مقدار P-valueبهشکلی سرراست مشخص میکند که آیا tبزرگ است یا کوچک .یک تفسیر مفید (اما بهشــکل رسمی نادرست) این است که P-valueاحتمال β =0 را اندازه میگیرد .اگر P-valueکوچک باشد ،بعید است که β =0درست باشد. بنابراین: .1اگر P-valueکوچکتر از %5باشد (در رایانه معموال بهشکل 0/05نشان داده میشود) یعنی « tبزرگ» است و نتیجه میگیریم که β ≠ 0است. .2اگر P-valueبزرگتر از %5باشــد ،یعنی « tکوچک» اســت و نتیجه میگیریم که β =0است. در آزمون قبلی از ســطح اطمینان %5اســتفاده شده است .اما اگر بخواهیم بهجای ســطح اطمینان %5از سطح اطمینان %1اســتفاده کنیم (یعنی β =0را رد کنیم اگر P-valueکمتر از %1باشــد) آنگاه آزمون فرضیه ما باید در سطح معناداری %1انجام شود. الزم به ذکر اســت که یک دلیل بــرای تمرکز بر آزمون فرضیه ، β =0بهدلیل اهمیت آن است ،اما به این دلیل هم هست که بستههای نرمافزاری رایانهای اغلب نتیجه این آزمون فرضیه را نشان میدهند .حتی بدون داشتن پیشزمینه آماری مورد نیاز ،میتوان از نتایج این آزمون فرضیه استفاده کرد .اما برای آزمودن فرضیههای دیگر (مثل H0 :β =1یا فرضیهای که شامل چندین ضریب در رگرسیون چندگانه باشد که در فصل بعد به آن پرداخته میشود) نیاز به دانش آماری بیشتری هست (برای جزییات بیشــتر به ضمیمه 5-1مراجعه کنید) .ساختار کلی آزمون فرضیه همیشه بهشــکلی است که در باال توضیح داده شد .یعنی ( )iفرضیهای که باید آزمون شود مشــخص میشود )ii( ،آماره آزمون محاسبه میشود و ( )iiiآماره آزمون محاسباتی با مقدار بحرانی مقایســه میشود .اولین مرحله از این مراحل سهگانه معموال آسان اســت اما دو مرحله دیگر دشوارتر هستند .میتوان گفت که بهدست آوردن آماره آزمون برای آزمون فرضیههای پیچیدهتر نیازمند انجام محاسباتی است که فراتر از
تحلیل دادههای اقتصادی
144
فقط برآورد رگرسیون اســت .مقدار بحرانی از جدولهای آماری بهدست میآید. در نتیجه برای آزمودن فرضیههای پیچیدهتر ،الزم است کتابهای آمار مقدماتی یا کتابهای درسی اقتصادسنجی را مرور کنید (در پانویس 1در انتهای همین فصل برخی کتابهای مفید در این زمینه پیشنهاد شدهاند). در ادامــه خالصهای کاربردی از اطالعاتی که تکنیک رگرســیون در مورد ضریب βبهدست میدهد لیست شده است: ∧ β .1تخمین نقطهای روش OLSیا بهترین حدس در مورد مقدار واقعی βاست. .2فاصله اطمینان %95یعنی یک فاصله (بازه بین دو عدد) که %95اطمینان داریم βدر آن قرار دارد. ∧ .3انحراف استاندارد (یا خطای اســتاندارد یا همان انحراف معیار) βیعنی ∧ ، sbمقیاســی از میزان دقت βاست .همچنین sbجزء اصلی در محاسبه فرمول ریاضی فاصله اطمینان و آماره آزمون برای آزمودن فرضیه β =0است. .4آماره آزمون tبرای آزمودن فرضیه . β =0 .5مقدار P-valueبرای آزمودن فرضیه . β =0 ∧ در بستههای نرمافزاری مثل اکسل ،پنج مولفه اصلی رگرسیون یعنی ، βفاصله اطمینان t ، sb ،و P-valueمعموال در یک ســطر نمایش داده میشوند .از بین این ∧ عوامل ، β ،فاصله اطمینان و P-valueمهمتر هستند .یعنی در اغلب موارد میشود بدون اشــاره مستقیم به sbو t ،یافتههای تجربی را تفسیر کرد .مثالهای زیر نشان میدهند که چگونه میتوان نتایج رگرسیون را ارائه و تفسیر کرد:
مثال 5-3ب :رگرسیون جنگلزدایی بر تراکم جمعیت
اگر با استفاده از نرمافزار اکسل جنگلزدایی= Yرا روی تراکم جمعیت =X
رگرس کنیم ،نتایج موجود در جدول 5-2بهدست میآیند (سایر بستههای
نرمافزاری نتایجی با فرم مشابه تولید میکنند):
جدول .5-2رگرسیون جنگلزدایی بر تراکم جمعیت ضریب
خطای استاندارد
آماره t
P-value
حد پایین در سطح %95
حدباال در سطح %95
جزء ثابت 0/112318 0/599965
0/375837 1/15 E-06 5/341646
0/824093
0/000117 0/000842
0/00061
0/001075
متغیر X
5/5 E-10 7/227937
ســطری که با نام «جزء ثابت» مشخص شده است ،شامل نتایج برآورد αاســت و ســطر با نام متغیر Xشــامل نتایج برآورد βاست .بیشتر
توضیحاتی که در ادامه میآید بر این ســطر اخیر متمرکز است .ستون
با عنوان «ضریب» نشــاندهنده برآورد روش OLSاست و همانطور
کــه اگر تراکم جمعیت به میزان یک نفــر در هکتار افزایش یابد ،نرخ جنگلزدایی به اندازه 0/000842افزایش مییابد .ســتون با عنوان «حد پایین در ســطح »%95و «حد باال در سطح »%95نشاندهنده حد پایین
و باال در فاصله اطمینان 95درصدی اســت .در این دادهها ،همانطور
کــه از جدول پیداســت ،فاصله اطمینــان %95برای βبرابر اســت با [ .]0/00061 , 0/001075بنابراین ما 95درصد مطمئن هستیم که تاثیر نهایی تراکم جمعیت بر جنگلزدایــی بین % 0/001075و 0/00061 %اســت .ســتون با عنوان «خطای اســتاندارد» (یا انحــراف معیار) و
«آماره »tنشــان میدهنــد
که sb = 0 / 000117
و
t = 7 / 227937
اســت .وقتی مقدار P-valueرا در اختیار داشــته باشیم ،برای آزمون
فرضیه β =0به انحراف معیار و آمــاره tاحتیاج نداریم .از اینرو در
اغلب اوقات میتوانیم از این دو ستون صرفنظر کنیم .در مثالهای این کتاب ،هرگز از sbاستفاده نکردهایم و از tنیز بهندرت استفاده کردهایم. در ادامه کتاب نیز ،تنها جایی که از tاســتفاده کردهایم ،در آزمونهای
145
فصل :5جنبههای آماری رگرسیون
که پیشتر دیدیم β =0 / 000842 ،اســت .این ضریب به این معناست
دیکی-فولر 1و انگل-گرنجر 2اســت که بهترتیب در فصلهای 9و 10 توضیح داده خواهند شد.
آزمودن فرضیه β =0را میتوان به دو روش با نتایج یکسان انجام داد .در
روش اول میتوانیم از فاصله اطمینان %95برای βاستفاده کنیم که عبارت اســت از [ .]0/00061 , 0/001075از آنجاکه این فاصله اطمینان شامل
صفر نیســت ،پس میتوانیم فرضیه β =0را در سطح معناداری %5رد کنیم .به عبارت دیگر ،شواهدی قوی دال بر این وجود دارد که βمخالف
صفر اســت و تراکم جمعیت بهطرز معنــاداری قدرت توضیحدهندگی
جنگلزدایی را داراســت .در روش دوم میتوانیم از P-valueاستفاده کنیم که برابر با 5 / 5 × 10−6
و بســیار کوچکتر از 0/05است .بنابراین
تحلیل دادههای اقتصادی
میتوانیم فرضیه تاثیر نداشتن تراکم جمعیت بر جنگلزدایی را در سطح
146
معناداری %5رد کنیم .ب ه عبارت دیگر ،شــواهدی قوی در دست داریم
که نشــان میدهند تراکم جمعیت واقعا بر نرخ جنگلزدایی موثر است. الزم به ذکر است که بیشتر نرمافزارهای رایانهای عدد 5 / 5 × 10 ^ −10
یا 0/00000000055را بهشکل 5/5E-10نشان میدهند.
مترین 5-4
با اســتفاده از نتایــج جدول ( 5-2یا بــرآورد رابطه رگرســیونی روی دادههای )FOREST.XLSفرضیه α =0را آزمون کنید.
مترین 5-5
مجموعه دادههای FOREST.XLSعالوه بر متغیر نرخ جنگلزدایی = Yشــامل
دادههای متغیر درصد افزایش در گندمزار =( Wتحت عنوان « )»Crop chو درصد 2- Engle-Granger
1- Dicky-Fuller
تغییرات در چراگاه =( Zتحت عنوان « )»Pasture chنیز هست.
(الف) Yرا روی Wرگرس و نتایج را تفسیر کنید .آیا میتوانید این فرضیه را رد کنید که توسعه گندمزارها تاثیری بر نرخهای جنگلزدایی ندارد؟
Zرگرس و نتایج را تفســیر کنید .آیا میتوانید این فرضیه را رد (ب) Yرا روی کنید که توسعه چراگاهها تاثیری بر نرخهای جنگلزدایی ندارد؟
مترین 5-6
از مجموعــه دادههــای FIG51.XLS، FIG52.XLS، FIG53.XLSو FIG54.
XLSاستفاده کنید.
(الــف) در هر یک از چهار مجموعه داده و با اســتفاده از روش فاصله اطمینان،
(ب) در هــر یک از چهار مجموعه داده و با اســتفاده از روش ،P-valueآزمون کنید که آیا β =0است؟ از سطح معناداری %5استفاده کنید.
(ج) بند الف و ب را برای αتکرار کنید.
(د) بندهای الف ،ب ،و ج را با سطح معناداری %1تکرار کنید.
(ه) با توجــه به توضیحات این فصل در مورد عوامــل موثر بر دقت برآوردهای ،OLSآیا نتایجتان معقول هستند؟
مثال 5-4ب :رگرسیون اندازه خانه بر قیمت آن
قبال دیدیم که در رگرسیون قیمت خانه = Yبر اندازه خانه = ،Xفاصله اطمینان %95برابر با [ 7/47و ]5/27است .از آنجاکه این فاصله اطمینان شامل عدد
صفر نیست ،میتوانیم فرضیه β =0را در سطح معناداری %5رد کنیم .یعنی ب ه نظر میرسد که تاثیر اندازه خانه بر قیمت آن واقعا از نظر آماری معنادار است.
همچنین مقدار P-valueبرابر با 6 / 77 × 10−42است که بسیار کوچکتر
147
فصل :5جنبههای آماری رگرسیون
آزمون کنید که آیا β =0است؟
از 0/05است .همانطور که قبال هم اشاره شد ،میتوانیم فرضیه β =0را در سطح معناداری %5رد کنیم .توجه داشته باشید از آنجاکه مقدار P-value
یعنی 6 / 77 × 10 −42از 0/01نیز کوچکتر است ،میتوانیم فرضیه β =0
را در سطح معناداری %1نیز رد کنیم .اینها شواهدی قوی دال بر این هستند
که اندازه خانه واقعا بر قیمت آن موثر است.
مترین 5-7
قبال از فایل ADVERT.XLSاستفاده کرده بودیم .به یاد بیاورید که این فایل شامل
دادههای متغیرهای فروش و مخارج تبلیغات برای 84شرکت است .با استفاده از تحلیل دادههای اقتصادی
این دادهها ،رگرسیونی را طراحی و برآورد کنید و در مورد نتایج آن بهطور شفاهی
148
بحث کنید ،انگار که میخواهید این نتایج را برای فرد دیگری توضیح دهید .بهتر اســت توضیحاتتان شامل تاثیر نهایی مخارج تبلیغات بر فروش این شرکتها و معناداری آماری این تاثیر باشد.
آزمون فرضیه :R2آماره F
بیشتر بستههای نرمافزاری که رابطه رگرسیونی را برآورد میکنند ،مانند اکسل، در خروجیهای خــود نتایج مربوط به آزمون فرضیه H0 : R2 = 0را نیز ارائه میکنند .تعریف و تفســیر R 2در فصل پیش ارائه شــد .به یاد بیاورید که R 2 مقیاسی برای میزان نیکویی برازش خط رگرسیون است یا بهطور مشابه ،مقداری از تغییرپذیری در Yکه توسط Xتوضیح داده میشود .اگر R2 = 0باشد ،آنگاه Yندارد .بنابراین آزمون فرضیه R2 = 0را Xهیچ قدرت توضیحدهندگی برای میتوان بهمثابه آزمونی برای این فرضیه تفسیر کرد که آیا رگرسیون اصال قدرت توضیحدهندگی دارد یا خیر؟ در مورد رگرسیون ساده ،این آزمون معادل آزمون فرضیه β =0است .در فصل آتی ،رگرســیون چندگانه را توضیح خواهیم داد
N − 2 ) R2 ( =F 1 − R2
اکسل بهطور خودکار این رابطه را محاسبه میکند و تحت عنوان « »Fنمایش میدهد .مثل قبل ،مقادیر «بزرگ» آماره آزمون به این معناست که R2 ≠ 0است و مقادیــر «کوچک» آن ب ه معنای R2 = 0اســت .همانطور که در مورد آزمون β =0دیدیم ،برای تصمیمگیری در مورد اینکه چه مقداری از آماره بهدســت
149
فصل :5جنبههای آماری رگرسیون
(که در آن چند متغیر توضیحی وجود دارد) .در چنین رگرســیونی ،این آزمون متفــاوت خواهد بود .بهعنوان مقدمهای از توضیحات فصل آتی ،میتوان گفت که آزمون R2 = 0را میتوان بهعنوان آزمونی برای این موضوع در نظر گرفت که آیا تمام متغیرهای توضیحی ب ه همراه یکدیگر ،قدرت توضیحدهندگی متغیر وابســته را دارند؟ برای مقایسه موضوع در نظر داشــته باشید که آماره tآزمون β =0به این منظور اســتفاده میشود که مشخص شود آیا تنها متغیر توضیحی موجود در رگرسیون ساده (تکمتغیره) قدرت توضیحدهندگی متغیر وابسته را دارد؟ مفهوم و تکنیک آزمودن فرضیه R2 = 0همانند آنچیزی اســت که در مورد آزمون فرضیه β =0در رگرسیون ســاده مطرح شد .یعنی بسته نرمافزار رایانهای آماره آزمون را محاسبه میکند که در ادامه باید با مقدار بحرانی مقایسه شود .البته میتوان از مقدار P-valueنیز استفاده کرد که کار را راحتتر میکند و نیاز به مقایســه آماره محاسباتی با مقدار بحرانی را از بین میبرد .میدانیم که P-valueمقیاسی است از میزان معناداری فرضیه صفر R2 = 0در برابر فرضیه مقابل یعنی . R 2 ≠ 0بیشتر بستههای نرمافزاری بهطور خودکار مقدار P-value را محاســبه میکنند ،بنابراین الزم نیست که برای استخراج مقدار بحرانی آماره در سطوح معناداری مختلف سراغ جدولهای آماری بروید .رابطه ریاضی آماره آزمون ،یعنی آماره F بهشــکل زیر اســت .در میان تمام آمارههای آزمون ،تنها آماره Fاست که مقادیر بحرانیاش از آنچه «توزیع F » نامیده میشود بهدست میآید .ضمیمه 11-1برخی توضیحات تکمیلی در این مورد ارائه میکند.
آمده «بزرگ» یا «کوچک» اســت ،از P-valueاســتفاده میکنیم (یعنی آیا R 2
تحلیل دادههای اقتصادی
150
بهطور معناداری متفاوت از صفر اســت یا نیســت) .دقت کنید که در خروجی اکســل مقدار P-valueتحت عنوان «معناداری »Fنمایش داده میشود .برای تفسیر نتایج میتوان از قواعد زیر استفاده کرد: .1اگر «معناداری »Fکوچکتر از ( %5یا )0/05باشــد ،نتیجه میگیریم که R2 ≠ 0است. .2اگــر «معناداری »Fبزرگتر از ( %5یا )0/05باشــد ،نتیجه میگیریم که R2 = 0است. در قواعد باال از سطح معناداری %5استفاده شده است .برای انجام آزمون در سطح معناداری ،%1میتوان بهجای ( %5یا )0/05از ( %1یا )0/01استفاده کرد. سایر سطوح معناداری (مثال )%10را هم میتوان بههمین ترتیب محاسبه کرد. ســایر بستههای نرمافزاری ممکن است از نمادهایی اندکی متفاوت استفاده کنند .مثال نرمافزار ،MicroFitآماره Fرا « »F-statمینامد و P-valueآن را بین دو قالب (کروشه) در کنار آن نمایش میدهد.
مثال 5-3ج :رگرسیون جنگلزدایی روی تراکم جمعیت
در دادههای جنگلزدایی و تراکم جمعیت 4308/ 52 ، F= 2اســت .آیا این مقدار برای F «بزرگ» محسوب میشود؟ اگر پاسختان مثبت است،
درست فکر میکنید؛ زیرا معناداری آماره Fبرابر 5 / 5 × 10−10و بسیار کوچکتر از 0/05است .پس میتوانیم نتیجه بگیریم که تراکم جمعیت
قدرت توضیحدهندگی متغیر مستقل Yرا دارد .بهعبارت دیگر میتوان
اظهار کرد که « R2در سطح معناداری %5بهشکل معناداری متفاوت از صفر اســت» ،یا «متغیر Xبه لحاظ آماری قدرت توضیحدهندگی متغیر Y را دارد» یا «رگرســیون معنادار است» .فراموش نکنید که معناداری F
معادل P-valueدر آزمون فرضیه β =0اســت که تاکیدی اســت بر یکسان بودن این دو آزمون در رگرسیون ساده.
مترین 5-8
از مجموعــه دادههــای FIG51.XLS، FIG52.XLS، FIG53.XLSو FIG54.
XLSاستفاده کنید.
برای هر کدام از این 4مجموعه داده ،آزمون کنید که آیا R2 = 0است؟ نتایج این
تمرین را با نتایج تمرین 5-6مقایسه کنید.
از دادههای فایل ELECTRIC.XLSدر فصل 4اســتفاده کردیم .این فایل شــامل دادههای متغیرهای هزینه تولید =Yو تولید = Xبرای 123 شــرکت فعال در صنعت برق بود .نتایج برآورد رگرسیون Yرا روی X
با استفاده از اکسل ،در جدول 5-3وجود دارد.
جدول .5-3رگرسیون هزینه تولید روی تولید ضریب
خطای استاندارد
آماره t
P-value
حد پایین در سطح %95
حدباال در سطح %95
جزء ثابت 1/534354- 0/246958 1/163395 1/879484 2/186583
5/90752
0/004528 5/36 E-67 36/37623 0/000132 0/004789
0/005049
متغیر X
همچنین R2 = 0 / 916218اســت .مقــدار P-valueبــرای آزمون ( R2 = 0که اکســل تحت عنوان «معنــاداری »Fنمایــش میدهد)
نیز برابر 5/36E-67اســت .خالصــهای از موضوعات مطروحه در
151
فصل :5جنبههای آماری رگرسیون
مثال :5-5هزینه تولید در صنعت برق
فصلهــای 4و 5آموختیم که چگونه نتایج جدول باال را بهشــکلی
خالصهشده در گزارشــی استاندارد و رســمی ارائه کنیم .گزارشی
معمول باید شــامل خالصه نتایجــی مانند جدول باال باشــد که با مالحظه اعداد آن بتوان مفهوم اقتصادی رگرســیون برآوردشــده را
درک کرد .مثالای از چنین گزارشــی در ادامه ارائه شده است.
جدول 5-3نتایج رگرســیون OLSبا استفاده از دادههای شرکتهای
فعال در صنعت برق آمریکا را نشــان میدهــد .از آنجاکه ما بهدنبال تعییــن چگونگی تاثیرگذاری مقدار تولید بــر هزینههای تولید بنگاهها
هستیم ،هزینههای تولید را متغیر وابسته و میزان تولید را متغیر توضیحی در نظر گرفتیم .ضریب برآوردشــده برای تولید برابر 0/004789است
تحلیل دادههای اقتصادی
و نشــان میدهد که بنگاههای با مقدار تولید بیشــتر ،گرایش به داشتن
152
هزینههای تولید بیشتر دارند .به بیانی دقیقتر میتوان گفت که افزایش مقدار تولید بــه اندازه هزار کیلووات ســاعت ،هزینهها را 4789دالر
افزایــش میدهد .میتوان دید که تاثیر نهایــی مقدار تولید بر هزینهها، از نظر آماری قویا معنادار اســت زیرا P-valueبســیار کوچک است
(حتی از %1نیز کوچکتر اســت) .آزمون فاصلــه اطمینان %95ما را
کامال مطمئن میکند که افزایش تولید ب ه اندازه 1000کیلووات ساعت بــا حداقل 4528و حداکثر 5049دالر افزایش هزینهها همراه اســت. آزمون R2نیــز این ایده را تقویت میکند که مقدار تولید ،بخش بزرگی از تغییرات هزینهها بین بنگاهها را توضیح میدهد .ب ه عبارت دیگر92 ،
درصد از تغییرات هزینههای تولید بین بنگاهها میتواند توســط مقادیر Fنیز بسیار متفاوت تولید بنگاهها توضیح داده شــود P-value .آماره
کوچکتر از %1و به این معناســت که R2بهدســت آمده در سطح %1 معنادار است.
خالصه فصل
153
فصل :5جنبههای آماری رگرسیون
.1دقــت برآورد OLSبه تعداد مشــاهدات (حجم دادهها) ،میزان یا گســتره تغییرپذیری متغیر توضیحی و اجزای خطا بستگی دارد. .2فاصلــه اطمینان ،برآوردی فاصلهای برای βبهدســت میدهد (یعنی فاصلهای که میتوانیم مطمئن باشــیم βدر آن قرار میگیرد) .فاصله اطمینان در اغلب بســتههای نرمافزارهای محاســبه و به همراه ســایر نتایج نمایش داده میشود. .3همــان عواملی که دقت برآورد OLSرا تحت تاثیر قرار میدهد ،عرض فاصلــه اطمینان را نیز متاثر میکند .به عالوه ،عرض فاصله اطمینان به ســطح اطمینان نیز بستگی دارد (یعنی درجه اطمینانی که میخواهیم برآورد فاصلهای ما داشته باشد). .4بــرای آزمودن معناداری حضور متغیر توضیحی در رگرســیون ،آزمون فرضیــه β =0بهکار میآید .برای رد یا پذیرفتن این فرضیه میتوانیم از مقدار ( P-valueکه بهطور خودکار توســط اغلب بســتههای نرمافزاری محاســبه میشود) استفاده کنیم. .5اگــر P-valueآزمون فرضیه β =0کمتر از %5باشــد ،آنگاه میتوانیم فرضیــه را در ســطح معنــاداری 95%رد کنیم و نتیجه بگیریــم که Xباید در رگرسیون حضور داشته باشد. .6اگر P-valueآزمون فرضیه β =0بیشــتر از %5باشد ،آنگاه نمیتوانیم فرضیه را در ســطح معناداری 95%رد کنیم ،پس نتیجه میشود که Xنباید در رگرسیون حضور داشته باشد. .7میتوان از آزمون فرضیه R2 = 0برای تعیین این موضوع اســتفاده کرد که آیا متغیر توضیحی ،متغیر وابســته را توضیح میدهد؟ P-valueاین آزمون توســط اغلب بســتههای نرمافزاری صفحه گســترده و آماری بهطور خودکار محاسبه میشود و میتوان از آن بهشکل مشابه نکات 5و 6استفاده کرد.
ضمیمه :5-1استفاده از جدولهای آماری برای آزمون فرضیه β=0
تحلیل دادههای اقتصادی
154
P-valueبرای آزمودن فرضیه β =0کافی است .بیشتر بستههای نرمافزاری رایانهای (مثل اکسل ،میکروفیت یا َش َزم P-value )SHAZAMرا بهشکل خودکار محاسبه و ارائه میکنند .اما اگر چنین نرمافزارهایی را در اختیار ندارید یا مقالهای میخوانید که فقط آماره tضرایب را ارائه کرده است و P-valueضرایب در آن وجود نداشته باشد ،آنگاه چگونگی آزمون فرضیه با استفاده از جدولهای آماری ب ه کارتان میآید. احتماال در اغلب کتابهای درســی آمار یا اقتصادسنجی این جدولها به تفصیل وجود دارند .در این بخش شرحی جزیی از قاعده سرانگشتی ارائه میشود که زمانی مفید است که حجم مثال یا ،Nبزرگ باشد. قبال گفتیم که در آزمون فرضیه ،آماره آزمون با یک عدد که مقدار بحرانی نامیده میشود ،مقایسه میشود .اگر (قدر مطلق) آماره آزمون از (قدر مطلق) مقدار بحرانی بزرگتر باشد ،فرضیه رد میشــود .در آزمون فرضیه حاضر ،آماره آزمون ،آماره t است .این مقدار باید با عددی که از جدول آماری tاستیودنت اخذ میشود ،مقایسه شــود .در فصل جاری ،هنگام توضیح فاصله اطمینان ،این عدد یا مقدار بحرانی را tbنامیدیم .اگر Nبزرگ باشد و شما از سطح معناداری %5استفاده میکنید ،آنگاه tb = 1/ 96است .در نتیجه قاعده سرانگشتی زیر را داریم: اگر قدر مطلق آماره tبزرگتر از 1/96باشــد (یعنی ،) t > 1/ 96فرضیه β =0در ســطح معناداری %5رد میشود .اگر قدر مطلق آماره tکوچکتر از 1/96باشد ،فرضیه β =0در سطح معناداری %5پذیرفته میشود. اگر فرضیه β =0رد شــود ،میتوانیم ادعا کنیم که « Xمعنادار است» یا «X قدرت توضیحدهندگی از نظر آماری معناداری برای Yدارد». اگر حجم مثال بزرگ باشــد ،این قاعده سرانگشــتی دقیق خواهد بود .در واقع مقدار بحرانی زمانی برابر 1/96اســت که حجم مثال بینهایت باشد .اما مثالهای نسبتا بزرگ نیز دارای مقدار بحرانی مشابهی هستند .مثال اگر N=120 باشــد ،مقدار بحرانی 1/98اســت .با ،N=40مقدار بحرانی 2/02است .حتی مثالای کوچک با 20مشاهده هم دارای مقدار بحرانی 2/09است که از 1/96
∧
β− c =t sb
بســتههای نرمافزاری این آماره را بهشــکل خودکار محاســبه نمیکنند اما میتوان آنرا بهسادگی بهوسیله ماشین حساب یا نرمافزارهای صفحه گسترده ∧ حســاب کرد β .و sbو را که نرمافزار خودکار حساب میکند و شما تنها باید با توجه به فرضیهای که متمایل به آزمودن آن هســتید ،مقدار cرا تعیین کنید. این ســه عدد را در فرمول باال جایگذاری کنید و آماره مورد نیازتان را محاسبه کنید .اگر قدر مطلق آماره محاسباتی بزرگتر از 1/96است ،در سطح معناداری %5نتیجه خواهید گرفت که β ≠ cاست .فقط اگر حجم مثالتان کوچک است، هشدارهای مربوط به استفاده از قاعده سرانگشتی را فراموش نکنید.
155
فصل :5جنبههای آماری رگرسیون
خیلی فاصله ندارد .اما زمانی که حجم مثالتان کوچک است یا آماره tبهدست آمده نزدیک به 2/00باشــد ،باید با احتیاط از قاعده سرانگشتی استفاده کنید. اگر به مثالهای ارائهشــده در این فصل دقت کنید ،متوجه میشــوید که این قاعده بهخوبی کار میکند .در مثال با عنوان «هزینههای تولید در صنعت برق»، آمــاره tبرای آزمون فرضیه β =0برابر 36/4بهدســت آمد که به میزان کافی از 1/96بزرگتر اســت .پس نتیجه میگیریم که مقدار تولید ،متغیر توضیحی از لحاظ آماری معناداری برای هزینههای تولید اســت .در این مثال (و ســایر مثالها) ،هر دو روش P-valueو فاصله اطمینان ،منجر به نتایجی یکســان با روش تقریبی ارائهشده در این ضمیمه میشوند. توضیحات باال برای ســطح معناداری %5صدق میکنند .در ســطح معناداری ،%10مقدار بحرانی مثالهای بزرگ برابر 1/65است و در سطح معناداری %1برابر 2/58است .تاکنون تمام آزمونها برای فرضیه H0 :β =0بوده است .با استفاده از تکنیک ارائهشده در این ضمیمه ،میتوانیم این آزمون را برای فرضیههایی بهشکل H0 :β =cتعمیم بدهیم که cیک عدد مخالف صفر اســت (مثال .)c=1در این شرایط ،آماره آزمون اندکی تغییر میکند اما مقدار بحرانی دقیقا همان است که برای آزمون فرضیه β =0بود .تعریف دقیق آماره آزمون بهشکل زیر است:
منابع
156
تحلیل دادههای اقتصادی
Hill, C., Griffiths, W. and Judge, G. (1997) Undergraduate Econometrics, John Wiley and Sons, Chichester. Koop, G. (2008) Introduction to Econometrics, John Wiley and Sons, Chichester. Wonnacott, T. and Wonnacott R. (1990) Introductory Statistics for Business and Economics, Fourth edition. John Wiley and Sons, Chichester.
فصل 6 رگرسیون چندگانه
157
فصل :6رگرسیون چندگانه
بحث رگرسیون ساده در فصل 5شامل دو متغیر بود :متغیر وابسته یا Yو متغیر توضیحی یا .Xهمانطور که در ابتدای فصل 4دیدیم ،اغلب پرســشهای تجربی در اقتصاد شامل چندین متغیر هستند .رگرسیون چندگانه بسط رگرسیون ساده به حالتی است که در آن چندین متغیر توضیحی وجود دارد .از آنجاکه اغلب معادالت برآوردشــده در پژوهشهای کاربردی اقتصادسنجی از این نوع هستند ،این فصل بسیار مهم است .خوشبختانه بیشتر مفاهیم و تکنیکهای آماری رگرسیون چندگانه مشابه رگرسیون ساده هستند .نکات کلیدی فصلهای 4و 5عبارتند از: • بهبود درک نموداری از تکنیک رگرســیون برای برازش خط مستقیم در نمودار XY؛ • معرفی ضرایب رگرسیون بهعنوان معیاری برای اندازهگیری تاثیر نهایی؛ • توصیــف برآورد حداقل مربعات معمولــی ( )OLSبهعنوان بهترین خط برازششده (با حداقل کردن مجموع مجذور پسماندها) در نمودار XY؛ • معرفی R2بهعنوان معیار اندازهگیری نیکویی برازش مدل رگرسیون؛ • معرفی تکنیکهای آماری مثل فاصله اطمینان و آزمون فرضیه. بهجز چند استثنا (که در ادامه به آنها اشاره خواهد شد) ،این پنج مولفه در رگرسیون چندگانه هم مشابه رگرسیون ساده هستند .اگر نکات اصلی یا جزییات
آماری رگرســیون را فراموش کردهاید ،باید مجددا فصلهای 4و 5را مطالعه کنید .در این فصل ،ما نکات کلیدی که در باال به آنها اشــاره کردیم را بهطور خالصه برای حالت رگرسیون چندگانه بحث و بر مشابهتها و تفاوتهای آن با رگرسیون ساده تاکید خواهیم کرد .بخش عمده فصل را با مثالی پیش میبریم که هدف آن توضیح چگونگی تفسیر نتایج رگرسیون چندگانه است.
مثال 6-1الف :توضیح قیمت خانه
اغلــب تحقیقــات در اقتصــاد خــرد و بازاریابی کاربــردی بر نحوه
قیمتگذاری کاالها تمرکز دارند .روشــی معمول برای این کار ساختن
تحلیل دادههای اقتصادی
یک مدل است که در آن قیمت کاال وابسته به ویژگیهای آن است.
فایل HPRICE.XLSشــامل دادههای مربوط به چنین مدلی است که
158
مدل قیمتگذاری هدانیک 1در بازار مســکن نامیده میشود .در فصل پیش با بخشهایی از دادههای این فایل کار کردیم .احتماال میدانید که
این دادهها مربوط به N=546خانه در وینسور کانادا است .متغیر وابسته
یا ،Yقیمت فروش این خانههــا به دالر کانادا و متغیر توضیحی یا ،X اندازه خانه بود .شــکی وجود ندارد که قیمــت خانه از عواملی غیر از
اندازه آن نیز تاثیر میپذیرد و در نتیجه هر تالشــی برای بررسی عوامل تعیینکننده قیمت خانه ،باید شامل عواملی عالوه بر اندازه آن نیز باشد.
در این فصل ،بر چهار متغیر توضیحی زیر متمرکز میشویم: : X1اندازه خانه (به فوت مربع) : X2تعداد اتاقخوابها : X3تعداد حمامها
1- Hedonic
: X4تعداد طبقات (شامل زیرزمین)
فایل HPRICE.XLSشــامل دادههای مورد نیاز برای بررسی مثال این فصل است.
مترین 6-1
(الف) برای هر یک از چهار متغیر توضیحی فوق ،هر دفعه یک نمودار XYرسم کنید (یعنی چهار نمودار Y ،با Y ، X1با X2و بههمین ترتیب).
(ب) برای هر یک از چهار متغیر توضیحی فوق ،یک رگرسیون ساده را ران کنید
ترتیب).
(ج) در مورد روابط یافتشده در بندهای الف و ب نظر بدهید.
رگرسیون بهعنوان بهرتین خط برازش
همانطور که در فصل 4دیدیم ،مدل رگرسیون ساده را میتوان بهعنوان تکنیکی در نظر گرفت که بهترین خط ممکن را در یک نمودار XYترســیم میکند .از آنجاکه در رگرســیون چندگانه بیــش از دو متغیر وجود دارند (یعنی X2 ، X1 X4 ، X3 ،و ،)Yنمیتوانیم از یک نمودار دوبعدی (همانند رگرســیون ســاده کــه هر یک از دو متغیر را روی یکــی از دو محور عمودی و افقی نمودار Y X قرار میدادیم) اســتفاده کنیم و خط مستقیمی را از میان مشاهدات بگذرانیم .با اینحال همچنان میتوانیم مفهوم بهترین خط برازش را بهکار بگیریم (اگر چه این فقط زمانی ممکن است که بتوانیم نموداری چندبعدی ،که ابعاد آن ب ه اندازه مجموع تعداد متغیرهای توضیحی و وابســته است را تصور کنیم) .مثال اگر سه متغیر توضیحی داشته باشیم ،با استفاده از نموداری چهار بعدی ،که Yروی یک محور X1 ،روی محور دوم X2 ،روی محور سوم و X3روی محور چهارم قرار
159
فصل :6رگرسیون چندگانه
(یعنی ابتدا Yرا روی X1رگرس کنید ،سپس Yرا روی X2
رگرس کنید و بههمین
دارد ،میتوانیم نشــان دهیم که چطور رگرسیون چندگانه همان مفهوم بهترین خط برازش را بهکار میگیرد .البته رسم چنین نموداری غیرممکن است( .تصور کنید که یک نمودار چهار بعدی چگونه خواهد بود؟)
برآورد OLSاز مدل رگرسیون چندگانه
مدل رگرسیون چندگانه با kمتغیر توضیحی را میتوان بهشکل زیر نوشت: Y = α + β1X1 + β2 X2 + … + βk Xk + e
تحلیل دادههای اقتصادی
160
بهطور رســمی بــرای نشــان دادن هر مشــاهده ،میتوانیم یــک اندیس iرا بــه تمــام متغیرها نســبت دهیــم .بهعبارت دیگــر میتوانیم بنویســیم: . Yi = α + β1X1i + β2 X2i + … + βk Xki + eiاما اضافه کــردن تعداد زیادی اندیس میتواند باعث شلوغکاری شود و خواندن معادله را سخت کند .پس هم اینجا و هم در ادامه کتاب ،گاهی اوقات اندیس iرا حذف میکنیم (و اندیس t را زمانی که با دادههای ســریزمانی سر و کار داریم) مگر اینکه اشاره کردن به یک مشاهده خاص مدنظرمان باشد. بهجای اینکه فقــط αو βرا برآورد کنیم ،اکنــون باید βk ... β2 ، β1 ، αرا برآورد کنیم .اما استراتژی برآورد این ضرایب دقیقا مانند استراتژی است که در رگرسیون ساده از آن اســتفاده کردیم .یعنی ابتدا مجموع مجذور پسماندها را بهشکل زیر تعریف میکنیم: 2 ∧ ∧ ∧ SSR = ∑ Yi − α− β1 X1i − … − βk Xki
که در آن X1iعبارت اســت از iامین مشاهده برای متغیر توضیحی اول (برای i=1. … .Nمشاهده ،یعنی اندازه خانه iام که تعداد خانهها i=1,…,546است) سایر متغیرهای توضیحی بههمین ترتیب تعریف میشوند .برآورد ( OLSکه میتوان آن ∧ ∧ ∧ ∧ را بهترین خط برازش نامید) عبارت اســت از تعیین یا انتخاب αو βk ... β2 ، β Sرا حداقل کند .از نظر مفهومی ،حداقل کردن SSRمساله ریاضی بهترتیبی که SR سادهای محسوب میشود .فرمول نهایی اندکی پیچیده است و اینجا آورده نشده
∧
∧
∧
Oاز α . β1 .…βkرا بهطور خودکار اســت اما نرمافزارهای آماری برآوردهای LS حساب میکنند .خوانندگان آشنا به حساب دیفرانسیل و انتگرال باید توجه داشته باشــند که برآوردهای OLSاز ضرایب رگرســیون چندگانه را میتوانیم با روش مرسوم حداقل کردن توابع بهدست بیاوریم .یعنی میتوانیم مشتق اول تابع را نسبت ∧ ∧ ∧ به βk ... β2 ، β1 ، αبهدست بیاوریم ،این مشتق را مساوی صفر قرار دهیم و معادله را حل کنیم .برای بهدست آوردن ضرایب رگرسیون چندگانه یا اثبات فرمولهای آن نیاز به جبر ماتریسها است ،چون بدون استفاده از ماتریسها ،فرمولهای روش OLS بسیار پیچیده میشــوند .جبر ماتریسها در این کتاب مطرح نمیشوند اما اگر خودتان بخواهید مطالعه اقتصادسنجی را ادامه بدهید حتما باید با ماتریسها و عملیات جبری آنها آشنا شوید.
همانطور که اشــاره شــد ،جنبههای آماری رگرســیون چندگانه کامال مشابه رگرســیون ســاده هســتند (فصل 5را ببینید) .بهطور خاص میتوان گفت که R2همچنان معیاری برای اندازهگیری نیکویی برازش است و به همان ترتیب قبل محاسبه میشود .البته R2در رگرســیون چندگانه ،قدرت توضیحدهندگی تمــام متغیرهای توضیحی ب ه همراه همدیگر را نشــان میدهد در حالیکه در رگرســیون ســاده قدرت توضیحدهندگی تنها متغیر توضیحی موجود را نشان میداد .فرمول آماره Fبرای آزمون فرضیه R2 = 0اندکی متفاوت است (یعنی در فرمــول بهجای N-k-1 ، N-2را جایگذاری میکنیم) اما مفهوم آن یکســان است و همچنان میتوانیم از P-valueمحاسبهشده توسط نرمافزار برای آزمون فرضیه اســتفاده کنیم .اگر نتیجه بگیریم که R2 ≠ 0است ،میتوانیم ادعا کنیم ِ توضیحی رگرســیون ،ب ه همراه هم قادر به توضیح متغیر وابسته که «متغیرهای 2 هستند» اما اگر R = 0باشد ،میتوان ادعا کرد که «متغیرهای توضیحی معنادار نیستند و قدرت توضیحدهندگی متغیر وابسته را ندارند». فرمولهای عمومی محاســبه فاصله اطمینان برای ضرایب رگرسیون و آزمون
161
فصل :6رگرسیون چندگانه
جنبههای آماری رگرسیون چندگانه
تحلیل دادههای اقتصادی
162
فرضیه مســاوی صفر بودن آنها دقیقا مشابه فصل 5است .اما محاسبه اعدادی که باید در فرمولها جایگذاری شوند (یعنی )Sbاندکی پیچیدهتر هستند .با وجود این تفاوت اندک ،مفهوم عملی این فرمولها همانند قبل است .بهعبارت دیگر ،فاصله اطمینان %95نشاندهنده برآوردی فاصلهای است ،بهنحوی که میتوانیم ادعا کنیم « %95مطمئن هستم که ضرایب برآوردشده در فاصله اطمینان %95قرار میگیرند». اغلب نرمافزارها P-valueضرایب را محاســبه میکنند که به کمک آنها میتوان فرضیههای مســاوی صفر بودن ضرایب برآوردشده را آزمود .اگر P-valueکمتر از 0/05باشــد میتوانیم نتیجه بگیریم که آن متغیر توضیحی در سطح %5معنادار است .الزم به ذکر است که در رگرسیون چندگانه ،برای ضریب هر متغیر توضیحی، یعنی ، β1 ….βkیک P-valueو فاصله اطمینان محاســبه میشود در حالیکه در رگرسیون ســاده که فقط یک ضریب یعنی βوجود داشت ،تنها یک P-valueو فاصله اطمینان نیز محاسبه میشد .از دید محققی که به دنبال تفسیر خروجیهای نرمافزار برای درج در پژوهش خود است ،جنبههای آماری رگرسیون چندگانه کامال شبیه رگرسیون ســاده است .روش آزمون فرضیه یک متغیر توضیحی (برای مدل رگرسیون ســاده) که در ضمیمه 5-1توضیح داده شد را میتوان برای متغیرهای مدل رگرسیون چندگانه نیز بهکار گرفت .یعنی برای هر ضریب یک آماره tمحاسبه میشود که میتوان آنرا با مقدار بحرانی مقایسه کرد .در همان ضمیمه توضیح دادیم که اگر حجم مثال بزرگ باشــد مقدار بحرانی آماره tبرابر 1/96است .در شرایطی که تعداد زیادی متغیر توضیحی وجود داشته باشند ،میتوان فرضیههای پیچیدهتری را آزمود که در آن چندین ضریب با هم ترکیب شدهاند (مثال .) H0 :β1 + β2 = β3 انجام این آزمونها دشوارتر از آزمونهای مطرحشده در این فصل هستند .در ضمیمه 12-1آزمودن چنین فرضیههایی اندکی توضیح داده شده است.
تفسیر برآوردهای OLS
فقط با تفسیر دقیق برآوردهای روش OLS است که میتوان برخی تفاوتهای ظریف (اما مهم) بین رگرســیون ساده و چندگانه را درک کرد .در این فصل در
مثال 6-1ب :ترشیح قیمت خانه
در جــدول 6-1نتایج رگرســیون قیمــت خانــه ( )Yروی اندازه آن
( ،) X1تعداد اتاقخوابها ( ،) X2تعداد حمامها ( ) X3و تعداد طبقات ( ) X4وجود دارد .شــکل این جدول همانند خروجی نتایج رگرسیون در اغلب نرمافزارهای آماری است .در جدول ،6-1مانند سایر مطالب این کتاب اعداد را دقیقا مانند خروجیهای نرمافزاری نوشتهایم؛ یعنی با حداکثر تعداد اعشار موجود و نشان دادن توان با .Eشما در گزارشتان
163
فصل :6رگرسیون چندگانه
مورد تفســیر ضرایب برآوردشده در مدل رگرسیون چندگانه صحبت میکنیم. پیش از آغاز ،الزم اســت راجع به نمادهایی که بهکار میبریم توافق کنیم β j .را زمانــی بهکار میبریم که بخواهیم به ویژگــی عامی که در تمام ضرایب وجود دارد اشــاره کنیم (یعنی ضریب jامین متغیــر توضیحی که jمیتواند هر عددی بین 1تا kباشــد) .اما اگر بخواهیم در مورد ضریب خاصی صحبت کنیم ،یک عدد خاص نیز به jنسبت میدهیم (مثال β1که در آن j=1است؛ β1نشاندهنده ضریب اولین متغیر توضیحی است). در رگرســیون ساده β ،را بهعنوان تاثیر نهایی تفسیر کردیم یعنی مقیاسی برای نشان دادن تاثیری که تغییر Xبر Yبرجا میگذارد یا مقیاسی برای تاثیر Xبر .Yدر رگرسیون چندگانه هم میتوان β jرا بهعنوان تاثیر نهایی تفسیر کرد ،اما نحوه تفسیر اندکی متفاوت است .بهطور دقیق باید گفت که β jعبارت است از تاثیر نهایی X jبر Yب ه شرطی که سایر متغیرهای توضیحی ثابت در نظر گرفته شوند .این جمله آخر اهمیت بسیار زیادی در تفسیر دقیق نتایج رگرسیون دارد؛ بههمین دلیل در مورد این جمله بیشتر بحث خواهیم کرد و این کار را با دنبال کردن مثال قیمت خانه انجام خواهیم داد .فعال همینقدر کافی است بدانیم که عبارت بهشرط ثبات سایر شرایط، عبارتی التین و بسیار پرکاربرد در اقتصاد است.
میتوانید از تعداد کمتری اعشــار اســتفاده کنید یا بــرای توانها از E
استفاده نکنید ،مثال 1/57E-13را به صورت 1/ 57 × 10−13نشان دهید.
در ســتون اول متغیرهای توضیحی لیست شدهاند که در این مثال چهار
تا (به عالوه جزء ثابت) هستند .هر سطر شامل اطالعاتی مشابه جدول نتایج رگرســیون ساده اســت (یعنی برآورد OLS از ضرایب متغیرها، انحراف معیار ضرایب ،آمــاره tآنها و مقدار P-valueبرای آزمودن
فرضیه β j =0
و ســرانجام ،حدود باال و پایین فاصله اطمینان ضرایب
در سطح .)%95همانگونه که پیشتر تاکید کردیم ،هر کدام از این نتایج آماری برای هر یک از ضرایب ارائه شده است و بدیهی است که نتایج
بــرای ضرایب با یکدیگر متفاوتند (مثال P-valueبرای آزمون فرضیه تحلیل دادههای اقتصادی
با P-valueبرای آزمون
β1 =0
164
فرضیه β3 =0
فرق دارد).با استفاده از
نتایج این جدول ،میتوانیم رابطه رگرسیونی را بهشکل زیر بنویسیم: ∧
=Y −4009.55 + 5.43X1 + 2824.61X2 + 17105.17X3 + 7634.90X 4
جدول 6-1رگرســیون قیمت فروش خانه روی انــدازه خانه ،تعداد اتاقهای خواب ،تعداد حمامها و تعداد طبقات R = 0.54 ،و P-valeueبرای آزمون فرضیه R = 0برابر 1.18E -88 2
2
ضریب
انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حدباال در سطح %95
جزء ثابت
-4009 .5500
3603 .109
-1 .1128
0 .266287
-11087 .3
3068 .248
2.05E -41 14 .70325 0 .369250
X1
5 .4291737
X2
2824 .61379
2 .325153 1214 .808
X3
17105 .1745
3.29E -21 9 .862107 1734 .434
13698 .12
X4
7634 .897
1.57E -13 7 .574494 1007 .974
5654 .874
0.020433
4 .703835
6 .154513
438 .2961
5210 .931 20512 .22 9614 .92
برآورد ضریب متغیر توضیحی اول یعنی اندازه خانه را در نظر بگیرید، مقدار
∧
آن β1 = 5 / 43
است .در ادامه چند جمله در تفسیر و معنای این
ضریب آمده است:
• ب ه شرط ثبات سایر شرایط ،1یک فوت مربع ( 0/092متر مربع) افزایش در اندازه خانه گرایش دارد تا قیمت آن را 5/43دالر افزایش دهد.
• در خانههایی با تعداد اتاقهای خواب ،حمام و طبقات یکســان ،یک فــوت مربع ( 0/092متر مربع) افزایــش در اندازه خانه گرایش دارد تا قیمت آن را 5/43دالر افزایش دهد.
• اگــر خانههایی با تعداد اتاقهای خواب ،حمام و طبقات یکســان را مقایســه کنیم ،خانههایی که اندازه بزرگتری دارند ،گرایش به قیمت
بیشــتر دارند .بهعبــارت دقیقتر ،یک فوت مربــع ( 0/092متر مربع) اســت .الزم اســت که در مورد دو عبارت آخر بیشتر توضیح بدهیم.
نمیتوانیم بهســادگی ادعا کنیم که «خانههای بزرگتر ،گرانتر هستند» زیرا اینطور نیســت (یعنی خانههای نقلی اما مناسبی وجود دارند که
گرانتر از خانههای بزرگتر از خود هســتند) .اما میتوانیم بگوییم که «اگر خانههایی را در نظر بگیریم که بهجز اندازه ،سایر ویژگیهایشان یکسان است ،آنهایی که بزرگتر هستند گرانتر نیز هستند ».دو عبارت بــاال صراحتا ویژگیهای خانهها را در رگرســیون لحــاظ میکنند در
حالیکه در رگرسیون ساده فصل ،4چیزی در مورد ویژگیهای خانهها
نگفتیــم .ضریب متغیر تعداد اتاقهای
خوابβ2 ، ∧
اســت که مقدار آن
2842/61بهدست آمده است .عبارتهای زیر را در تفسیر این ضریب
میتوان گفت:
• بهشــرط ثبات سایر شرایط ،خانههای دارای یک اتاق خواب بیشتر، گرایش به 2842/61دالر قیمت بیشتر دارند.
1- Ceteris paribus
165
فصل :6رگرسیون چندگانه
افزایش در اندازه خانــه با افزایش قیمت آن به اندازه 5/43دالر همراه
• اگر خانههای با ویژگیهای یکسان را در نظر بگیریم (یعنی خانههایی با اندازه 5000فوت مربع ،دو حمام و دو طبقه) ،آنهایی که ســه اتاق خواب دارند نســبت بــه خانههایی با دو اتاق خــواب ،گرایش دارند 2842/61دالر گرانتر باشند.
راههای زیادی برای تفسیر این ضرایب وجود دارد اما نکته اصلی مدنظر ما این است که :در رگرسیون ساده ،میگفتیم که « βمعیار اندازهگیری
Yاســت»؛ در رگرســیون چندگانه میگوییم که « β j میزان تاثیر Xبر معیار اندازهگیری میزان تاثیر X j
توضیحی یکسان باشند».
بر Yاست ،بهشرطی که سایر متغیرهای
تحلیل دادههای اقتصادی
ضرایب ســایر متغیرهای توضیحی را میتوان به شیوهای مشابه تفسیر کرد .مثال در
166
∧
مورد β3 = 17105 / 174
میتوانیم بگوییم که «ب ه شــرط
ثبات ســایر شــرایط ،خانههــای دارای یک حمام بیشــتر گرایش به
17105/17دالر قیمت بیشتر دارند» و
چون β4 = 7634 / 897 ∧
بهدست
آمده است میتوانیم ادعا کنیم که «اگر خانههایی که بهجز تعداد طبقات،
سایر ویژگیهایشان مشابه است را با هم مقایسه کنیم نتیجه میگیریم
که خانههای دارای یک طبقه بیشــتر ،گرایــش دارند تا 7634/90دالر
گرانتر باشند».
در بحث مربوط به ویژگیهای آماری ضرایب رگرســیون اشاره کردیم
که فاصله اطمینان و P-valueمهمترین اعداد هســتند .در رگرسیون ســاده ،این اعداد را میتوان بهشــکلی مشابه تفســیر کرد .مثال چون P-valueضرایــب تمام متغیرهای توضیحی (بــهغیر از جزء ثابت)
کوچکتر از 0/05اســت میتوانیم بگوییم که
«ضرایب β3 ، β2 ، β1و β4
در ســطح %5از لحاظ آماری معنادار هستند» یا بهطور مشابه میتوانیم
بگوییم که «میتوانیم چهار فرضیه صفر مجزا برای چهار ضریب دال بر مساوی صفر بودن آنها را در سطح معناداری %5رد کنیم».
بهعنوان مثالی دیگر ،اجازه بدهید فاصله اطمینان %95برای β2را در نظر بگیریم که برابر با [ 438.2761و ]5210.931اســت .این اطالعات را میتوان ب ه این شــکل نیز بیان کرد که اگر چه برآورد نقطهای ما نشان
میدهد که تاثیر نهایی تعــداد اتاقهای خواب بر قیمت خانه (با ثابت
فرض کردن ســایر متغیرهای توضیحی) برابر 2842/61دالر است ،اما این برآورد کامال دقیق نیست .فاصله اطمینان %95نشان میدهد که فقط
میتوانیم مطمئن باشــیم که این تاثیر نهایی جایی بین 438/28دالر و [ 5654.874و ]9614.92اســت ،میتوانیم ادعا کنیم که « %95مطمئن
هستیم که تاثیر نهایی تعداد طبقات بر قیمت خانه (با ثابت فرض کردن سایر متغیرهای توضیحی) بین 5654/87دالر و 9614/92دالر است».
P-valueبرای آزمون
این معناست
فرضیه R2 = 0
که X3 ، X2 ، X1و X4
را دارند .در واقع
مقدار R2
بسیار کوچکتر از %5است و به
قدرت توضیحدهندگی متغیر وابسته
نشان میدهد که تغییرات اندازه خانه ،تعداد
اتاقخوابهــا ،حمامها و طبقات %54 ،تغییرات قیمت خانه را توضیح
میدهند.
تفاوتهای بین تفسیرهای نتایج رگرسیون ساده و چندگانه
برای تاکید بر تفاوتهای بین رگرسیون ساده و چندگانه ،رگرسیون ساده قیمت فروش خانــه ( )Yروی تعداد اتاقخوابها ( ) X2را انجام میدهیم .نتایج این ∧ رگرســیون در جدول 6-2گزارش شده اســت .از آنجاکه β = 13269.98 اســت ،میتوانیم چنین ادعا کنیم« :تاثیر نهایی تعداد اتاقهای خواب بر قیمت
167
فصل :6رگرسیون چندگانه
5210/93دالر قرار دارد .ب ه همین ترتیب چون فاصله اطمینان β4برابر
خانه 13269/98 ،دالر است» یا «خانههای دارای یک اتاق خواب بیشتر گرایش به 13269/98دالر قیمت بیشتر نیز دارند» .باید به تفاوت این عبارت با عبارتی ∧ که در مورد β2در مثال b 6 -1گفتیم ،توجه کنید .در رگرسیون ساده ،چیزی در مورد ثبات سایر شرایط نگفتیم در حالیکه این موضوع بهطور ضمنی در عبارت «اگر خانههای با ویژگیهای یکسان را در نظر بگیریم» وجود دارد .توجه داشته باشید ضریب متغیر تعداد اتاقهای خواب در رگرسیون ساده بسیار بزرگتر از ضریب همین متغیر در رگرسیون چندگانه است .چرا اینطور است؟ جدول .6-2رگرسیون قیمت فروش خانه بر تعداد اتاقهای خواب انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حدباال در سطح %95
جزء ثابت 28773.4327
4413.753
6.519
1.60E -10
20103.34
37443.53
13269.9801
1444.598
8.50E -19 9.186
10432.30
16107.66
ضریب
تحلیل دادههای اقتصادی
X2
168
برای پاسخ دادن به این پرسش ،تصور کنید دوستی در وینسور کانادا دارید که قصد دارد یک اتاق خواب اضافی برای خانهاش بســازد و از شما بهعنوان دوســت اقتصادخواندهاش میپرسد که با این کار ممکن است چقدر به ارزش خانهاش افزوده شود؟ پاسخ شما چیست؟ رگرسیون ســاده باال فقط شــامل متغیرهای قیمت خانه و تعداد اتاقهای خواب است .برای پاســخ به پرسش فوق ممکن است تمام مشاهدات مثال را در نظر و نتیجه بگیرید که با افزایش تعداد اتاقهای خواب ،قیمت خانه بیشــتر میشــود (یعنی خانههای با سه اتاق خواب بهمیزان 13269/98دالر گرانتر از خانههای با دو اتاق خواب هستند). اما این نتیجه الزاما ب ه این معنا نیســت که افزودن یک اتاق خواب به خانه حتما قیمت آن را 13269/98دالر بیشــتر خواهد کرد؛ به این دلیل که عالوه بر تعداد اتاقهای خواب ،عوامل متعدد دیگری نیز وجود دارند که بالقوه میتوانند قیمت خانه را تحت تاثیر قرار دهند .همچنین ممکن است این عوامل با یکدیگر
نیز همبســتگی زیادی داشته باشــند (در عمل خانههای بزرگتر معموال تعداد بیشــتری اتاق خواب و حمام دارند و تعداد طبقاتشان نیز بیشتر است) .برای در نظر گرفتن این احتمال بهتر است ماتریس همبستگی (که در فصل 3توضیح داده شد) متغیرهای توضیحی موجود در این مثال را بررسی کنیم که در جدول 6-3گزارش شده است. جدول .6-3ماتریس همبستگی متغیرهای توضیحی مثال قیمت خانه قیمت فروش
اندازه خانه
تعداد اتاقهای خواب
تعداد حمام
اندازه خانه
0.535795
1
تعداد اتاقهای خواب
0.366447
0.151851
1
تعداد طبقات
0.516719
0.193833
0.373768
1
تعداد حمام
0.421190
0.083674
0.407973
0.324056
1
چون تمام اعداد ماتریس همبســتگی مثبت هســتند ،تمام متغیرها دوبهدو همبســتگی مثبت دارند (مثال همبســتگی بین تعداد حمامها و تعداد اتاقهای خواب 0/37اســت ،یعنی خانههایی که حمامهای بیشــتری دارند ،گرایش به داشتن اتاقهای خواب بیشــتر هم دارند) .در چنین شرایطی ،رگرسیون ساده نمیتوانــد بین تاثیرات مجــزای هر یک از متغیرهــای توضیحی روی متغیر وابســته تمایز قائل شود .پس چون روش رگرســیون ساده تمام خانهها را در نظــر میگیرد و به یاد داریم کــه خانههای دارای تعداد اتاق خواب بیشــتر، گرانتر هم هستند ،الزاما نمیتوانیم نتیجه بگیریم که تعداد اتاقخوابها بهطور مســتقیم بر ارزش خانه میافزایند .خریداران ممکن است برای تعداد حمامها یا اندازه خانه نســبت به تعداد اتاقخوابها ارزش بیشــتری قائل شــوند .به عبارت دیگر خانههای با تعداد حمام بیشــتر ممکن است ارزشمندتر باشند اما از نتایج ماتریس همبســتگی میدانیم که -خانههای دارای حمامهای بیشتر،اتاقخوابها بیشتری هم دارند .مدل رگرسیون ساده فقط قیمت خانه و تعداد
169
فصل :6رگرسیون چندگانه
قیمت فروش
1
تعداد طبقات
تحلیل دادههای اقتصادی
170
اتاقخوابهــا را در نظر میگیرد و میبیند کــه خانههایی که اتاقخوابهای بیشــتری دارند ،گرانتر هستند .آنچه که این مدل نمیبیند این است که آنچه واقعا برای خریداران مهم است ،تعداد حمامها است .بنابراین اگر به دوستتان توصیه کنید که هر اتاق خواب اضافی 13269/98دالر میارزد ،ممکن اســت اشتباه بزرگی را مرتکب شده باشید .واقعیت این است که ما در مدل رگرسیون ساده خود ،متغیرهای توضیحی مهمی مثل اندازه خانه ،تعداد حمامها و تعداد طبقات را از قلم انداختهایم .مدل رگرسیون ساده ما ،تاثیر تمام این عوامل را با هم ترکیب میکند و آن را به تک متغیر توضیحی موجود در مدل ،یعنی تعداد ∧ اتاقخوابها ،نســبت میدهد و نتیجه این میشــود که ضریب βبرآوردشده برای این تک متغیر ،بســیار بزرگ میشود .اگر این استدالل بهنظرتان سخت اســت ،مجددا فصل 3را بخوانید .آنجا مثالی با متغیرهای اســتعمال سیگار، مصرف نوشیدنی و سرطان ریه را بررسی کردیم .در آن مثال گفتیم که مطالعات علمی نشان دادهاند که سیگار کشــیدن علت سرطان ریه است .اما گرایش به مصرف نوشــیدنی در اغلب سیگاریها بیشتر از غیرسیگاریها است .بنابراین همبستگی بین مصرف نوشــیدنی و سرطان ریه مثبت است حتی اگر مصرف نوشیدنی علت سرطان ریه نباشد .این نوع مسائل دقیقا چیزی است که در این مثال به آن پرداختیم .یعنی رگرسیون سادهای فقط شامل متغیرهای سرطان ریه و مصرف نوشــیدنی ،ممکن اســت ما را به این نتیجه برساند که تاثیر مصرف نوشیدنی بر ســرطان ریه زیاد است ،حتی اگر مصرف نوشیدنی علت سرطان ریه نباشــد .چرا چنین چیزی اتفاق میافتد؟ چون ما متغیر استعمال سیگار را از رگرســیون حذف کردیم که متغیر توضیحی مهمی در توضیح ســرطان ریه است .متغیر توضیحی حذفشده همبستگی قوی با متغیر توضیحی حاضر در رگرسیون ساده دارد (یعنی مصرف نوشیدنی). در مقابل ،رگرســیون چندگانه به ما اجازه میدهد تا تاثیر هر چهار متغیری که گمان میبریم بر قیمت خانه موثر باشــند را بهطور مجزا بررســی کنیم .به نظر میرســد که برای نشان دادن تاثیر افزودن یک اتاق خواب بر قیمت خانه،
∧
عدد β2 = 2842 / 61 $به واقعیت نزدیکتر باشــد .هرچند به نظر میرسد حتی در این رگرســیون ساده هم متغیرهای توضیحی مهمی حذف شدهاند .با پیشــنهاد کردن این عدد به دوستتان ،میتوانید مطمئن باشید که اشتباه پیش را تکرار نخواهید کرد .یعنی میتوانید مطمئن باشید که به احتمال زیاد ،تعداد اتاقخوابها که به قیمت خانه میافزاید و شما تاثیر سایر متغیرهای توضیحی را با آن قاطی نمیکنید.
تورش متغیرهای حذفشده
مشکلی که در بخش قبل به آن اشاره شد را در آمار ،تورش متغیر حذفشده یــا محذوف مینامند .ما در این کتاب به مبانــی نظری آماری مورد نیاز برای توضیح معنی دقیق و رســمی این مشــکل نمیپردازیم .اما بهطور غیررسمی میتوانیم بگوییم که اگر متغیرهای توضیحی که میبایست در رگرسیون حاضر باشند را جا بیندازیم ،و اگر این متغیرهای محذوف با سایر متغیرهای توضیحی حاضر در رگرســیون همبستگی داشته باشند ،آنگاه ضرایب متغیرهای حاضر در رگرســیون نادرست خواهند بود .در رگرسیون ساده قیمت فروش خانه بر تعداد اتاقخوابها که نتایج آن در جدول 6-2گزارش شده است ،متغیرهای زیادی حذف شــدهاند کــه در توضیح قیمت خانه مهم هســتند (یعنی اندازه خانه و تعداد حمامها) .بهعالوه ،این متغیرهای محذوف با تعداد اتاقخوابها ∧ همبســتگی دارند و در نتیجه رگرسیون ســاده مقدار βرا 13269/98برآورد میکند که به دلیل تورش متغیرهای محذوف ،غیر قابل اعتماد است. مفهوم ضمنی و دلیل ایجاد تورش ناشی از حذف متغیرها ،در بخش پیش توضیح داده شد .مثال اندازه خانه متغیر توضیحی مهمی برای قیمت خانه است و در نتیجه «میخواهد» در رگرسیون وارد شود .اگر آن را از رگرسیون حذف کنیم ،این متغیر ســعی میکند به تنها شکلی که میتواند وارد رگرسیون شود، 1
فصل :6رگرسیون چندگانه
1- Omitted variable bias
171
تحلیل دادههای اقتصادی
172
یعنی از مسیر همبستگی مثبتش با دیگر متغیر توضیحی ،تعداد اتاقهای خواب. بهعبارت دیگر ،ضریب متغیر تعداد اتاقهای خواب ترکیبی اســت از تاثیر دو متغیر تعداد اتاقهای خواب و اندازه خانه بر قیمت خانه. درس عملی که میتوان از مشکل تورش متغیرهای محذوف گرفت این است که محقق باید تالش کند تا تمام متغیرهای توضیحی که بالقوه میتوانند بر متغیر وابســته موثر باشند را در رگرسیون وارد کند .متاســفانه در عمل ،انجام این کار بهندرت ممکن است .مثال قیمت خانه به عوامل دیگری به غیر از متغیرهای موجود در فایل HPRICE.XLSنیز وابسته است (مثال سن بنا ،محلهای که خانه در آن واقع اســت ،جادار بودن خانه ،وضعیت راهپله و سقف ساختمان ،شرایط فضای سبز آن و .)...در عمل متغیرهای زیادی هستند که میتوان دادههای مربوط به آنها را جمعآوری کرد و اما تعداد زیادی متغیر دیگر نیز ذهنی هستند و حتی اگر بخواهیم هم نمیتوانیم دادههای مربوط به آنها را جمع کنیم (مثال محلیت خانه یا کیفیت محلهای که خانه در آن واقع اســت را چطور میتوان اندازهگیری و کمی کرد؟). بنابراین تقریبا همیشه با مشکل متغیرهای محذوف مواجه هستیم و کار چندانی هم نمیتوانیم در مورد آن انجام دهیم بهجز آنکه امیدوار باشــیم متغیرهای محذوف قدرت توضیحدهندگی زیادی نداشته باشند و با سایر متغیرهای توضیحی حاضر در رگرسیون همبستگی نداشته باشند. نتیجه پاراگراف قبلی این میشــود که تا جای ممکن تعداد بیشتری متغیر توضیحی در رگرســیون وارد کنیم .اما میتوان اثبات کرد که ورود متغیرهای بیربــط ،دقت برآوردهای تمام ضرایــب را کاهش میدهد (حتی آن ضرایبی که بیربط نیســتند) .این کاهش دقت ،خودش را در بزرگتر شدن فاصلههای اطمینان و P-valueها نشان میدهد. پس چگونه باید بین منافع ورود تعداد زیادی متغیر (بهدلیل کاهش ریســک وقوع تــورش متغیرهای محذوف) و هزینههــای آن (ورود متغیرهای بیربط و کاهش دقت برآوردها) تعادل برقرار کنیم؟ یک روش مرسوم این است که ابتدا تا جای ممکن متغیرهای توضیحی را وارد مدل رگرسیونی خود کنیم ،سپس آنهایی
که از نظر آماری معنادار نیستند را از رگرسیون خارج کنیم و مجددا رگرسیونمان را بــا مجموعه جدید متغیرهای توضیحی برآورد کنیم .معناداری آماری هر متغیر توضیحی را هم میتوان با اســتفاده از P-valueضریب آن متغیر بررسی کرد .هر دفعه پس از اینکه یک متغیر بیمعنا از نظر آماری را از رگرسیون خارج میکنیم، میتوانیم رگرســیون جدیدی را با تعداد کمتری متغیر توضیحی برآورد کنیم که ریسک حضور متغیرهای بیربط در رگرسیون را کاهش میدهد.
مترین 6-2
با استفاده از مجموعه دادههای فایل ،HPRICE.XLSقیمت خانه را متغیر وابسته
( )Yو متغیرهای زیر را متغیرهای توضیحی در نظر بگیرید: : X2تعداد اتاقخوابها : X3تعداد حمامها
173
: X4تعداد طبقات (با در نظر گرفتن زیرزمین)
(الــف) Yرا روی ، X1
X3 ، X 2و X 4
برسید) و در مورد نتایج بحث کنید.
(ب) Yرا روی ترکیبهای مختلفی از
بحث کنید.
رگرس (یعنی خودتان به نتایج جدول 6-1 X3 ، X2 ، X1
و
X4
رگرس و در مورد نتایج
(ج) نتایج بند الف و ب را مقایســه کنید .تاثیــر متغیرهای توضیحی محذوف را آزمون کنید.
همخطی
همخطی مشکلی آماریست که با مشکل مطرحشده در بخش قبل ارتباط دارد. این مشکل زمانی بهوجود میآید که برخی یا تمام متغیرهای توضیحی شدیدا با یکدیگر همبستگی داشته باشند .اگر همخطی وجود داشته باشد ،مدل رگرسیون بهسختی میتواند تشــخیص دهد که کدامیک از متغیرهای توضیحی بر متغیر
فصل :6رگرسیون چندگانه
: X1اندازه خانه (به فوت مربع)
تحلیل دادههای اقتصادی
174
وابسته تاثیر میگذارند .مشکل همخطی خودش را با آماره tهای کوچک و در نتیجه P-valueهای بزرگ نشــان میدهد .در این شرایط باید نتیجه گرفت که ضرایب معنادار نیســتند پس باید از رگرسیون خارج شوند .در شرایط حادتر، ممکن اســت با دیدن آماره tضرایب نتیجــه بگیرید که تمام ضرایب از لحاظ 2 آماری بیمعنا هستند در حالیکه Rبهاندازه کافی بزرگ و معنادار است .معنی مســتقیم این نتایج آن است که همه ضرایب با همدیگر قدرت توضیحدهندگی زیادی برای متغیر وابســته دارند اما مشــکل همخطی نمیگذارد تا رگرسیون تشخیص بدهد کدام متغیر توضیحی اســت که این قدرت توضیحدهندگی را فراهم کرده است. مهمترین کاری که برای رفع این مشــکل میتوان انجام داد این است که برخی از متغیرهای توضیحی با همبســتگی زیاد را از رگرسیون خارج کنیم. اما در بســیاری موارد ممکن اســت مایل به انجام چنین کاری نباشیم .مثال در مثال قیمت خانه ،اگر معلوم شــود که دو متغیــر تعداد اتاقهای خواب و تعداد حمامها همبســتگی زیادی دارند ،مشکل همخطی پیش میآید .اما حیف اســت یکی از این دو متغیر را از رگرســیون خارج کنیم چون بدیهی اســت که هر دو بر قیمت خانه تاثیــر میگذارند .در مثالهای 6-2و 6-3 مشکل همخطی چگونگی رفع آن بهوسیله حذف یک متغیر توضیحی شرح داده شده است.
مثال :6-2تاثیر نرخهای بهره بر نرخ ارز
فرض کنید که قصد دارید تاثیر سیاست نرخ بهره را بر نرخ ارز بررسی
کنیــد .یک راه برای انجام این کار انتخاب یک نرخ ارز (مثال نرخ پوند
بر حســب دالر) بهعنوان متغیر وابســته و رگرس کردن آن بر نرخ ارز اســت .اما از نرخهای بهره متفاوتی میتــوان بهعنوان متغیر توضیحی
اســتفاده کرد (مثل نرخ بهره کوتاهمدت بانکها و یا نرخ ســود اوراق خزانه) این نرخهای بهره بســیار شــبیه همدیگر هستند و همبستگی زیادی با هم دارند .اگر از بیشــتر از یکی از آنها استفاده کنیم ،احتماال
دچار مشــکل همخطی میشویم .راهحل این مشکل روشن است :فقط
یکی از این نرخهای بهره در رگرســیون وارد شوند .اما از آنجاکه تمام
این نرخها جنبههای مختلفی از یک پدیده هســتند ،عقل ســلیم حکم
میکند که اســتفاده از فقط یکی از آنها باعث از دســت رفتن قدرت توضیحدهندگی نمیشود و مشکل همخطی نیز پیش نمیآید.
برای نشــان دادن مشــکل همخطی بحث در مورد چگونگی حل آن، خودمان N=50داده برای رگرسیون زیر میسازیم:
Y= 0 / 5X1 + 2X2 + e ∧
از روش OLSانتظار داریم که تقریبا چنین برآوردهایی نتیجه بدهدα =0 : ∧
∧
β1 = 0 / 5 ،و . β2 = 2دلیل هم روشــن است چون خودمان این اعداد را
بــرای این ضرایب در نظر گرفتیم .اما عامدانه دادههای دو متغیر
X1
و
X2
را بهنحوی تولید کردهایم که همبستگی زیادی بینشان وجود داشته باشد؛ مقدار این همبستگی 0/98است و به این نکته اشاره میکند که ممکن است
مشکل همخطی در رگرسیونمان پیش بیاید .در جدول 6-4نتایج رگرسیون
برآوردشده برای این دادهها گزارش شده است .نتایج با انتظارات ما بسیار متفاوت است .برآوردهای نقطهای OLSبا ضرایبی که خودمان دادههایش را ∧
تولید کردیم خیلی فرق دارد .مثال برآورد OLSعبارت است از β1 = 2.08
175
فصل :6رگرسیون چندگانه
مثال :6-3مشکل همخطی در دادههای مصنوعی
در حالیکه ضریبی که ساختیم β1 =0.5است .در حقیقت برآورد OLSاز β1تقریبا برابر مقداری است که برای β2ساختیم! این نتایج نشان میدهد که
چطور وقتی متغیرهای توضیحی همبستگی زیادی داشته باشند ،برآوردهای
OLSاز تشــخیص درســت نقش و تاثیر هر یک از متغیرهای توضیحی
بر متغیر وابســته ناتوان میشوند .نکته دیگر این است که ضرایب یکی از متغیرهای توضیحی در ســطح %5از نظر آماری معنادار نیست و ضریب دیگر بهسختی در این سطح معنادار اســت .بهعالوه فاصله اطمینان %95 برای تمام ضرایب بسیار عریض است .بر مبنای این نتایج میتوان گفت که متغیرهای توضیحی قدرت اندکی برای توضیح متغیر وابسته دارند .اما مقدار R2بسیار بزرگ و از لحاظ آماری قویا معنادار است و به این معناست که
تحلیل دادههای اقتصادی
متغیرهای توضیحی با همدیگر قدرت توضیحدهندگی زیادی دارند .اینها
176
نشانههای معمول وجود مشکل همخطی در مدل رگرسیونی هستند.
برای حل مشکل همخطی در این مثال ،اغلب اقتصاددانان پیشنهاد میکنند که متغیر X2
از رگرسیون حذف شود .اگر به این توصیه عمل کنیم و رگرسیون
را مجددا ران کنیم ،نتایج جدول 6-5را خواهیم داشت .ار نظر آماری ،نتایج
جدول اخیر بسیار بهتر هستند β1 .از نظر آماری قویا معنادار است و فاصله
اطمینان نشان میدهد که برآورد آن دقیق است.
( R2=0.76و P-valeue
جدول .6-4نتایج رگرسیون برای دادههای ساخته شده برای آزمون فرضیه R =0برابر )1/87 E -15 2
P-value
حد پایین در سطح %95
حدباال در سطح %95
1 .57859 0 .1025278 0 .166191
0 .121137
-0 .045601
0 .377983
X1
2 .18664 1:0.952938 2 .083733
0 .033782
0 .16667
4 .00080
X2
0 .153013 0 .965767
ضریب جزء ثابت
0 .147775
انحراف معیار
آماره t
0 .879043
-1 .7591
2 .09065
( R2 = 0.76
جدول .6-5نتایج رگرسیون برای بخشی از دادههای ساخته شده R 2 = 0.76و P-valeueبرای آزمون فرضیه R =0برابر )1/2 E -16 ∧
یا
2
انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حدباال در سطح %95
جزء ثابت 0 .166715
0 .104146
1 .60078
0 .115989
-0 .042685
0 .376115
2 .22690
0 .178806
12 .4543
1/20 E -16
1 .86739
2 .58641
ضریب
X1
پس از یک نظر
حذف X2
باعث رفع مشــکل همخطی شده است .اما ∧
مشکل موجود این است که β1حتی نزدیک مقدار واقعیاش یعنی 0/5
هم نیست (و بدتر اینکه فاصله اطمینانش هم شامل 0/5نیست) .آنچه رخ داده این اســت که پس از حذف X2از رگرســیونX1 ، ∧
با X2
دارد،
میتواند جایگزین مناســبی برای آن باشد .پس β1تاثیرات هر دو متغیر توضیحــی را ترکیب میکند .ب ه عبارت دیگر همــان طور که در مثال
قیمت خانــه حذف یک متغیر توضیحی مهم باعــث ایجاد تورش در نشــان دادن تاثیر تعداد اتاقخوابها بر قیمت خانه شــده بود ،در این
مثال هــم حذف X2باعث ایجاد تورش در نشــان دادن تاثیر X1بر Y
شــده است .برای حل این مشکل کار چندانی نمیتوان انجام داد ،فقط
بهیاد داشــته باشــید که به هنگام وجود مشکل همخطی باید در تفسیر نتایج رگرســیون با احتیاط رفتار کرد .برای یادآوری تاکید میکنیم که
همخطی معنای وجود همبســتگی بین خود متغیرهای توضیحی است، نه همبســتگی بین متغیرهای توضیحی و متغیر وابسته .همبستگی زیاد
بین متغیرهای توضیحی و متغیر وابسته چیز خوبی محسوب میشود و
به این معناســت که متغیرهای توضیحی قدرت توضیحدهندگی زیادی برای توضیح متغیر وابسته دارند .برای اینکه همخطی مشکل محسوب شــود ،باید همبستگی بین متغیرهای توضیحی زیاد باشد .اگر دوباره به
177
فصل :6رگرسیون چندگانه
تا جــای آن را پر کند؛ و از
آنجاکه X1
همبســتگی زیادی
سعی کرده
مثــال قیمت خانه بازگردیم ،میتوانیم از جــدول نتایج 6-3ببینیم که متغیرهای توضیحی همبســتگی اندکی با یکدیگر دارند (همبستگیها
بین 0/3تا 0/4اســت) .اما این همبســتگی اندک باعث ایجاد مشکل
همخطی نمیشود زیرا تمام ضرایب بهطور معنادار مخالف صفر هستند (P-valueها را در جدول 6-1مالحظه کنید).
مترین 6-3
با اســتفاده از دادههــای FOREST.XLSو متغیرهــای جنگلزدایی ( ،)Yتراکم جمعیت ( ،) X1درصد تغییرات گندمزار ( ) X2و درصد تغییرات چراگاه ( ،) X3یک
تحلیل دادههای اقتصادی
رگرسیون چندگانه برآورد کنید و مسائل موجود در این فصل را در این رگرسیون
178
نشان دهید .مثال باید:
(الف) Yرا روی
X2 ، X1و X3
رگرس و در مورد نتایج برآورد بحث کنید.
(ب) در مورد معنــاداری آماری ضرایب توضیح دهید .آیــا میتوان هیچیک از
متغیرهای توضیحی را از رگرسیون حذف کرد؟
(ج) در مورد نیکویی برازش رگرسیون توضیح دهید.
(د) ماتریس همبســتگی متغیرهای توضیحی را محاسبه کنید .با استفاده از نتایج این
ماتریس و نتایج بند الف ،در مورد مشکل همخطی رگرسیون برآوردشده بحث کنید.
مثال :6-4هزینه تولید در صنعت برق
توانایی تفسیر نتایج رگرسیون چندگانه احتماال مهمترین مهارتی است که یک محقق اقتصاد کاربردی باید کسب کند .در ادامه مثال دیگری را
پی میگیریم و خالصه نتایج را ارئه میکنیم.
نظریه اقتصاد خرد به ما میگوید که هزینههای تولید یک بنگاه به قیمت نهادههای استفادهشــده در فرایند تولید و مقدار کاالی تولیدی بستگی دارد .پس برای بررسی هزینههای تولید ،این هزینهها باید متغیر وابسته
باشــند و مقدار تولید و قیمــت نهادهها نقش متغیرهای توضیحی را بر
عهده بگیرند .ما از دادههای موجود در فایل ELECTRIC.XLSبرای
این متغیرها اســتفاده کردیم که برای 123بنــگاه فعال در صنعت برق آمریکا در سال 1970جمعآوری شده است .این متغیرها عبارتند از:
:Yهزینه تولید (بر حسب میلیون دالر در سال)
: X1مقدار تولید (بر حسب هزار کیلووات ساعت KWhدر سال)
: X3قیمت سرمایه (بر حسب دالر به ازای یک واحد سرمایه در سال) : X4قیمت سوخت (بر حسب دالر ب ه ازای یک میلیون )BTU1
نتایج رگرسیون متغیرهای فوق در جدول 6-6گزارش شده است. R2=0.94و P-valeue
جدول .6-6نتایج رگرسیون متغیرهای صنعت برق ( برای آزمون فرضیه R2 = 0.94برابر )9/73 E -73 P-value
حد پایین در سطح %95
حدباال در سطح %95
-5 .55298 12 .69501 -70 .49511
1/76 E -7
-95 .6347
-45 .3556
X1
0 .00474
0 .00011
43 .22597
3/41 E -74
0 .004514
0 .004948
X2
0 .00363
0 .00106
3 .43660
0 .000814
0.001537
0 .005717
X3
0 .28008
0 .12949
2 .16301
0.032557
0 .023663
0 .536503
X4
0 .78346
0 .16579
4 .72566
6/39 E -6
0 .455154
1 .11177
ضریب جزء ثابت
انحراف معیار
آماره t
1- British Thermal Unit:
یکا یا واحد شــمارش سنتی گرما در انگلیس است .تعریف آن اینطور است :میزان گرمای مورد نیاز برای افزایش یک درجه به حرارت یک پوند ( 453گرم) آب.
179
فصل :6رگرسیون چندگانه
: X2دستمزد نیروی کار (بر حسب دالر برای هر نفر نیروی کار در سال)
عالمت تمام ضرایب مطابق انتظار است :افزایش تولید یا قیمت هر یک
از نهادههــا گرایش به افزایش هزینهها دارد .بزرگی ضرایب نیز منطقی
است؛ بنابراین میتوانیم بگوییم:
• بهشــرط ثبات سایر شــرایط ،افزایش تولید به میزان هزار کیلووات ســاعت ( )KWh1000گرایش به افزودن 4740دالر به هزینهها دارد.
%95مطمئن هستیم که این تاثیر نهایی حداقل برابر 4514دالر و حداکثر
برابر 4948دالر باشد.
• بهشرط ثبات سایر شــرایط ،افزایش دستمزد ساالنه یک کارگر مثال
به اندازه 1دالر گرایش به افزودن 3630دالر به هزینههای ساالنه دارد. %95مطمئن هستیم که این تاثیر نهایی حداقل برابر 1537دالر و حداکثر
تحلیل دادههای اقتصادی
برابر 5717دالر باشــد .با وجود اینکه این ضریب قویا معنادار اســت
180
( P-valueکمتر از 0/01اســت) ،چنین فاصله اطمینانی نشــاندهنده میزان قابل قبولی از عدم اطمینان در نتایج است.
• بهشــرط ثبات سایر شرایط ،افزایش قیمت هر واحد سرمایه به اندازه
1دالر گرایش به افزودن 280080دالر به هزینههای ساالنه دارد .فاصله
اطمینان %95برای این ضریب قابل قبول است.
• بهشرط ثبات سایر شرایط ،افزایش قیمت سوخت به اندازه 1دالر به ازای
یک میلیون ،BTUگرایش به افزودن 783460دالر به هزینههای ســاالنه دارد.
R2 = 0.94به این معناســت که متغیرهای توضیحی بههمراه یکدیگر
حــدود 94درصد از تغییرات هزینههای تولید را توضیح میدهند .این عدد بسیار بزرگی است و بهعالوه قویا معنادار نیز هست.
این واقعیت که رگرســیون ما توانسته اســت تغییرات متغیر وابسته را تقریبا بهطور کامل توضیح دهد نشــان میدهد که بعید است هیچ متغیر
توضیحی از رگرسیون جا مانده و در آن حضور نداشته باشد .اگر به هر
یک از ضرایب دقت کنیم میبینیم که P-valueها همه در ســطح %5
معنادار هستند .ماتریس همبســتگی گزارششده در جدول 6-7نشان میدهد که متغیرهای توضیحی دوبهدو همبســتگی قوی با هم ندارند. حداکثر مقدار همبستگی بین دستمزد نیروی کار و قیمت سوخت وجود دارد که تنها برابر 0/32اســت .باقی همبســتگیها بسیار کوچکتر و
نشاندهنده عدم وجود مشکل همخطی مرکب هستند.
جدول .6-7ماتریس همبستگی متغیرهای مثال صنعت برق میزان تولید
میزان تولید
دستمزد نیروی کار
قیمت سرمایه
قیمت سوخت
1
دستمزد نیروی کار 0 .056399 قیمت سرمایه
0 .021481
-0 .078686
1
قیمت سوخت
0 .053507
0 .318349
0 .155224
1
جدول .6-8نتایج رگرسیون متغیرهای صنعت برق پس از حذف متغیر قیمت پایه ( R 2 = 0.94و P-valeueبرای آزمون فرضیه R ∧ 2=0برابر )3/5 E -73 ∧
آماره t
P-value
حد پایین در سطح %95
حدباال در سطح %95
8 .449311 -49 .75804
-5 .88900
3/68 E -8
-71 .8765
-27 .6396
0 .000111
42 .6218
6/40 E -74
0 .004445
0 .005027
ضریب جزء ثابت X1
0 .004736
X2 X4
انحراف معیار
0 .0001061 0 .003313
3 .12145
0 .002259
0 .00055
0 .006091
0 .165266
5 .15282
1/03 E -6
0 .418965
1 .284216
0 .851586
در بین ضرایب برآوردشــده در جــدول 6-6معناداری آماری ضریب
متغیر ، X3یعنی قیمت ســرمایه ،ضعیفتر از بقیه است .فاصله اطمینان
ضریب این متغیر نیز اندکی عریضتر و P-valueبرای آزمون فرضیه β3 =0
کمی بیشــتر از %3است .پس نمیتوانیم فرضیه صفر
β3 =0
181
فصل :6رگرسیون چندگانه
1
را در سطح معناداری %1رد کنیم .اما در عمل خیلی از سطح معناداری
%1اســتفاده نمیشود ( %5مرسومتر اســت) .اما بهخاطر بررسی بیشتر موضوع ،بیایید از سطح معناداری %1استفاده کنیم .با این کار باید نتیجه
بگیریم که β3از نظر آماری معنادار نیســت و باید از رگرســیون حذف شــود .پس از حذف متغیر قیمت ســرمایه و برآورد مجدد رگرسیون،
نتایجی مانند جدول 6-8بهدست خواهید آورد .توجه کنید که چون از سطح معناداری %1استفاده کردهایم ،نتایج جدول دارای فاصله اطمینان
%99خواهند بود .جدول 6-8فقط ب ه خاطر بررسی یک استراتژی مرسوم آماری ارائه شده است (یعنی حذف متغیرهای توضیحی که معنادار نیستند و
برآورد مجدد رگرسیون) .چون نتایج رگرسیون جدید (پس از حذف ) X3
تحلیل دادههای اقتصادی
با نتایج رگرسیون قبلی (با حضور آن) چندان تفاوت ندارد ،نتایج رگرسیون 182
جدید را مجددا تفسیر نمیکنیم.
خالصه فصل
-1مدل رگرسیون ساده خیلی شبیه مدل رگرسیون چندگانه است .در این فصل تفاوتهای این دو مدل توضیح داده شد. -2تفســیر ضرایب رگرسیون بستگی به عبارت بهشرط ثبات سایر شرایط دارد β j :معیار تاثیر نهایی X jبر Yاست بهشرطی که سایر متغیرهای توضیحی ثابت بمانند. -3اگر متغیرهای توضیحی مهمی از رگرسیون حذف شوند آنگاه ضرایب برآوردشده ممکن اســت گمراهکننده باشند ،به این مشکل «تورش متغیرهای حذفشده» میگویند .این مشکل زمانی بدتر میشود که متغیرهای حذفشده همبستگی قوی با متغیرهای حاضر در رگرسیون داشته باشند. -4اگر متغیرهای توضیحی با یکدیگر همبستگی قوی داشته باشند ،برآورد
ضرایب و آزمونهای آماری ممکن اســت گمراهکننده باشــند .این را مشکل همخطی مرکب مینامند.
ضمیمه :6-1تفسیر ریاضی رضایب رگرسیون
خوانندگانی که کمی از حســاب دیفرانسیل و انتگرال( 1حسابان) سر در میآورند میتوانند تفاوتهای ریاضی رگرسیون ساده و چندگانه را بفهمند .میتوان با استفاده از مفهوم مقدماتی مشتق ،رابطه ریاضی زیر را برای مدل رگرسیون ساده نوشت: dY = β dX
∂Y = βj ∂X j
ب ه عبارت دیگر ،این ضریب دیگر مشــتق کامل نیســت بلکه مشتق جزیی است .مشتق جزیی را میتوان اینطور تفسیر کرد :تاثیر یک تغییر کوچک X jبر ،Yبهشرط آنکه سایر متغیرهای توضیحی تغییر نکنند و ثابت بمانند.
1- Calculus
183
فصل :6رگرسیون چندگانه
این رابطه میگوید که ضریب رگرســیون یا βرا میتوان بهعنوان مقیاســی برای تغییرات ،Yهنگامی که Xاندکی تغییر میکند ،در نظر گرفت؛ یعنی مشتق کامل .برای مدل رگرسیون چندگانه ،میتوان رابطه زیر را نوشت:
فصل 7 رگرسیون با متغیرهای مجازی
2- Qualitative
1- Quantitative
185
فصل :7رگرسیون با متغیرهای مجازی
در فصل پیش ،برای نشان دادن برخی مفاهیم مهم آماری از دادههای کمی استفاده کردیم .اما بیشتر دادههای مورد استفاده اقتصاددانان کیفی 2هستند .تفاوت بین دادههای کمی و کیفی در فصل 2توضیح داده شــد .متغیرهای مجازی ،که بهطور خالصه در همان فصل مورد بحث قرار گرفت ،روشی است برای تبدیل دادههای متغیرهای کیفی به کمی .تمرکز ما در این فصل بر متغیرهای توضیحی مجازی است ،اما اگر متغیر وابسته مجازی باشد آنگاه باید از تکنیکهای فصل 8استفاده کرد. پس از آنکه متغیرهای توضیحی کیفی به متغیرهای مجازی تبدیل شــدند، میتوانیم رگرسیونمان را به روش استاندارد برآورد کنیم و تمام نظریهها ،مفاهیم و روشهایی که در فصلهای پیشین به آنها رسیدیم ،قابل استفاده خواهند بود. اما چرا یک فصل کامل را به این موضوع اختصاص دادهایم؟ به دو شــکل میتوان به این پرســش پاسخ گفت .اول اینکه رگرسیون با متغیرهای مجازی بسیار پرکاربرد ولی تفسیر ضرایب برآوردشده آن اندکی متفاوت است .بههمین دلیل ارزش دارد که در مورد تفســیر ضرایب چنین رگرسیونهایی با جزییات 1
تحلیل دادههای اقتصادی
186
بحث کنیم .دوم اینکه رگرسیون با متغیرهای توضیحی مجازی ارتباط نزدیکی بــا یک مجموعه تکنیکهای دیگر تحت عنوان «تحلیل واریانس »1یا ANOVA دارد .از ANOVAبهندرت در اقتصاد استفاده میشود اما در سایر علوم اجتماعی 2 و علوم طبیعی مثل جامعهشناسی ،روانشناسی ،آمار پزشکی و همهگیرشناسی (علم امراض مسری) ابزاری مرسوم و پرکاربرد است .هرچند بیشتر نرمافزارهای صفحه گسترده و آمار امکان استفاده از ANOVAرا فراهم میکنند ،اما واژهشناسی ANOVAبا آنچه در اقتصاد اســتفاده میشــود کامال متفاوت است ،در نتیجه ممکن اســت ANOVAبهنظرتان ناآشنا یا حتی گیجکننده باشد .در این فصل به این ادعای خود میپردازیم که رگرســیون با متغیرهای توضیحی مجازی هر آنچه که ANOVAقادر به انجام آن اســت را انجام میدهد .در واقع رگرسیون بــا متغیرهای توضیحی مجازی حتی عامتر و قویتر از ANOVAاســت.بنا به تعریف رســمی ،متغیر مجازی متغیری اســت که تنها میتواند دو مقدار داشته باشد 0 :یا .1مثال 7-1نشان میدهد که متغیرهای موثر بر قیمت خانه چگونه میتوانند صفر و یکی باشند.
مثال 7-1الف :توضیح قیمت خانه
در فصل ،6با مثالی ســر و کار داشتیم که به عوامل موثر بر قیمت خانه در وینســور کانادا میپرداخت .در توضیحات فصل ،6همه متغیرهای
توضیحــی کمی بودند (مثال اندازه خانــه که به فوت مربع بود و تعداد اتاق حمامها) .اما عواملی موثر دیگری نیز وجود دارند (مثل وجود راه
اختصاصی برای خانه ،تهویه مطبوع ،اتاق سرگرمی ،زیرزمین یا سیستم گرمایش مرکزی) که دقیقا کمی نیستند.
2- Epidemiology
1- Analysis of variance
تمام این متغیرها کیفی هستند و با بله/خیر مشخص میشوند (مثال «بله»
به اینمعناســت که خانه دارای راه اختصاصی است و «خیر» بهمعنای عدم وجود راه اختصاصی برای خانه است).
برای انجام تحلیل رگرســیون روی این متغیرهای توضیحی ،ابتدا باید آنها را بــه متغیرهای مجازی تبدیل کنیم ،یعنــی 1را به «بله» و 0را
بــه «خیر» تغییر دهیم .از حرف Dبرای نشــان دادن متغیرهای مجازی استفاده میکنیم ،بنابراین میتوانیم بنویسیم: •
D1 = 1
اگر خانه دارای راه اختصاصی باشد (و 0اگر نداشته باشد)؛
•
D3 = 1
اگر خانه دارای زیرزمین باشد (و 0اگر نداشته باشد)؛
• D4 = 1اگر خانه دارای سیســتم گرمایش مرکزی باشــد (و 0اگر نداشته باشد)؛
• D5 = 1اگر خانه دارای تهویه مطبوع باشد (و 0اگر نداشته باشد).
مثال اگــر خانهای دارای راه اختصاصی ،زیرزمین و سیســتم گرمایش
مرکزی باشــد اما تهویه مطبوع و اتاق سرگرمی نداشته باشد میتوانیم مقادیر زیر را به مشــاهدات متغیرهای این خانه نسبت بدهیم: D4 = 1، D3 = 1، D2 = 1،
D1 = 1
و . D5 = 1این متغیرهــا (و برخی متغیرهای
دیگر) در فایل HPRICE.XLSوجود دارند.
مترین 7-1
با استفاده از دادههای فایل ،HPRICE.XLSآمار توصیفی و ماتریس همبستگی را برای متغیرهای مجازی فهرستشده در مثال 7-1محاسبه کنید .آیا میتوانید معنی متغیر مجازی را تفسیر کنید؟
187
فصل :7رگرسیون با متغیرهای مجازی
• D2 = 1اگر خانه دارای اتاق سرگرمی باشد (و 0اگر نداشته باشد)؛
رگرسیون ساده با استفاده از متغیرهای مجازی
کارمان را با رگرسیون ساده که در آن یک متغیر توضیحی مجازی یعنی Dوجود دارد آغاز میکنیم: Y = α + βD + e ∧
تحلیل دادههای اقتصادی
با اســتفاده از روش حداقل مربعات معمولی یا ،OLSمیتوانیم مقادیر αو ∧ βرا برای مدل رگرســیون باال برآورد کنیم .همچنین میتوانیم فاصله اطمینان αیا βرا محاســبه کنیم ،از P-valueبــرای آزمون فرضیه معناداری ضرایب استفاده کنیم و الی آخر؛ یعنی دقیقا مثل قبل .اگر هر کدام از عبارتهای جمله قبلی بهنظرتان آشنا نمیآید ،باید فصلهای 5 ،4و 6را دوباره بخوانید .اگر همه اینها مثل قبل اســت ،پس چه چیز جدیدی وجود دارد؟ آنچه جدید است، شــیوه تفسیر این ضرایب اســت که در ادامه در موردش بحث میکنیم .مقدار برازششده Yبرای مشاهده iام را میتوان بهشکل زیر نوشت: ∧
188
∧
∧
Y i = α + β Di
∧
∧
چون Diیا 0است یا 1پس میتوانیم بگوییم که یا Yi = αدرست است یا ∧ ∧ ∧ . Yi = α + βدر مثال 7-2نشان خواهیم داد که چگونه میتوان از این واقعیت برای تفسیر نتایج رگرسیون استفاده کرد.
مثال 7-1ب :توضیح قیمت خانه
در جدول 7-1خروجی نرمافزار رگرسیون قیمت خانه ( )Yروی متغیر
مجازی تهویه مطبوع ( )Dبا اســتفاه از دادههای فایل HPRICE.XLS
آمده است.
جدول .7-1رگرسیون قیمت فروش خانه بر متغیر مجازی تهویه مطبوع ضریب
انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حدباال در سطح %95
جزء ثابت
59884 .85
1233 .50
48 .55
7/10 E -200
57461 .84
62307 .86
D
25995 .74
2191 .36
11 .86
4/90 E -29
21691 .18
30300 .32
آزمون P-valueیا فاصله اطمینان نشــان میدهنــد که βقویا معنادار اســت.
∧
∧
همچنین α =59886و β = 25996
اســت .تفســیر این اعداد
چیســت؟ میتوانیم از مفهوم تاثیر نهایی که در فصل 4دیدیم استفاده
کنیم .یعنی βمعیاری اســت برای نشان دادن اینکه Yچقدر گرایش به
تغییر دارد زمانیکه Xیک واحد تغییر میکند .اما وقتی متغیر توضیحی ما مجازی باشد ،یک واحد تغییر به این معناست که «خانه بدون تهویه مطبوع» به «خانه با تهویه مطبوع» تبدیل شــود .یعنی میتوانیم بگوییم کــه خانههای دارای تهویه مطبوع گرایش دارند 25996دالر گرانتر از
اما زمانی که متغیر توضیحی رگرسیونمان مجازی باشد میتوان تفسیر ضرایب را بهشــکلی دیگر نیز انجام داد کــه اندکی متفاوت اما مرتبط
با تفســیر پاراگراف قبل است .در خانههای فاقد تهویه مطبوع
اســت
و Y i = 59885 ∧
Di = 0
میشــود .بهعبارت دیگر مدل رگرسیون نشان
میدهــد که خانههای فاقد تهویه مطبوع بهطور متوســط 59885دالر
قیمت دارند .اما در مورد خانههای دارای تهویه
برآورد مدل رگرسیون نشان میدهد
مطبوع= 1 ،
که Y i = α+ β = 85881 ∧
∧
∧
Dاست پس
i
دالر است.
پس قیمت خانههای دارای تهویه مطبوع بهطور متوســط برابر 85881
دالر اســت .این روشی مرســوم و پرکاربرد برای گزارش نتایج چنین
رگرسیونهایی است.
برای درک بیشتر موضوع ،بهیاد بیاورید که اگر اصال رگرسیونی برآورد
نمیکردیم و فقط متوسط قیمت خانههای دارای تهویه مطبوع را اندازه میگرفتیم ،میتوانســتیم به عدد 85881دالر برسیم .اگر سپس متوسط قیمت خانههای فاقد تهویه مطبوع را حســاب میکردیم ،نتیجه 59885
189
فصل :7رگرسیون با متغیرهای مجازی
خانههای فاقد تهویه مطبوع باشند.
دالر میشد .یعنی میتوانستیم دقیقا به همان نتایج رگرسیون برسیم.
امــا بحث فصل 6در مــورد تورش متغیرهای حذفشــده را بهخاطر بیاورید .رگرســیون ســاده ما در این مثال تعداد زیادی متغیر توضیحی
مهم را در نظر نگرفته اســت؛ پس قطعا نمیتوانیم از نتایج رگرســیون فــوق برای بیان ادعاهایی مثل «افزودن تهویه مطبوع به خانه ،قیمت آن
را 25996دالر افزایش میدهد» استفاده کنیم .چون قیمت سیستم تهویه مطبوع چند صد دالر بیشــتر نیست (یا در گرانترین حالت ،چند هزار دالر) و ادعای فوق نادرست و حتی خندهدار است.
تحلیل دادههای اقتصادی
رگرسیون چندگانه با متغیرهای مجازی
190
اکنون رگرسیونی را در نظر میگیریم که شامل چندین متغیر توضیحی مجازی باشد: Y = α + β1D1 + … + βkDk + e
برآورد OLSاین مدل رگرسیون و تحلیل آماری نتایج آن را میتوان بهشکل استاندارد انجام داد .برای توضیح نتایج چنین رگرسیونهایی ،بار دیگر به مثال قیمت خانه بازمیگردیم.
مثال 7-1ج :توضیح قیمت خانه
حالتی را در نظر بیاورید که دو متغیر توضیحی مجازی در رگرسیونمان
داریم D1 = 1 ،نشان میدهد که خانه دارای راه اختصاصی است ( 0یعنی فاقد آن است) و D2 = 1برای زمانی است که خانه مورد نظر دارای اتاق
سرگرمی باشد ( 0یعنی ندارد) .با وجود این دو متغیر مجازی ،میتوانیم
خانههای موجود در فایل دادههایمان را به چهار گروه زیر تقسیم کنیم:
• خانههایــی کــه هــم راه اختصاصی دارنــد و هم اتاق ســرگرمی
=) D1 1؛ = ( . D2 1
• خانههایــی کــه راه اختصاصی دارنــد ولی اتاق ســرگرمی ندارند
= ( . D2 0 =) D1 1؛
• خانههایی که راه اختصاصی ندارند ولی دارای اتاق ســرگرمی هستند
= ( . D2 1 =) D1 0؛
• خانههایــی کــه نــه راه اختصاصــی دارنــد و نه اتاق ســرگرمی با در نظر گرفتن این طبقهبندی ،به تفســیر جدول 7-2میپردازیم که
شامل نتایج رگرسیون قیمت خانه ()Y
است.
روی D1و D2
جدول .7-2رگرسیون قیمت خانه روی دو متغیر مجازی انحراف معیار
آماره t
P-value
حدباال در سطح %95
حد پایین در سطح %95
جزء ثابت 470099 .08
2837 .62
16 .60
2/42 E -50
41525 .02
52673 .14
D1
21159 .91
3062 .44
6 .91
1/37 E -50
15144 .22
27175 .60
D2
16023 .69
2788 .63
5 .75
1/52 E -8
10545 .86
21501 .51
ضریب
با جایگذاری اعداد 0یا 1در متغیرهای مجازی ،مقدار برازششــده Y ∧
یعنی Yبهدست میآید که در جدول 7-3گزارش شده است. جدول .7-3قیمت خانه در چهار حالت D1
D2
1
1
1
0
0
1
0
0
Y ∧
∧
∧
∧
Y = α + β1 + β2 ∧
∧
∧
∧
∧
Y = α+ β1 ∧
Y = α+ β2 ∧
∧
Y= α
قیمت
47099+21160+16024=84283 47099+21160=68259 47099+16024=63123 47099
191
فصل :7رگرسیون با متغیرهای مجازی
=0 ( . D2 0
=). D1
بهعبارت دیگر ،متوسط قیمت خانه برابر است با: • با راه اختصاصی و اتاق سرگرمی 84283دالر؛
• با راه اختصاصی و بدون اتاق سرگرمی 68259دالر؛ • بدون راه اختصاصی و با اتاق سرگرمی 63123دالر؛ • بدون راه اختصاصی و اتاق سرگرمی 47099دالر.
بهطــور خالصه میتوان گفت که از رگرســیون چندگانه با متغیرهای مجازی میتوان برای دســتهبندی خانهها به گروههای مختلف و یافتن
متوســط قیمت خانه در هر یک از این گروهها استفاده کرد .البته نتایج این رگرسیون را بهطور مستقیم هم میتوان گزارش کرد ،یعنی بهشکل ∧
برآورد ضرایب رگرسیون .مثال β1معیاری است برای نشان دادن اضافه تحلیل دادههای اقتصادی
قیمت خانه دارای راه اختصاصی نســبت به خانه فاقد آن ،بهشرطی که
192
سایر ویژگیهای خانهها یکسان باشند (در این مثال یعنی شرایط وجود یا فقدان اتاق استراحت خانهها یکسان باشد).
مترین 7-2
اطالعات آماری مثال 7-3را تفســیر کنید .آیا تمــام متغیرهای توضیحی از نظر آماری معنادار هستند؟
مترین 7-3
با اســتفاده از دادههای قیمــت خانه در فایل ،HPRICE.XLSمتغیر وابســته Y
را قیمــت خانه در نظر بگیرید .متغیر مجازی D1 = 1اســت اگــر خانه دارای راه
اختصاصی باشــد و در غیراینصورت مســاوی 0اســت و اگر خانه دارای اتاق
سرگرمی باشد D2 = 1است و در غیراینصورت مساوی 0است.
(الف) بدون اســتفاده از تکنیک رگرسیون ،متوسط قیمت چهار گروه مختلف از
خانهها که در مثال 7-3فهرست شدهاند را محاسبه کنید.
(ب) چگونــه قیمتهای محاسبهشــده در بند الف را میتــوان به ضرایب مدل رگرسیون و نتایج مثال 7-3مرتبط کرد؟
مترین 7-4
از دادههای فایل HPRICE.XLSو پنج متغیر مجازی D1تا ( D5متغیرهای مجازی که
تعیین میکنند آیا خانه مدنظر دارای راه اختصاصی ،اتاق سرگرمی ،زیرزمین ،سیستم
گرمایش مرکزی و تهویه مطبوع هست یا خیر) فهرستشده در مثال 7-1استفاده کنید. جای داد؟ (مثال خانههای دارای راه اختصاصی ،اتاق سرگرمی ،زیرزمین و سیستم
گرمایش مرکزی اما فاقد تهویه مطبوع در یک دسته جای میگیرند) .این موضوع چگونه بر تفسیر نتایج رگرسیون موثر است؟
(ب) چگونه میتوانید تعداد خانههای موجود در هر دسته را محاسبه کنید؟ مثال از 546خانه موجود در فایل دادهها ،چند خانه دارای راه اختصاصی ،سیستم گرمایش
مرکزی و تهویه مطبوع اما فاقد اتاق سرگرمی و زیرزمین هستند؟ (ج) قیمت خانه ( )Yرا روی پنج متغیر مجازی رگرس کنید.
(د) در مورد معناداری آماری ضرایب متغیرهای توضیحی بحث کنید.
(ه) متوسط قیمت خانههای چند تا از دستهبندیها را محاسبه کنید (مثال خانههایی
که دارای راه اختصاصی ،اتاق ســرگرمی و زیرزمین ولی فاقد سیســتم گرمایش مرکزی و تهویه مطبوع هستند).
(و) وجود کدام ویژگی در یک خانه بیشتر از سایر ویژگیها باعث افزایش قیمت خانه میشود؟
193
فصل :7رگرسیون با متغیرهای مجازی
(الف) با پنج متغیر مجازی ،خانههای موجود را در چند دســتهبندی مجزا میتوان
رگرسیون چندگانه با متغیرهای توضیحی مجازی و غیرمجازی
1
در بخــش پیش فرض کردیم که تمام متغیرهای توضیحی ما مجازی هســتند. اما در عمل موارد زیادی هســت که در یک رگرسیون ترکیبی از انواع مختلف متغیرهای توضیحی وجود دارد .ســادهترین حالت رگرسیونی است که در آن یک متغیر مجازی ( )Dو یک متغیر توضیحی کمی ( )Xوجود دارد: Y = α + β1D + β2 X + e
تفسیر نتایج چنین رگرسیونی در مثال 7-4توضیح داده شده است.
مثال 7-1د :توضیح قیمت خانه تحلیل دادههای اقتصادی
اگر قیمــت خانه یعنی Yرا روی متغیر مجــازی تهویه مطبوع ( )Dو ∧
اندازه خانه ( )Xرگرس کنیم خواهیم داشت که β1 = 20175 ، α =32693 ∧
∧
194
و . β2 = 5 / 638قبال اشاره کردیم که متغیر مجازی تنها میتواند مقادیر 0یا 1را اختیار کند و در نتیجه مقدار برازششــده Yبرای هر دســته از خانههــا مقدار متفاوتی خواهد داشــت .بنابراین نتایج رگرســیون
نشاندهنده قیمت متوسط خانه برای هر کدام از دستهها است.
اما در مورد رگرســیون اخیر ،تفســیر نتایج اندکی دشــوارتر از پیش است چون اگر Di = 1باشــد (یعنی خانه iاُم تهویه مطبوع داشته باشد) ∧
=اگر Di = 0باشــد (یعنی خانه i داریــم که Yi 52868 + 5 / 638Xiو
اُم تهویه مطبوع نداشــته باشــد) داریم
∧
که . Yi 32693 + 5 / 638Xi =
بهعبارت دیگر با توجه به اینکه خانه دارای تهویه مطبوع هست یا نه، دو خط رگرســیون متفاوت بهدســت میآید .این نکته را با بحث مثال
7-2مقایســه کنید که در آن تنها یک متغیر توضیحی مجازی داشتیم.
1- Non-dummy
نتایج رگرســیون آن مثال نشــان داد که متوسط قیمت خانههای دارای
تهویه مطبوع و فاقد آن ،متفاوت است .اما در این مثال میتوانیم بگوییم که هر دســته از خانهها ،خط رگرسیون کامال متفاوتی دارند .به عبارت
دیگر نمیتوانیم (آنطور که در مثال قبل انجام دادیم) بهسادگی متوسط
قیمت دستههای مختلف خانهها را تعیین کنیم.
∧
البته اما میتوانیم ادعا کنیم که بهشرط ثبات سایر شرایطβ1 = 20175 ،
مقیاسی برای اندازهگیری این موضوع است که تجهیز شدن یک خانه به
تهویه مطبوع ،چقدر به قیمت آن میافزاید .ب ه عبارت دیگر اگر دو خانه را با هم مقایســه کنیم Y ،خانه دارای تهویه مطبوع همیشه 20175دالر ∧
بیشتر
از Y ∧
خانه فاقد تهویه مطبوع است.
در ادامه بر تفاوتهای دو خط رگرســیون موجود برای خانههای دارا و فاقد تهویه مطبوع ،متمرکز میشــویم .به یاد داشــته باشــید که خط رگرسیون برای هر دو نوع خانه شیب یکسانی دارد
∧
یعنی β2 = 5 / 638
و تفاوت در جزء ثابت اســت یعنی اگر Di = 1باشــد جــزء ثابت برابر 52868است و اگر Di = 0باشــد جزء ثابت برابر 32693است .چون
شیب دو خط یکسان است (و شیب نشاندهنده تاثیر نهایی است) ،تاثیر
نهایی اندازه خانه بر قیمت خانه در خانههای دارای تهویه مطبوع و فاقد آن ،یکسان است .مثال میتوانیم بگوییم که «یک فوت مربع افزایش در
اندازه خانه با 5/63دالر افزایش قیمت آن همراه است».
میتوانیم بحث قبل را به حالتی تعمیم بدهیم که تعداد زیادی متغیر توضیحی مجازی و غیرمجازی در رگرســیون وجود دارند .در مدل رگرســیونی زیر دو متغیر توضیحی مجازی و دو متغیر توضیحی غیرمجازی وجود دارد:
195
فصل :7رگرسیون با متغیرهای مجازی
که مقدار Xشان برابر اســت (در این مثال یعنی اندازهشان برابر است)
Y = α + β1D1 + β2D2 + β3 X1 + β4 X2 + e
برای تفسیر نتایج این مدل رگرســیون از عناصر تمام مثالهای پیشین این فصل استفاده میکنیم.
مثال 7-1ه :توضیح قیمت خانه
اگر Yیعنی قیمت خانه را روی متغیرهای مجازی راه اختصاصی ( ) D1
و اتاق سرگرمی ( ) D2و متغیرهای غیرمجازی اندازه خانه ( ) Xو تعداد 1
∧
∧
اتاقخوابهــا ( ) X2رگرس کنیــم ،مقادیر ، β1 =12598 ، α = −2736 ∧
∧
= β3 =5 / 197 ، β2 10969
و
∧
= β4 10562
را بهدست میآوریم .برای
تحلیل دادههای اقتصادی
تفسیر نتایج این مدل رگرسیون باید بفهمیم که به ازای مقادیر مختلف
متغیرهای مجازی ،خط رگرسیون برازششده (یعنی ) Yچگونه است. ∧
196
همانطور که از جدول 7-4پیداســت ،با دو متغیر مجازی ،چهار خط رگرســیون متفاوت خواهیم داشت .تمام این خطهای رگرسیون دارای شیب یکســان و جزء ثابت متفاوتی هستند .ضرایب متغیرهای مجازی ∧
یعنی β1
∧
و β2بهترتیب نشــاندهنده اضافه قیمت خانــه در اثر افزوده
شــدن راه اختصاصی و اتاق ســرگرمی به آن است .ضرایب متغیرهای ∧
∧
غیرمجازی یعنی β3و β4را بهترتیب میتوان بهعنوان تاثیر نهایی اندازه خانه و تعداد اتاقخوابها بر قیمت خانه تفسیر کرد. جدول .7-4قیمت خانه در چهار حالت خط رگرسیون 20831 + 5.197X1 + 10562X2
Y ∧
D2 ∧
∧
∧
∧
α + β1 + β2 + β3 X1 + β4 X2 ∧
∧
∧
∧
∧
∧
∧
1
0
1
α+ β2 + β3 X1 + β4 X2
1
0
α + β3 X1 + β4 X2
0
0
9862 + 5.197X1 + 10562X2
α+ β1 + β3 X1 + β4 X2
8233 + 5.197X1 + 10562X2
∧
−2736 + 5.197X1 + 10562X2
1
D1
∧
∧
∧
عبارتهای زیر را میتوان در مورد نتایج رگرسیون اظهار کرد:
• خانههای دارای راه اختصاصی نسبت به خانههای مشابه اما بدون راه
اختصاصی گرایش دارند به 12598دالر قیمت بیشتر دارند.
• اگر خانههایی با تعداد اتاقخوابهای برابر را در نظر بگیریم ،آنگاه افزایش یک فوت مربع به اندازه خانه گرایش دارد قیمت خانه را 5197 دالر افزایش دهد.
• با ثبات سایر شرایط ،یک اتاق خواب اضافی گرایش دارد قیمت خانه را 10562دالر افزایش دهد. که مشکل تورش متغیر حذفشــده در رگرسیون وجود نداشته باشد.
بهعالوه باید تاکید کرد که عبارتهای شــامل علیت (مثل «افزایش یک فوت مربع به اندازه خانه گرایش دارد قیمت خانه را 5197دالر افزایش دهد») تنها زمانی درســت هستند که واقعا متغیر توضیحی علت متغیر وابسته باشد (برای توضیحات بیشتر در مورد علیت در رگرسیون ،فصل
4و 6را بخوانید).
مترین 7-5
از دادههای فایل HPRICE.XLSاســتفاده کنید .پنج متغیر مجازی D1تا D5که در
مثال 7-1فهرست شدهاند و چهار متغیر غیرمجازی زیر را در نظر بگیرید: •
X1
:اندازه خانه (به فوت مربع)
• : Xتعداد اتاقخوابها • : X3تعداد حمامها 2
• : Xتعداد طبقات (شامل زیرزمین) (الف) Yرا روی D1.….D5و X1.…. X4رگرس کنید. 4
197
فصل :7رگرسیون با متغیرهای مجازی
البته باید در نظر داشت که تمام عبارتهای باال به شرطی درست هستند
(ب) در مورد معناداری ضرایب برآوردشده بحث کنید.
(ج) کدامیک از ویژگیهای اندازهگیریشده با متغیرهای مجازی بیشترین تاثیر را
بر قیمت خانه دارند؟
(د) ویژگیهای خانهها در دستههای مختلف (مقادیر مختلف برای متغیرهای مجازی) را در نظر بگیرید (مثال یک دسته میتواند خانههایی باشند که راه اختصاصی دارند ،اتاق سرگرمی ندارند ،زیرزمین دارند ،سیستم گرمایش مرکزی ندارند و تهویه مطبوع هم ندارند) و فرمول خط رگرسیون را برای آن دسته بنویسید.
(ه) با توجه کافی به مفهوم ثبات سایر شرایط ،در مورد نتایج مربوط به متغیرهای
غیرمجازی بحث کنید.
تحلیل دادههای اقتصادی
اثر متقابل متغیرهای مجازی و غیرمجازی
198
در بخش قبل از متغیرهای مجازی بهشــکلی استفاده کردیم که بتوانیم مفاهیم مختلف خط رگرســیون را بیان کنیم ولی در همه موارد شــیب خط رگرسیون ثابت بــود .اما با در نظر گرفتن تاثیر متقابــل متغیرهای مجازی و غیرمجازی، میتوانیم به شیب خط رگرسیون نیز اجازه تغییر بدهیم .برای درک این موضوع، مدل رگرسیون زیر را در نظر بگیرید: Y = α + β1D + β2 X + β3 Z + e
مانند بخش قبل D ،و Xبهترتیب متغیرهای مجازی و غیرمجازی هســتند. اما متغیر جدید Zرا به رگرســیون اضافه کردهایم که تعریف آن عبارت اســت از.Z=DX : نتایج رگرســیون Yبر D، Xو Zرا چگونه تفسیر کنیم؟ برای پاسخ به این پرســش باید دقت کنیم که Zیا مساوی 0است (برای مشاهداتی که در آنها D=0اســت) یا مساوی ( Xبرای مشــاهداتی که در آنها D=1است) .با لحاظ کردن این نکته ،خط رگرسیون برازششده بهشکل زیر خواهد بود: • اگر D=1باشد آنگاه . Y = α+ β1 + β2 + β3 X ∧
∧
∧
∧
∧
∧
∧
∧
• اگر D=0باشد آنگاه . Y= α + β2 X ب ه عبارت دیگر دو خط رگرسیون متناظر با D=0و D=1دارای جزء ثابت و شیبهای متفاوتی هستند .یک نتیجه این موضوع این است که تاثیر نهایی Xبر Yبه ازای D=0و D=1متفاوت خواهد بود .با اســتفاده از واژگان و تفسیرهای ارائهشده در فصلهای 4و 6میتوانید در گزارشها یا مقاالت خود ،هر یک از خطوط رگرسیون را جداگانه بنویسید.
مثال 7-1و :توضیح قیمت خانه
اگر قیمت خانه ( )Yرا روی سه متغیر توضیحی :متغیر مجازی تهویه مطبوع ∧
α =35684
∧
∧
∧
β2 = 5 / 02 ، β1 = 7613 ،و . β3 = 2 / 25ایــن نتایج دال بر
این اســت که در خانههای دارای تهویه مطبوع تاثیر نهایی اندازه خانه بر
قیمت آن 7/27دالر است (یعنی افزایش اندازه خانه به اندازه یک فوت مربع
با افزایش قیمت آن به اندازه 7/27دالر همراه اســت) و در خانههای فاقد تهویه مطبوع فقط ،این تاثیر نهایی فقط برابر 5/02دالر است .عالوه بر این، ∧
P-valueمتناظر با β3برابر 0/02است ،یعنی این تفاوت در تاثیر نهایی از نظر آماری معنادار است .این نتایج دال بر این است که اگر خانه دارای تهویه
مطبوع باشد (در مقایسه با خانههای فاقد آن) افزایش در اندازه خانه گرایش دارد تا قیمت خانه را بیشتر افزایش دهد.
مترین 7-6
از دادههای فایل HPRICE.XLSاستفاده کنید .پنج متغیر مجازی D1تا D5و چهار
متغیر غیرمجازی X1تا X4
که در مثال 7-1فهرست شدهاند را در نظر بگیرید:
(الف) با این متغیرهای توضیحی و افزودن چند متغیر نشاندهنده اثر متقابل (متغیر
199
فصل :7رگرسیون با متغیرهای مجازی
( ،)Dاندازه خانه ( )Xو Z=DXرگرس کنیم نتایج عبارت خواهند بود از:
تعاملی ،)1رگرسیونهایی را در حالتهای گوناگون برآورد کنید (مثال رگرسیونی
بــا 10متغیر توضیحی یعنــی D1تا مثل .) Z = D1X1
X1 ، D5تا X4
به اضافه یــک متغیر تعاملی
(ب) آیــا میتوانیــد متغیر تعاملی پیدا کنید که از نظر آماری معنادار باشــد؟ طی
جمالتی یافته خود را توضیح دهید.
مترین 7-7
فایل WAGEDISC.XLSشــامل دادههای N=100شــاغل در یکی از مشاغل
اســت .فرض کنید میخواهیم عوامل موثر بر ایجاد تفاوت بین دستمزدها را با در
نظر گرفتن مشــکل تبعیض جنسیتی در این شغل توضیح دهیم .متغیرهای زیر در این فایل وجود دارند:
تحلیل دادههای اقتصادی
• :Yدستمزد (بر حسب هزار دالر) 200
• : X1سطح تحصیالت (بر حسب تعداد سالهای تحصیل) • : X2تجربه کاری (بر حسب تعداد سالهای اشتعال) • :Dجنسیت ( 1برای مردان و 0برای زنان)
(الف) آمار توصیفی دادههای این فایل را محاسبه و در مورد آنها بحث کنید .مثال متوسط دستمزد چقدر است؟
(ب) متوسط دستمزد شاغلین مونث و مذکر را بهطور مجزا حساب کنید .آنها را
مقایسه کنید.
(ج) رگرسیون سادهای از Yروی Dبرآورد کنید .آیا شیب خط رگرسیون از نظر آماری معنادار است؟ نتایج رگرسیون خودتان را با یافتههای بند (ب) مقایسه کنید.
آیا میتوانید از این یافتهها نتیجه بگیرید که در این شغل علیه زنان تبعیض جنسیتی وجود دارد؟
(د) رگرســیون چندگانهای از Yبر X2 ، X1و Dران کنید .گزارش مختصری در
1- Interaction term
مورد یافتههای این رگرسیون بنویسید که در آن بر وجود مشکل تبعیض جنسیتی در این شغل تاکید شده باشد .آیا نتایج از نظر آماری معنادار هستند؟
(ه) نتایــج بند (د) را با بند (ج) مقایســه کنید .چرا با هــم فرق دارند؟ راهنمایی:
ماتریس همبستگی برای تمام متغیرهای توضیحی را حساب کنید و در مورد معنای
همبستگی فکر کنید.
Zرگرس (و) متغیر جدید Z = DX2را بســازید؛ سپس Yرا روی D ، X2 ، X1و کنید .آیا ضریب Zمعنادار اســت؟ گزارشــی که در بند (د) نوشتید چگونه تغییر میکند؟ توضیح دهید که ضریب متغیر Zچه چیزی را اندازه میگیرد.
-1متغیرهــای مجازی میتوانند دو مقدار 0یــا 1را اختیار کنند .این متغیرها اغلب اوقات برای دادههای کیفی استفاده میشوند. -2تکنیکهای آماری اســتفاده از متغیرهای توضیحی مجازی دقیقا مشابه تکنیکهایی است که برای متغیرهای توضیحی غیرمجازی استفاده میشود. -3رگرســیونی که شــامل فقط یک متغیر توضیحی مجازی باشد ،بهطور ضمنی مشاهدات را به دو دسته متمایز تقسیم میکند (مثل خانههای داری تهویه مطبوع و فاقد آن) .در نظر گرفتن و دقت به این دســتهبندیها به تفسیر نتایج چنین رگرسیونهایی کمک میکند. -4رگرسیون شــامل متغیر توضیحی مجازی و غیرمجازی ،بهطور ضمنی مشاهدات را به چند دسته متمایز تقسیم میکند و دال بر این است که هر دسته، یک خط رگرســیون مختص خود با جزء ثابت متفاوت دارد .تمام این خطوط رگرسیون شیب یکسانی دارند. -5رگرســیون شــامل متغیر توضیحی مجازی ،غیرمجازی و متغیر تعاملی (متغیر مجازی ضــرب در غیر مجازی) ،بهطور ضمنی مشــاهدات را به چند دسته متمایز تقسیم میکند و دال بر این است که هر دسته ،یک خط رگرسیون مختص خود با جزء ثابت و شیب متفاوت دارد.
201
فصل :7رگرسیون با متغیرهای مجازی
خالصه فصل
فصل 8 الگوهای انتخاب کیفی
203
فصل :8الگوهای انتخاب کیفی
در فصل ،7به متغیرهای توضیحــی مجازی پرداختیم .این فصل حالتی را مورد بررســی قرار میدهیم که متغیر وابســته ،مجازی باشد .این حالت اغلب وقتــی رخ میدهد که پای یک انتخاب در میان باشــد بههمین دلیل از عبارت «الگوی انتخاب کیفی» استفاده میشود .برای مثال ،پژوهشگری میخواهد این موضوع را مورد بررسی قرار دهد که چرا برخی از مردم برای رفتن به سر کار از خودرو شخصی استفاده میکنند و برخی دیگر از وسائل نقلیه عمومی .دادههایی که در اختیار این پژوهشــگر قرار دارد بر مبنای نظرسنجی صورتگرفته از این افراد ،ایجاد شــده است .از آنها سواالت خاصی شامل برخی ویژگیها (برای مثال فاصله خانه تا محل کار آنها ،میزان درآمد و نظایر اینها) پرسیده میشود. اگر پژوهشــگر سعی کند تا یک الگوی رگرسیونی بسازد ،متغیرهای توضیحی شامل همین ویژگیهای پرسششده خواهد بود .اما متغیر وابسته این رگرسیون، یک متغیر مجازی است (مقدار 1برای کسانی که با خودرو شخصی به سر کار میروند و مقدار 0برای کسانی که با وسائل نقلیه عمومی به سر کار میروند). به شــکل مشابه میتوان مثالهای اقتصادی دیگر یافت (برای مثال انتخاب یک محصول در فروشگاه ،انتخاب یک شغل). روشهای معمول رگرسیونی که در فصلهای قبل به آنها اشاره شده بود
تحلیل دادههای اقتصادی
204
برای وضعیتی که متغیر وابســته مجازی باشد ،مناسب نیست .در این فصل به الگوهای لوجیت و پروبیت میپردازیم .این دو از جمله معروفترین الگوهایی هســتند که در آنها متغیر وابســته مجازی اســت .این الگوها زمانی استفاده میشوند که قرار است بین دو چیز انتخابی صورت گیرد (برای مثال افراد بین خودرو شــخصی و وســائل نقلیه عمومی در معرض انتخاب قرار میگیرند). حالتهایی هم وجود دارد که افــراد در معرض انتخاب بین چند حالت قرار میگیرند (برای مثال افراد میتوانند با خودرو شــخصی ،وسایل نقلیه عمومی و دوچرخه به ســر کار بروند) .در چنیــن حالتهای تعمیم الگوی لوجیت و پروبیت امکانپذیر خواهد بود .الگوهای لوجیت و پروبیت ،الگوی رگرسیونی بهشمار نمیآیند اما شباهتهای بسیاری به آن دارند .شاید الزم به تاکید باشد که با وجود اینکه واژگان جدیدی در این فصل مطرح میشود که شاید برای شــما آشنا نباشــد ،اما مفاهیم زیربنایی که در فصول قبل فراگرفتهایم همچنان برقرار اســت .به این ترتیب که مــا به دنبال یک رابطه بین متغیر وابســته و متغیرهای توضیحی هســتیم بهنحوی که اثر متغیر توضیحی را بر متغیر وابسته را تشخیص دهیم.
مثال 8-1انتخابكردن
براي توضيــح الگوهاي لوجيت و پروبيت ،دادههاي يك مقاله معروف
كه توسط فير( )Fair-1987نوشته شده است را انتخاب نموديم .مقاله
بر مبناي يك نظرسنجي كه توسط مجلهاي محبوب در باب عوامل موثر بر انتخاب روابط عاطفي غير از ازدواج ،شكل گرفته است .دادهها شامل N=601مشاهده ميشود كه دادههاي زير در آن گنجانده شده است:
رابطه ( :)AFFAIRاگر شــخصي داراي اين نوع رابطه بوده است مقدار 1و در غيراينصورت مقدار صفر.
مذكر ( :)MALEافراد مذكر مقدار 1و افراد مونث مقدار صفر.
ســالهاي ازدواج ( :)YEARSتعداد ســالهايي كه شخص ازدواج
نموده است.
فرزندان ( :)KIDSمقدار 1براي كساني كه پس از ازدواج دارای فرزند
هستند و در غيراينصورت صفر.
مذهب ( :)RELIGاگر فردی مذهبی باشد مقدار 1و در غيراينصورت مقدار صفر.
تحصیالت ( :)EDUCتعداد سالهاي تحصیل فرد
شادي ( :)HAPPYمقدار 1اگر فردي احساس كند كه زندگي زناشويي اولين متغير ،متغير وابســته و مجازي تحقيق اســت .ســاير متغيرها
توضيحي هستند.
الگوی انتخاب در دانش اقتصاد
پیش از ورود ب ه جزئیات الگوی لوجیت و پروبیت ،الزم است اندکی به جایگاه این الگوها در علم اقتصاد بپردازیم .این موضوع به تفسیر نتایج الگو کمک میکند. الگوهــای لوجیت و پروبیت در حالتهایی کاربرد دارند که یک شــخص انتخابــی را انجام میدهد .فرض کنید شــخصی ناچار اســت بین دو حالت صفــر و یک انتخاب کند .اقتصاددان این انتخــاب را با تصریح تابع مطلوبیت شــخص پردازش میکند و میگویــد که او انتخابی را انجــام خواهد داد که بیشــترین مطلوبیت را به همراه داشته باشد .فرض کنید Ui0مطلوبیت شخص (i=1,….,N)iدر انتخــاب تصمیم صفر و Ui1مطلوبیت در انتخاب تصمیم 1 باشد .فرد وقتی تصمیم 1را میگیرد که Ui0 < Ui1و وقتی تصمیم 0را میگیرد که . Ui0 > Ui1از آنجاکه عبارت Ui1 > Ui0به معنی Ui1 − Ui0 > 0است ،آنگاه
205
فصل :8الگوهای انتخاب کیفی
او شادتر از متوسط جامعه است ،در غيراينصورت صفر.
انتخاب میتواند بر اساس تفاضل مطلوبیتها صورت پذیرد که ما این تفاضل = Ui1 − Ui0نشان میدهیم. را به صورت Y در مثال ابتدای فصل ،بهصورت ساده میتوان گفت که انتخاب فرد به این موضوع ربط دارد که مطلوبیت خودروی شخصی بیشتر باشد یا نقلیه عمومی. آنگاه اقتصاددان حملونقل خواهد گفت که متغیر وابســته ( )Yبه ویژگیهای هر فرد (مانند حقوق یا مدت زمان رسیدن از خانه به محل کار و نظایر اینها) ج هم ،رگرسیون چندگانه زیر به کار میآید: مرتبط است .به نظر یک اقتصادسن Y = α + β1X1 + … + βk Xk + e
تحلیل دادههای اقتصادی
206
که در آن X1 … Xkمتغیرهای توضیحی بهشــمار میآیند که ممکن است بــر مطلوبیت افراد اثرگذار باشــند .از این رو ،بهین ه شــدن مطلوبیت در یک نظریه اقتصادی ما را به ســمت الگوی رگرســیونی هدایت مینماید .مشکل اینجاســت که متغیر وابسته در الگوی رگرسیونی ،تفاضل دو مطلوبیت است که این مطلوبیتها ناشی از دو نوع انتخاب است .این موضوع ،تفسیر ضرایب را نیز دشــوار میسازد .در فصل قبل تاکید داشتیم که ضرایب β1 …βkمیباید بهعنوان اثر نهایی تفسیر شــوند .یعنی هر ضریب اثر هر واحد تغییر در متغیر توضیحی بر متغیر وابسته را اندازهگیری مینماید (با فرض ثبات سایر شرایط). در الگوی انتخاب کیفی ،تفسیر اثر نهایی برای ضرایب چندان به کار نمیآید. در مقام قیاس اگر بخواهیم ضرایب الگوی انتخاب کیفی را به همان شــکل تفســیر کنیم باید بگوییم « :یک سال تحصیل بیشــتر موجب افزایش 0/01بر اختالف مطلوبیت بین داشتن و نداشتن رابطه میگردد ،البته با فرض ثبات سایر متغیرها ».از آنجاکه مطلوبیت چیزی نیســت که ما بهصورت مستقیم مشاهده نماییم و اندازهگیری کمی آن هم مقدور نیســت ،این نوع تفسیر چندان کارآمد به نظر نمیرســد .عالمت ضریب اطالعاتی به ما میدهد .برای مثال ،از آنجاکه 0/01عددی مثبت است ،یک ســال تحصیل اضافی موجب افزایش مطلوبیت در انتخاب 1نســبت به صفر میگردد .در این حال ما هیچ چیز خاصی پیرامون بزرگی این ضریب نمیتوانیم بگوییم .برای مثال آیا یک سال تحصیل بیشتر اثر
خیلی زیادی بر ایجاد رابطه دارد یا اینکه تنها اثر اندکی بر جای میگذارد؟ چنین بهصورت مستقیم با دیدن ضرایب الگوی انتخاب کیفی ،قابل پاسخگویی نیست.
احتامالت در انتخاب و الگوهای لوجیت و پروبیت
= Di 1 if Yi > 0 = Di 0 if Yi ≤ 0
این معادالت چیزی را نشــان میدهند که پیشتــر از این گفته بودیم :یک فرد در صورتی انتخاب 1را انجام میدهد که مطلوبیت مرتبط با آن بیشــتر از مطلوبیت انتخاب صفر باشد. حــال ،چگونه میتوانیم یک روش اقتصادســنجی برای بــرآورد ضرایب رگرســیونی فوق و تفســیر آنها ارائه دهیم .برای هر دو منظور الزم است به این موضوع فکر کنیم که احتماالت برســازنده یک انتخاب است .فرض کنید ) Pr (Di = 1احتمال انتخاب گزینه 1توسط فرد iاست .احتمال انتخاب گزینه
207
فصل :8الگوهای انتخاب کیفی
مفاهیمی که در بخش قبل توضیح داده شــد ما را به ساخت الگوی لوجیت و پروبیــت هدایت میکند .به یاد دارید که این فصــل را با گفتن این نکته آغاز نمودیم که هدف ما بررســی حالتی است که در آن متغیر وابسته مجازی است. سپس در مورد بیشینه کردن تابع مطلوبیت در علم اقتصاد و کاربرد رگرسیونی تفاضل تابع مطلوبیــت مباحثی را مطرح نمودیم .حال چگونه باید دو موضوع فوق را به یکدیگر پیوند بدهیم؟ برای پاســخ به این پرسش ،فرض کنید که Yiتابع مطلوبیت متفاوت برای افراد مختلف ( )iاســت که بین انتخاب 1یا صفــر ماندهاند .این موضوع قابل مشاهده نیست .حاال چگونه میتوانیم انتخاب فرد iرا بهصورت واقعی مشاهده کنیم!؟ فرض کنید Di = 1اســت اگر انتخاب برابر با 1باشــد (برای مثال فرد i برقراری یک رابطه را انتخاب کند) و Di = 0اســت اگر صفر انتخاب شــود. رابطه بین Yو Dبهطور خالصه در معادالت زیر منعکس شده است:
تحلیل دادههای اقتصادی
208
صفر برای هر فرد برابر اســت با یک منهای احتمــال انتخاب گزینه .1آنچه کــه الگوهای انتخاب کیفی انجام میدهند این اســت که احتمال یک انتخاب مشــخص را محاســبه نموده و بهعنوان متغیر وابســته ،Y ،آن را در الگو وارد مینمایند .از آنجاکه چنین محاسبهای با ریاضیات احتماالت انجام میشود ،آن را به پیوســت 8-1انتقال دادیم .حاال خالصهای از نحوه انجام این کار را برای درک شهودی شما وارد میکنیم. دو الگــوی انتخاب کیفی اصلــی پروبیت و لوجیت نامیده میشــود .در رگرســیونی که متغیر وابسته آن Yاســت ،این دو الگو فروض مختلفی را در مورد جمله خطــا اعمال میکنند .بههمین دلیل آنهــا از فرمولهای مختلفی بــرای احتماالت انتخاب بهره میبرند .نحوه برآورد الگوی لوجیت و پروبیت برگرفته از مفاهیم اقتصادســنجی خاصی اســت که فراتر از سطح این کتاب میباشــد .با این حال ،بســتههای نرمافزاری بهصورت خودکار این الگوها را برای شما برآورد میکنند .با توجه به درکی که از این مطالب بهدست خواهید آورد ،قادر خواهید شد که با الگوهای لوجیت و پروبیت کار کرده و نتایج آن را تفسیر کنیم.
فرایند برآورد
برای درک فرایند برآورد الگوها این مطالب را دنبال کنید .فرمول مورد استفاده برای احتماالت انتخاب با روش لوجیت و پروبیت به ضرایب وابسته است .مقادیر لوجیت و پروبیت برای β1 …βkبهگونهای انتخاب میشود که احتماالت انتخاب تا جایی که ممکن است به مقادیر واقعی انتخاب نزدیک باشد .برای مثال ،فرض کنید که تنها یک متغیر توضیحی وجود دارد که ضریب آن βاست و Di = 1است که یعنی فرد i گزینه 1را انتخاب نموده است .یعنی اگر در الگوی پروبیت β = −20باشد ،آنگاه =Pr (D=i 1 Pr (D=i 1=) 0.20خواهد شــد و اگر β =20باشد) 0.90 ، میگردد .بر اساس الگوی پروبیت β =20 ،گزینش بسیار بهتری برای ضریب است. فــرد iدر واقع گزینه 1را انتخاب نموده اســت بنابراین اگر انتخاب ضریب الگو
209
فصل :8الگوهای انتخاب کیفی
بهگونهای باشد که شانس 90درصدی در انتخاب گزینه 1را به فرد بدهد بسیار بهتر از این است که احتمال 20درصدی را به این انتخاب پیوند بزند .بههمین دلیل است که در الگوی پروبیت ضریب β =20گزینش میشود .الگوی پروبیت همین رویه را برای همه ضرایب انجام میدهد .یعنی در همه ضرایب ،نزدیکترین مقدار احتمال به مقدار واقعی گزیده میشود .اقدام مشابهی در الگوی لوجیت نیز انجام میشود. در رگرسیونهای معمولی ،نیکویی برازش با R2محاسبه میشود .در الگوهای لوجیت و پروبیت ،هیچ معیار سادهای برای نیکویی برازش وجود ندارد و معیارهایی که مانند R2که بهسادگی تفسیر میشوند در این الگوها به کار نمیآیند .اما معیارهای دیگری برای این الگو وجود دارند که آنها را شبه R2 -مینامند و کارکرد تا حدودی مشــابه دارند .ما در اینجا قصد توضیح این معیارها را نداریم ولی بدانید که همه بستههای نرمافزاری که قادر به برآورد الگوی لوجیت و پروبیت هستند ،میتوانند این معیارها را محاسبه کنند .اگر در نحوه تفسیر معیارهای نیکویی برازش ویژه لوجیت و پروبیت به روش مشــابه رگرسیونهای معمولی عمل کنیم ،راه خیلی غلطی را انتخاب نکردهایم .یعنی هرقدر این معیارها به 1نزدیکتر باشــند نشان میدهد که برازش بهتری انجام شده است و هرقدر به صفر نزدیکتر باشند نشان میدهد که برازش چندان مناسب نبوده است. بستههای نرمافزاری احتماالت انتخاب را برای همه مشاهدات محاسبه میکنند. این کار میتواند تا حدودی نحوه برازش الگوی لوجیت و پروبیت را روشن کند .اگر هر یک از این الگوها ) Pr (Di = 1را باال برآورد کند ،نشان میدهد که فرد iتمایل زیادی دارد که گزینه 1را انتخاب کند .بهطور کلی اگر Pr (D=i 1) > 0 / 5باشد، آنگاه الگو این انتظار را ایجاد میکند که Di = 1است و اگر Pr (D=i 1) ≤ 0 / 5 باشــد ،آنگاه بر اساس الگو انتظار داریم که Di = 0اســت .اگر پیشبینی الگو با واقعیت انتخابهای فرد iهمخوانی داشته باشد ،آنگاه برازش بهخوبی انجام شده است .اغلب بستههای نرمافزاری بهصورت خودکار تعداد پیشبینیهای درست را مشــخص میکنند و این نشان میدهد که الگوی پروبیت و لوجیت چقدر خوب، مشاهدات را برازش نمودهاند.
آزمون فرضیه
تحلیل دادههای اقتصادی
210
در رگرســیونهای معمولی در مورد آزمونهای فرضیه توضیحاتی داشــتیم. بهطور ویژه برای آزمون اینکه ضرایب رگرســیون برابر با 1هســتند یا نه از آماره tاستفاده میشده اســت .بهخاطر دارید که ضرایب وقتی معنیدار تلقی میشدهاند که P-valueکمتر از ســطح خطای انتخابی (معموال )0/05باشد. همه بستههای نرمافزاری که الگوی لوجیت و پروبیت را برآورد میکنند ،مقدار P-valueرا برای آزمون برابری با صفــر ارائه میدهند .بنابراین راه همواری برای دســتیابی به برآورد ضرایــب در الگوهای لوجیت و پروبیت وجود دارد کــه آزمون فرضیه برابری با صفر آنها هم چندان پیچیده نیســت .با توجه به مباحث فوق ،تفســیر ضرایب β1 … β kدر الگوی لوجیت و پروبیت دشوار اســت .اما بستههای نرمافزاری به شــکل متفاوتی اثر نهایی را در این الگوها محاســبه میکنند که درک آنها را تا حدودی ساده میکنند .بهخاطر دارید که در رگرســیونهای معمولی به دنبال این نکته هستیم که «میزان تغییر Yناشی از تغییر Xچقدر است؟» پاســخ به این سوال هم ضریب βاست .با الگوهای انتخاب کیفی ،ما این ســوال را تغییر میدهیم به شــکلی که« :چقدر احتمال انتخاب کردن گزینه 1تغییر مییابد وقتی که شما Xرا تغییر دهید؟» اما پاسخ دادن به این ســوال بهراحتی یافتن βنیســت .برای خوانندگانی که با تئوری احتماالت آشنایی دارند ،مطالعه پیوست 8-1برای درک جزئیات بیشتر ،مفید خواهد بود .کاربران الگوهای لوجیت و پروبیت باید این موضوع را بدانند که بستههای نرمافزاری قادر به محاسبه اثر نهایی هستند. بــه نکته آخر این فصل توجه کنید .فرمولی که برای محاســبه اثر نهایی X در انتخاب گزینه 1اســتفاده میشــود به خود Xوابسته است .بهعنوان مثال به تمرینی توجه کنید که افراد در معرض انتخاب خودروی شــخصی و وســائل نقلیه عمومی بودند که در آن Xمدت زمان سفر از خانه به محل کار است .اثر نهایی که سفر 30دقیقهای بر احتمال انتخاب گزینه 1میگذارد با اثری که سفر 60دقیقهای میگذارد متفاوت اســت .از این رو است که محاسبه اثر نهایی به
Xبستگی دارد .بهطور معمول در نرمافزارها ،برای محاسبه اثر نهایی یک مقدار متوسط را برای متغیر توضیحی در نظر میگیرند. آخرین ســوالی که ممکن اســت برایتان پیش بیاید این است که کجا باید از الگوی لوجیت استفاده شود و در کجا الگوی پروبیت؟ صادقانه بگویم ،در بسیاری از مطالعات تجربی هیچ تفاوتی نمیکند که شما از کدام الگو استفاده کنید .الگوهای لوجیت و پروبیت عموما نتایج بسیار مشابهی ارائه میدهند .با این وجود باید اشاره کنیم که آزمونهای مختلفی برای انتخاب یکی از این الگوها وجود دارد که با اندکی مطالعه در کتابهای تخصصی میتوانید با آنها آشنا شوید.
دادههایــی که در در تمرین 8-1تعریف شــدهاند را میتوانید در فایل AFFAIR.XLSبیابید .متغیر وابســته AFFAIRاست و سایر متغیرها
توضیحی هستند .جدول 8-1نتایج برآورد الگوی لوجیت را با استفاده از این دادهها نشان میدهد:
جدول .8-1نتایج برآمده از الگوی لوجیت متغیر
ضریب لوجیت
P-value
اثر نهایی
عرض از مبداء
-1/290
0/074
-
MALE
0/246
0/257
0/043
YEARS
0/049
0/025
0/009
KIDS
0/439
0/124
0/073
RELIG
-0/893
0/000
-0/151
EDUC
0/014
0/747
0/003
HAPPY
-0/869
0/000
-0/166
ســتون دوم بــرآورد ضرایب β1 …βkرا برای هر یــک از متغیرهای
211
فصل :8الگوهای انتخاب کیفی
مثال 8-2انتخاب برای داشنت رابطه (مدل الجیت)
توضیحی نشان میدهد .بهخاطر داشته باشید که ضرایب لوجیت بهطور
مستقیم اثر نهایی را اندازه نمیگیرند و بههمین دلیل تفسیر آنها دشوار اســت ولی میتوانیم عالمت ضرایب را تفسیر کنیم .ضرایب مربوط به
RELIGو HAPPYمنفی هســتند که یعنی افرادی که مذهبی هستند
و زندگی زناشــویی شادی دارند ،کمتر تمایل به رابطه نامشروع دارند. ضریب YEARSمثبت است که یعنی با افزایش سالهای ازدواج ،امکان
رابطه نامشروع نیز بیشتر میگردد .مرور p-valueبرای آزمون فرضیه برابری با صفر ضرایب نشــان میدهد که ضرایب مربوط به YEARS، RELIGو HAPPYاز نظر آماری معنیدار است اما ضرایب MALE،
KIDSو EDUCمعنیدار نمیباشند .یعنی میتوانیم نتیجه بگیریم که
تحلیل دادههای اقتصادی
جنســیت ،تحصیالت و تعداد فرزندان اثر معنیداری بر رابطه نامشروع 212
ندارند .اعدادی که در ستون آخر قرار دارد «اثر نهایی» از اهمیت ویژهای
برخوردار اســت .اینها اثر هر یــک از متغیرهای توضیحی بر احتمال وجود یک رابطه نامشــروع را توضیح میدهند .بــرای مثال اثر نهایی 0/009برای متغیر YEARSمیتواند به این شــکل تفســیر گردد :اگر
طول مدت یک ازدواج یک سال افزایش یابد ،احتمال رخداد یک رابطه نامشــروع 0/009واحد بیشتر میشــود (با این فرض که سایر متغیرها
ثابت باشــند) .اگر احتماالت را بهصورت درصد بیان کنیم ،باید بگویم که این احتمال 0/9درصد بیشتر میشود (تقریبا 1درصد).
دو متغیــر توضیحی مجازی RELIGو HAPPYدر الگو وجود دارند که میتوان آنها را اینگونه تفسیر نمود .مذهبی بودن یک فرد ،احتمال رابطه
نامشروع را 15درصد کاهش میدهد .با فرض ثبات شرایط ،رابطه زناشویی
شــاد موجب کاهش رابطه نامشروع به اندازه 17درصد میشود .در مورد نیکویی برازش ،الگوی لوجیت میتواند 75/2درصد مشاهدات را بهدرستی
پیشبینی نماید .جدول 8-2تمرین 8-2را با الگوی پروبیت تکرار میکند. این نتایج ب ه جزئیات مورد بررســی قرار نمیگیرد ،چراکه بهجز یکی باقی ضرایب بسیار شبیه الگوی لوجیت بودهاند .ستونهای مربوط به p-value
و اثــر نهایی در این جدول با جدول لوجیت در یکجا قرار دارد .ضرایب
الگوی لوجیت تا حدودی با ضرایب الگوی پروبیت متفاوت است ،اما باید
به این نکته توجه داشته باشید که مقدار ضرایب این دو الگو با هم قابل قیاس
نیستند و هر یک با روش خاص خود محاسبه شدهاند. جدول 8-2 عرض از مبداء
-0/738
0/079
-
MALE
0/150
0/233
0/046
YEARS
0/029
0/026
0/43
KIDS
0/249
0/124
0/009
RELIG
-0/510
3/31×10
-0/151
EDUC
0/006
0/808
0/003
HAPPY
-0/514
3/42×10
-0/166
-5
-3
مترین 8-1
مجموعه داده در COMPUTE.XLSشــامل دادههای N=390نفر اســت که از
خودرو شــخصی یا وســائل نقلیه عمومی برای رفتن به سر کار استفاده میکنند. شکل دادهها به این نحو است که:
:Choice -1اگر صفر باشد یعنی فرد با وسایل نقلیه عمومی به سر کار میرود و
اگر 1باشد ،با خودرو شخصی.
:Income -2درآمد (هزار دالر)
213
فصل :8الگوهای انتخاب کیفی
متغیر
ضریب لوجیت
P-value
اثر نهایی
:Distance -3فاصله تا محل کار (به مایل)
الف .الگوی لوجیتی را برآورد نمایید که متغیر وابســته مجازی ( )Choiceباشــد و
متغیرهای Incomeو Distanceمتغیر توضیحی باشد .عالمت ضرایب را تفسیر کنید. ب .مقادیر پیشبینی و مقادیر واقعی برای هر فرد را نشان دهید و آنها را مقایسه کنید.
ج .بخش الف و ب را با الگوی پروبیت تکرار نمایید.
مترین 8-2
مجموعه دادههای SMOKING.XLSبخشی از دادههای استفاده شده در مقاله موالهی
( )Mullahy,1997در زمینه سالمت کودکان است .در این تمرین ما بر روی تصمیم سیگار کشــیدن یا نکشیدن متمرکز شــدهایم .مجموعه دادهها در این بررسی شامل
N=1196مرد میشود .متغیر وابسته یک متغیر مجازی است که برای سیگاریها عدد
تحلیل دادههای اقتصادی
1و برای غیرسیگاریها صفر است .متغیرهای توضیحی عبارتند از: 214
:eduتعداد سالهای تحصیل :ageسن به سال
:incomeدرآمد خانوار به دالر آمریکا
الــف .الگوی لوجیت را تخمین بزنید و معنیداری هــر یکی از ضرایب را مورد
بررسی قرار دهید.
ب .عالمت هر یک از ضرایب چه بوده است؟ این ضرایب چه چیزی را در مورد
اثر هر یک از متغیرهای توضیحی بر سیگاری شدن را به ما میگویند؟
ج .اثر نهایی هر یک از متغیرهای توضیحی بر احتمال ســیگاری شدن را محاسبه
کنید .این آثار نهایی را تفسیر نمایید.
د .مراحل الف تا ج را با الگوی پروبیت تکرار نمایید.
ه .نتایج الگوی لوجیت و پروبیت را مقایسه کنید .آیا نتایج مشابهی در مورد عوامل
موثر بر سیگاری شدن ارائه میدهند.
و .اگر تعــداد پیشبینیهای صحیح در الگوهای لوجیت و پروبیت را بســنجیم،
کدامیک از این الگوها برازش بهتری دارد؟
خالصه فصل
پیوست 8-1
در متن کتاب مطالبی پیرامــون اهمیت احتماالت انتخاب و نقش آن در الگوهای انتخاب کیفی مطالبی گفته شد .احتماالت انتخاب ،بنیاد محاسبه اثر نهایی در بستههای نرمافزاری اســت .این پیوست ،به موضوع احتماالت انتخاب و روش محاسبه اثر نهایی در الگوی لوجیت میپــردازد .ما پیرامون الگوی پروبیت صحبتی نخواهیم داشت .مشتقات این الگو شبیه لوجیت است اما تفاوت در این است که مبنای توزیع در پروبیت ،توزیع نرمال اســت .توزیع نرمال در اینجا مورد بحث قرار نمیگیرد. خوانندگان عالقهمند و آشــنا به مباحث احتمــاالت میتوانند مراحل زیر را برای
215
فصل :8الگوهای انتخاب کیفی
-1اگر یک الگوی رگرســیونی دارای متغیر وابســته مجازی باشد ،الگوهای بــرآورد حداقل مربعــات معمولی دیگر بهکار نمیآیند و بایــد به جای آن از الگوهای لوجیت و پروبیت استفاده نمود. -2الگوهــای لوجیت و پروبیت در مفاهیــم اقتصادی مبتنی بر انتخاب بهکار میآیند .افراد کوشش میکنند تا گزینهای را انتخاب نمایند که مطلوبیتشان بیشترین شود .تفاوت مطلوبیت بین دو گزینه بهعنوان متغیر وابسته شناخته میشود. -3الگوهــای لوجیت و پروبیت در بســتههای نرمافزاری بهراحتی برآورد میشوند ولی تفسیر ضرایب آنها پیچیده است ،چراکه متغیر وابسته مطلوبیت است که قابل مشاهده نیست. -4بستههای نرمافزاری معیارهای مشخصی برای نیکویی برازش و همچنین آزمون فرضیه ارائه میدهند. -5در الگوهایــی که با احتماالت انتخاب کار میکنند ،غالبا اثر نهایی مورد استفاده قرار میگیرد .این اثر نهایی در بستههای نرمافزاری محاسبه میگردد و به این شکل تفســیر میگردد که یک واحد تغییر در متغیر توضیحی چقدر بر احتمال انتخاب گزینه 1اثر میگذارد (با فرض اینکه سایر متغیرهای توضیحی ثابت باشد).
الگوی پروبیت تکرار کنند .برای ادامه بحث از یک الگوی ساده به شکل زیر استفاده نمودیم .مطابق با بحثی که پیرامون جایگاه الگوهای انتخاب کیفی در علم اقتصاد داشتیم ،متغیر وابسته در معادله زیر ،Y ،تفاوت مطلوبیت بین دو انتخاب خواهد بود: = Yi β Xi + ei
مسالهای که در مورد Yوجود دارد این است که این متغیر غیرقابل مشاهده است و بههمین دلیل تمرکز بر روی احتمال انتخاب قرار میگیردPr (Di = 1) : = . Pr (Diمیدانیم که فرد iگزینه 1را انتخاب میکند = )0 = 1 − Pr (Di و )1 اگر تفاضل مطلوبیت مثبت باشد .به بیان ریاضی: ) Pr (Di =1) =Pr ( Yi > 0 ) =Pr ( βXi + ei > 0 ) =Pr(ei > −βXi
تحلیل دادههای اقتصادی
216
به عبارتــی ،فرد iگزینه 1را انتخاب مینماید اگر جزءخطای رگرســیون بزرگتر از −βXiباشــد .ما میتوانیم از این قواعد احتماالتی برای دستیابی به یــک فرمول کمک بگیریم .الگوهای انتخاب کیفی مختلف از تفاوت در توزیع احتماالتی فرضی ناشی میشود .در الگوی پروبیت فرض بر این است که توزیع جزءخطا نرمال است و در الگوی لوجیت فرض بر این است که جزءخطا دارای توزیع لجســتیک اســت .از آنجاکه در این کتاب صحبتی از انواع توزیعهای احتماالت نشده است ،تنها چیزی که باید بدانید این است که در الگوی لوجیت، توزیع احتماالت از شکل زیر پیروی مینماید: ) exp ( βXi
) 1 + exp ( βXi
=Pr (D=i 1 )
نرمافزارهای اقتصادسنجی از فرمول باال برای تخمین ضرایب لوجیت استفاده میکنند .از این فرمول میتوان برای تفسیر نتایج به دو شکل زیر بهره برد: نخســت اینکه ،همانطور که در متن اصلی توضیح دادیم ،تفسیر ضریب βبهصورت مستقیم دشوار اســت ،چراکه ما عادت داریم ضرایب رگرسیونی را بهصورت اثر نهایی تفســیر نماییم .حال در الگوهای باال باید با محاسبه اثر نهایی در نهایت بتوانیم به این ســوال پاســخ دهیم که «اگر Xیک واحد تغییر
یابد ،احتمال انتخاب گزینه 1چقدر تغییر خواهد یافت؟» در الگوهای لوجیت، میتوانیم اثر نهایی را به شکلی دیگری محاسبه کنیم که بر مبنای «شانس» قرار گیرد .این شانس بر اساس احتمال وقوع دو رخداد تعیین میشود .در الگوهای کیفی «شانس» بهشکال زیر است: )Pr (Di = 1
) Pr (Di = 0
= odds
در الگوهای لوجیت ،نرخ شانس بهسادگی برابر میشود با:
odds ) = exp ( βXi
بر اساس ویژگیهای توابع نمایی و لگاریتمی میتواند به فرمول زیر رسید: ln ( odds ) = βXi
) exp ( 30β
) 1 + exp ( 30β
=( Pr D 1|X = 30 = )
217
فصل :8الگوهای انتخاب کیفی
همانطور که در باال دیده میشــود ،ضریب βکه تفسیر مستقیم آن دشوار اســت ،در الگوهای لوجیت میتواند دارای تفسیر مشخص شود .به این شکل که βدر غالب لگاریتم شــانسها ،یک اثر نهایی بهشمار میرود .بر این اساس میتوانــد اینگونه بیان کرد« :اگر Xیک واحــد تغییر یابد ،آنگاه لگاریتم نرخ شــانس به اندازه βواحد تغییر خواهد یافت ».هرچند این تفســیر نیز ممکن است برای خیلیها ساده به نظر نرسد (برای اغلب مردم عبارت لگاریتم شانس گیجکننده اســت) .روش دومی که فرمول لوجیت در احتماالت انتخاب بهکار ما میآید ،محاسبه احتماالت در نحوه انتخاب هر فرد است .برای مثال به مثال حملونقل بازگردیم که در آن وقتی D=1باشــد ،فرد برای رفتن به سر کار از خودروی شخصی اســتفاده میکند و Xنشــانگر مدت زمان رسیدن به محل کار (به دقیقه) اســت .بر اساس برآورد الگوی لوجیت در مثال این فصل ،شما میتوانید با اســتفاده از فرمول لوجیت ،احتمال اینکه یک فرد در فاصله زمانی 30دقیقهای تا محل کار از خودروی شخصی استفاده نماید را محاسبه کنید:
و احتمــال اینکه فردی بــا فاصله 60دقیقهای از محــل کار از خودروی شخصی استفاده نماید برابر است با: ) exp ( 60β
) 1 + exp ( 60β
=( Pr D 1|X = 60 = )
در فرمولهــای باال ،میبایــد ضریب βمیباید با مقدار برآورد شــده آن جایگزین گردد .بهخاطر داشته باشــید که نحوه محاسبه احتمال انتخاب برای هر فرد در بستههای نرمافزاری با روشی که بهطور مشخص در باال نوشته شده است تا حدودی متفاوت است .معموال در نرمافزارها برای رسیدن به محاسبات فوق به یکی دو خط کدنویســی نیاز است .البته این کار سختی نیست ولی به تالشی بیشتری از «تنها فشردن یک دکمه» نیاز خواهد داشت. تحلیل دادههای اقتصادی
218
منابع
الگوهای انتخاب کیفی:8 فصل
Fair, R. (1978) «A theory of extramarital affairs», Journal of political Economy, 86(1): 45-61. Mullahay, J. (1997) «Instrumental-variable estimation of count data models: Application of models to cigarette smoking behavior», Review of Economics and Statistics, 79(4): 586-593.
219
بســیاری از حوزههای اقتصادی (مانند اقتصاد کالن و اقتصاد مالی) نیازمند به پردازش دادههای ســریزمانی هستند .شــاید تا کنون متوجه شده باشید که در تمامی مثالهای فصول 3تا 8از دادههای مقطعی اســتفاده شده است .البته نویسنده بهصورت عمدی در 6فصل گذشته از دادههای مقطعی استفاده نموده است چراکه اجرای مدلهای قبلی نیازی به دادههای سریزمانی نداشته است. اما هدف این فصل ورود به دادههای ســریزمانی اســت و همچنین توضیح خواهیم داد که چرا در فصول قبل از بحث درباره ســریزمانی اجتناب شــده است .پس از این مقدمه بر روی سادهترین ابزار عملیات با دادههای سریزمانی، الگوهای با وقفه توزیعی ،1متمرکز میشویم. مقصود اقتصاددانان از پردازش دادههای سریزمانی بهمانند دادههای مقطعی یافتن رابطهای مشــخص بین متغیر وابســته و متغیرهای توضیحی میباشد که البته یافتن این رابطه با رگرســیون امکانپذیر اســت .اما در پردازش دادههای سریزمانی ،اقتصاددانان با دو مساله اساسی روبهرو هستند که پیش از این و در مواجهه با دادههای مقطعی وجود نداشــت .نخست اینکه دادههای سریزمانی 1- Distributed lag models
221
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
فصل 9 رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
تحلیل دادههای اقتصادی
222
ممکن اســت با وقفه بر یکدیگــر اثر بگذارند .دوم آنکــه در صورت وجود نامانایی 1در دادهها ،ممکن است با رگرسیون کاذب 2روبهرو شویم. تا اینجا از خوانندگان کتاب انتظار نمیرود که مســاله دوم را درک کنند. عبارات نامانایی و رگرســیون کاذب بهصورت کامل در ادامه مباحث این کتاب تشریح خواهد شد .اما فعال بهعنوان یک قاعده سرانگشتی بهخاطر داشته باشید که از دادههای ســریزمانی نامانا نمیتوانیم در رگرســیون استفاده کنیم بلکه میباید قبل از اجرای مدل این دادهها را به وضعیت مانا تبدیل نماییم .البته یک اســتثناء وجود دارد و آن زمانی است که دادههای سریزمانی با یکدیگر رابطه همانباشــتگی 3داشته باشــند .در ادامه همه این مفاهیم شفاف خواهد شد ولی احتماال تا به اینجا از دیدن واژههایی که بدون تعریف رها شــدهاند سردرگم شده باشید .شاید توجه به نکات زیر راهگشا باشد. هنگام کار کردن با دادههای سریزمانی مشکالتی رخ میدهد که پیش از این با آنها درگیر نبودهایم .این مســائل موجب شده است که بهکارگیری دادههای سریزمانی در رگرسیونهای چندگانه (که در فصول 4تا 7با دادههای مقطعی بررسی شده بود) بهسادگی قبل نباشد .هدف فصول 9تا 12این است که شیوه صحیح وارد کردن سریزمانی در رگرسیونهای چندگانه را آموزش دهد .برای شروع در این فصل فرض میکنیم که همه سریهای زمانی مانا هستند .در فصل بعد به مفهوم نامانایی در رگرسیون کاذب خواهیم پرداخت .در این فصل بدون توجه به مشــکل رگرسیون کاذب تنها به این مهم متمرکز میشویم که چگونه متغیرهای سریزمانی با وقفه بر یکدیگر اثر میگذارند. هنگامی که یک رگرسیون برآورد میشود ،عالقهمندیم که اثر یک یا چند متغیر توضیحی را بر متغیر وابسته بررسی نماییم .اما در مورد سریزمانی باید دقت کنیم -1واژه « »nonstationaryدر برخی از مطالعات فارســي به واژه نامانايي ترجمه شــده است و در برخي ديگر به واژه ناپايداري .در اين كتاب از واژه نامانايي استفاده ميشود .به همين ترتيب واژه stationaryبه واژه مانايي برگردان خواهد شد. 3- Cointegration
2- Spurious regression
Yt = α + β0 Xt + β1Xt −1 + β2 Xt − 2 + … + βq Xt − q + et
الگوی فوق مشــابه رگرسیونهای چندگانه فصل 6است با این تفاوت که متغیرهای توضیحی مختلــف (مانند lot sizeتعداد حمام و تعداد اتاق) در آن وجود ندارد بلکه متغیر توضیحی تنها یک متغیر است که در زمانهای مختلف واقع شده اســت .در حقیقت عبارت 9-1تنها داری یک متغیر توضیحی ()X اســت که با وقفه مرتبه q 1تکرار شده است که به اصطالح میتوان گفت طول وقفه 2در این مدل qاســت .البته الزم به ذکر اســت که ما در این فصل تنها به مدلی اشــاره میکنیم که دارای یک متغیر توضیحی میباشد اما تمامی مطالب را میتوان به حالتی که چند متغیر توضیحی هم وجود داشــته باشند تعمیم داد. 2- Lag length
1- Lag order
223
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
که متغیرهای توضیحی ممکن است بالفاصله بر متغیر وابسته اثر نگذارند و مدتی به طول بیانجامد تا اثر خود را نشان دهد .برای مثال فرض کنید که بانک مرکزی به دلیل نگرانی از تورم ،نرخ بهره را افزایش دهد .نتیجه این اقدام بالفاصله مشخص نمیشــود .ممکن است یک سال طول بکشد تا اثر افزایش نرخ بهره بر متغیرهای کلیدی اقتصاد کالن (مانند بیکاری) مشخص شود .بهطور کلی اکثر ابزارهای پولی و مالی که در اختیار دولت قرار دارد برای اثرگذاری به زمان نیاز دارد .هرچند اینگونه موضوعات در اقتصاد کالن عمومیت بیشتری دارد ولی رخداد آن در فضای اقتصاد خرد هم امکانپذیر است .برای مثال تصمیم یک شرکت تولیدی برای سرمایهگذاری (برای مثال خرید سختافزارها و رایانههای جدید) بالفاصله بر میزان تولید شرکت اثر نمیگذارد .خرید ،نصب ،راهاندازی و آموزش کارگران به زمان نیاز دارد .بنابراین اثر سرمایهگذاری بر تولید این شرکت ممکن است با وقفه زمانی همراه باشد. حال به زبان رگرســیون اینگونه میتوان گفت که متغیر وابسته تنها با دوره جاری متغیر توضیحی در ارتباط نیســت بلکه با وقفههای آن نیز ارتباط دارد. سادهترین روش برای توضیح استفاده از مدلی با وقفههای توزیع شده است که در عبارت زیر قابل مشاهده است:
تحلیل دادههای اقتصادی
224
همچنین ذکر این نکته الزم است که مدل با وقفههای توزیعشده شبیه رگرسیون چندگانه است و بنابراین نکات مرتبط با این نوع رگرسیونها که در فصل 4تا 6ذکر شده بود در اینجا هم کاربرد خواهد داشت. در حال حاضر بستههای نرمافزاری قادر هستند ضرایب الگوی وقفه توزیعی را بــا روش حداقل مربعات معمولی بــرآورد کنند و مقدار ضریب را به همراه ســطوح اطمینان و p-valueبرای آزمون برابر با صفر بودن ضریب در اختیار قرار دهند .بهمانند قبل تفســیر ضریب اینگونه است که اثر متغیر توضیحی بر متغیر وابسته چگونه بوده است اما در این مورد باید به وقفه متغیر توضیحی هم توجه نماییم .برای مثال ضریب β2را میتوان به این شــکل تفسیر میشود که متغیر Xیک دوره قبل با فرض ثبات ســایر شرایط به اندازه β2بر Yاثر داشته است .به غیر از این موضوع جزئی ،سایر نکات مرتبط با تفسیر ضرایب بهمانند فصول قبل است. با وجود شباهت مدل وقفه توزیعی با رگرسیون چندگانه ،ارزش آن را دارد کــه این الگو را بهصورت جداگانه مورد بررســی قرار دهیم چراکه برای درک مفاهیم مرتبط با سریزمانی به ما یاری خواهد رساند .قبل از آنکه به شیوه کار کردن با الگوهای با وقفه توزیعشــده بپردازیم ذکر دو نکته الزم است .نخست در مورد نحوه محاســبه و قراردادن وقفهها در Excelاست که حتی اگر از این نرمافزار اســتفاده نمیکنید دانســتن آن مفید خواهد بود .دوم شیوه نوشتار در الگوهای سریزمانی است که در فصول بعد هم به آن نیاز خواهیم داشت.
متغیرهای باوقفه
مفهوم متغیرهای باوقفه موضوعی بنیادی در ســریزمانی است .از این رو الزم اســت تا با جزئیات بیشتری آن را بررسی نماییم و روش کار با آن را در رایانه فرا بگیریم .فرض کنید ما دادههای ســریزمانی متغیر Xtرا برای دوره زمانی t=1.2. … . Tدر اختیــار داریم .حــال فرض کنید که متغیر جدیدی به نام Wt ایجاد نمودهایم که دوره زمانی آن t= 2. … . Tاست و همچنین متغیر دیگری به
225
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
نام Z tکه برابر با Xt −1میباشد ( ) Z t = Xt −1برای این متغیر هم میباید از دوره زمانی t= 2. … . Tاستفاده نماییم .چرا از دوره زمانی t=1.2. … . Tبه جای =t 2. … . Tاستفاده نمیکنیم؟ چون در آن صورت Z1برابر با X0میشد حال آنکه مشــاهدات ما تنها از دوره t=1برای Xtدر دسترس است .بههمین دلیل دوره مشــاهدات از t=2آغاز میگردد .از این رو تعداد مشاهدات دو متغیر Wtو Z t به تعداد T-1است .بههمین ترتیب اگر Z t = X t − 2میبود ،تعداد مشاهدات T-2 میشد و دوره زمانی به t=3. … .Tتبدیل میگشت. اگر دو متغیر Zو Wرا بهمثابه دو ســتون اکســل در نظر بگیریم ،هر کدام دارای T-1عضو هســتند ولی در ســتون مربوط به Wاولین عضو X2اســت در حالیکه در ســتون مربوط به Z اولین عضو X1 ،خواهد بود .بههمین ترتیب دومین عضو این ســتونها X2و X3خواهد بود .به دیگر ســخن ،متغیر W شــامل Xاست و متغیر Zشامل Xیک دوره قبل است یا به عبارتی شامل Xبا وقفه یک اســت .بهطور کلی ما میتوانیم به شکل باال متغیر با وقفه یکم ،وقفه دوم یا وقفه jبرای Xتولید کنیم و به این شــکل تنها با تغییر تعداد وقفه ،متغیر توضیحی جدیدی را بر اساس Xتولید خواهیم کرد .همانطور که در فصل قبل از متغیرهای قیمت خانه ،تعداد اتاق یا تعداد حمام بهعنوان متغیرهای توضیحی استفاده نمودیم؛ در اینجا میتوانیم تنها با تغییر وقفه ،متغیر توضیحی جدیدی بســازیم و در الگو از آن استفاده نماییم .توجه کنید که اگر بخواهیم متغیرهای توضیحی گوناگونی را در یک رگرسیون چندگانه قرار دهیم باید مطمئن باشیم که تعداد مشاهدات در آنها برابر است. حال باید مفاهیم فوق را اجرا کنیم .فرض کنید رگرسیونی شامل متغیر توضیحی Xاســت که دارای jوقفه اســت .اگر دوره زمانی این متغیر t=1.2. … .Tباشــد، آنگاه تعداد مشاهدات برابر با T-jخواهد بود .باید مراقب باشیم که همه متغیرهای توضیحی شامل T-jمشاهده باشند .بهطور کلی در همه مدلهای سریزمانی ،تعداد مشاهدات باید شامل Tمشاهده منهای حداکثر تعداد وقفه باشد. بستههای نرمافزاری رایج اقتصادســنجی که در دسترس همگان قرار دارد
بهسادگی میتواند متغیرهای با وقفه را ایجاد نماید .کاری که انجام دادن آن در اکسل چندان آســان نیست .این دقیقا همان دلیلی است که موجب میشود در هنگام کارکردن با ســریهای زمانی استفاده از بستههای نرمافزاری راحتتر از اکســل باشد .هنگام کار کردن با اکسل باید در ابتدا تمامی متغیرهای با وقفه را تولید کنیم .برای مثال فرض کنید که تعداد مشــاهدات مربوط به Yو Xبرابر با 10عدد اســت و هدف ما اجرای رگرســیونی به شکل زیر است که شامل متغیرهای توضیحی ،Xوقفه نخســت ،Xوقفه دوم Xو وقفه سوم Xمیباشد. بنابراین هر متغیر میباید شامل 7مشاهده باشد. جدول 9-1
تحلیل دادههای اقتصادی
226
ستون A
ستون B
ستون C
ستون D
ستون E
Y
X
وقفه نخست X
وقفه دوم X
وقفه سوم X
ردیف 1
Y4
X4
X3
X2
X1
ردیف 2
Y5
X5
X4
X3
X2
ردیف 3
Y6
X6
X5
X4
X3
ردیف 4
Y7
X7
X6
X5
X4
ردیف 5
Y8
X8
X7
X6
X5
ردیف 6
Y9
X9
X8
X7
X6
ردیف 7
Y10
X10
X9
X8
X7
در نمودار 9-1هر یک از متغیرها را میتوان در ستونهای جداگانه مشاهده نمود .برای مثال به ردیف 4نگاه کنید .در این ردیف Xو Yشــامل متغیرهای دوره جاری هســتند ( ) t = 7, X7 , Y7وقفه نخســت Xبرابر با دوره قبل متغیر Xاســت .در این ردیف وقفه یکم Xبرابر با X6خواهد بود .ستونی که مختص وقفه دوم Xاست برابر با X5است و ستونی مربوطه به وقفه سوم Xبرابر با X4 میباشد.
شیوه نوشتاری
مهم اســت که شیوه نوشــتار ما برای ســریهای زمانی شــفاف باشد .برای مثال فرض کنید که Xنماینده متغیر جمعیت باشــد .حــال اگر بخواهیم پس از جمــعآوری دادهها ،این متغیر را بهعنوان یک متغیر مقطعی به کشــورهای مختلف اختصاص دهیم آنگاه به مانند فصل 2مینویسیم Xiکه i=1.2. … .N نماینده مقاطع مختلف است .در عینحال Xiنشاندهنده جمعیت در زمانهای t=1.2. … .Tاســت .در مباحث مطرحشده ما از فصل 4تا 7معموال رگرسیون به شکل زیر نوشته میشد: Y = α + βX + e
Yi = α + βXi + ei
برای مثال اگر Yرا متغیر جنگلزدایی در نظر بگیریم ،رگرســیون باال قطع درختان جنگلی در کشور iرا وابسته به جمعیت همان کشور iدر نظر میگیرد. در حقیقت قرار دادن اندیس iبه ما گوشــزد میکند که از بین رفتن پوشــش جنگلی در جامائیکا به جمعیت جامائیکا وابسته است و نه به جمعیت اوگاندا. اما شاید دیده باشید که در بسیاری از نوشتارها برای ساده شدن اندیس iحذف شده باشد. امــا به غیر از tو iکه بهعنوان اندیس در کنار متغیر قرار میگیرند ،هنگام استفاده از رگرســیونهای چندگانه (فصل )6دیدهایم که متغیرهای توضیحی مختلف را با Xk ، … ، X2 ، X1نشــان میدهیم که kتغییر متغیر توضیحی را نشــان میدهد .یعنی اندیس kبا مشــاهدات ارتباطی ندارد بلکه خود متغیر را در نظر میگیرد .برای مثال اگر بنویســیم ، X2iبه معنی مشــاهده iاز متغیر توضیحی دوم اســت .در برخی از بخشهای این کتاب اندیس iنوشته نشده اســت که البته این یک اشــکال عمومی در کتابهای اینچنینی است .برای
227
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
اما بهتر اســت در زمانی که دادههای مقطعی در اختیار داریم ،رگرسیون را به شــکل زیر بنویسیم .در این حالت نشان میدهیم که مشاهده iام متغیر Yبه مشاهده iام متغیر Xوابسته است.
نوشتار سریهای زمانی Xt − jبه یک مشاهده خاص اشاره میکند .برای مثال اگر t=1968و j=3آنگاه Xt − jبهطور مشــخص به مشاهده Xدر سال 1965 اشاره میکند .در نوشتار متغیرها میتوان از روشهای گوناگونی استفاده نمود و بههمین دلیل الزم اســت که هنگام تفســیر معادالت به محتوای متن و نوع اندیسها توجه نماییم.
مثال کاربردی :اثر دورههای آموزشی ایمنی بر حوادث
تحلیل دادههای اقتصادی
228
خســارتهای ناشی از حوادث صنعتی در شــرکتهای بزرگ میتواند قابل توجه باشــد .از این رو بسیاری از شــرکتهای دورههای مختلف آموزشی را در زمینه ایمنی برای کارکنان خود برگزار میکنند تا خســارتهای ناشــی از حوادث را کاهش دهند .آنها معموال مایل هستند تا اثر چنین دورههایی را بر کاهش خسارتهای شرکت بررسی نمایند .فایل اکسل SAFETY.XLSشامل اطالعات ســاعات آموزشی مربوط به ایمنی یک شرکت طی 5سال (یعنی 60 ماه) است .بهطور مشخص در این فایل متغیرها به شرح زیر است: .Yمیزان خسارت ناشی از حوادث (مقیاس اندازهگیری پوند در ماه) .Xساعات آموزش ایمنی که برای هر کارگر در هر ماه ایجاد شده است. انتظار بر این اســت که آموزشهــای ایمنی در ماههای گذشــته بر نرخ تصادفات دوره جــاری اثر بگذارد .بنابراین نیازمنــد اعمال وقفه در متغیر X خواهیم بود .جدول 9-2نتایج حاصل از برآورد OLSضرایب رگرســیونی را نشــان میدهد که در آن میزان خســارت دوره فعلی وابسته به آموزش ایمنی دوره فعلی و همچنین آموزشهای انجامشده طی چهار ماه گذشته میباشد. Yt = α + β0 Xt + β1Xt −1 + β2 Xt − 2 + β3 Xt −3 + + β4 Xt − 4 + e t
این شــرکت از نتایج ایــن تحقیق چه نتیجهای پیرامــون آموزشهای فنی دریافت میکند؟ -1افزایش یک ساعته آموزش فنی به هر کارگر موجب کاهش 145پوندی
جدول .9-2نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث انحراف معیار
آمارهt
p-value
حد پایین در سطح %95
حد باال در سطح %95
2001/17
45/96
0/000
87978/91
96024/11
Xt
-145/00
47/62
-3/04
0/0037
-240/70
-49/30
Xt-1
-462/14
47/66
-9/70
0/000
-557/91
-366/38
Xt-2
-424/47
46/21
-9/19
0/000
-517/33
-331/62
Xt-3
-199/55
47/76
4/18
0/000
-295/52
-103/58
Xt-4
-36/90
47/45
-0/78
0/44
-132/25
58/45
ضریب
عرض از مبدا 92001/51
فاصله اطمینان نیز به شکل استاندارد قابل تفسیر است .برای مثال در سطح اطمینان 95درصد اثر فوری آموزش بر کاهش خســارت با فرض ثبات سایر شرایط بین 49/30تا 240/70قرار دارد. برای درک بهتر فرض ثبات ســایر شــرایط میتوانیم نتیجه ( )2را اینگونه تفســیر کنیم که افزایش یک ساعته آموزش کارگران در یک ماه موجب کاهش 462/14پوندی خســارت در ماه بعد میشود .با این فرض که این کمپانی هیچ برنامه آموزش دیگری را (در ماههای قبل یا بعد) برگزار ننماید.
229
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
خسارت در همان ماه میشود( .با ثبات سایر شرایط) -2این آموزش موجب کاهش 462/14پوندی خسارت در ماه بعد میگردد. (با ثبات سایر شرایط) -3ایــن آموزش موجب کاهش 424/47پوندی خســارت در دو ماه بعد میشود( .با ثبات سایر شرایط) -4این آموزش موجب کاهش 199/55پوندی خســارت در ســه ماه بعد میگردد( .با ثبات سایر شرایط) -5این آموزش موجب کاهش 36/90پوندی خســارت در چهار ماه بعد میشود( .با ثبات سایر شرایط)
تحلیل دادههای اقتصادی
230
اگر نتایج آماری بهدســت آمده در جدول را بررسی کنیم ،خواهیم دید که همــه ضرایب از نظر آماری معنادار هســتند بهجز ضریب . β4مقدار p-value برای این ضریب 0/44اســت که کمتر از 0/05نیســت .همچنین میدانیم که فاصله اطمینان این ضریب شامل صفر میباشد. بنابراین ما نمیتوانیم فرض β4 =0را رد کنیم .بههمین ترتیب فرض بیتاثیر ش ایمنی در کاهش خســارت چهار ماه بعــد را هم نمیتوانیم رد بودن آموز نماییم .یعنی کارگران ،بعد از چهار ماه آموزشهای ایمنی را فراموش میکنند. این نتیجه میتواند برای شــرکت قابل استفاده باشــد و آنها را به این دیدگاه برساند که میباید آموزشهای دورهای ایمنی را الاقل هر چهار ماه داشته باشند. در مجموع دریافتهایم که اثر آموزشهای ایمنی بر کاهش خســارات در طول زمان به شکل سهمی است .اثر فوری آموزش بر خسارت اندک است (145پوند) بعد از آن طی دو ماه این اثر حدود ( 400پوند) است ولی بعد از سه ماه اثر آموزش به ( 200پوند) کاهش مییابد. بعد از چهار ماه نیز بهطور کل این اثر از میان میرود .توجه داشته باشید که اثر آموزش در یک ماه مشــخص نه تنها در آن ماه بلکه در ماههای بعدی هم موجب کاهش خسارت میشود .پس اگر بخواهیم اثر کلی آموزش بر کاهش خسارت را بررسی نماییم باید آنها را جمع کنیم (=36/90+199/55+424/47+462/14+145 1268/06پوند) که یعنی در مجموع 1268/06پوند فایده آموزش یکســاعته هر 1 کارگر میباشد طی 4ماه میباشد. با انجام این محاسبات شرکت اطالعات ارزشمندی را درباره نقش آموزشهای ایمنی بر کاهش خســارات بهدست میآورد که میتواند از آنها در جهت طراحی بهینه آموزش به کارگران استفاده نماید .اما این نتایج با این فرض حاصل شده است که مدل با وقفه توزیعی هیچ متغیر توضیحی را فراموش نکرده است .برای مثال ما در -1اين مبلغ تخمين كل فايده ناشي از آموزش ايمني است .اين امكان وجود دارد كه فاصله اطمينان را هم براي كل فايده بهدست آوريم اما اين كار كمي پيچيده است كه فراتر از اهداف اين كتاب است.
این مدل از وارد کردن متغیر Xt −5صرفنظر کردهایم .چراکه فرض بر این بوده است که آموزش ایمنی بعد از 5دوره اثر خود را از دست خواهد داد .اگر این فرض غلط باشد ،نتایج بهدست آمده از تخمین ضرایب رگرسیون غلط خواهد بود .این موضوع از یکسو به مباحث فصل 6در مورد متغیرهای توضیحی فراموششده بازمیگردد و از سوی دیگر اهمیت انتخاب صحیح تعداد وقفه را گوشزد مینماید .موضوعی که در ادامه به آن خواهیم پرداخت.
مترین 9-1
استفاده نمایید .این مجموعه داده شامل 60مشاهده میباشد .در باال توضیح داده شد که
Yخسارت ناشی از حوادث میباشد X .هم ساعات آموزش هر کارگر در ماه میباشد. (الــف) متغیرهای توضیحی مدل با وقفه توزیعی را برای طول وقفه 4تنظیم کنید.
در این حالت تعداد مشاهدات برای هر متغیر چند عدد خواهد بود؟
(ب) مدل با وقفه توزیعــی را برای طول وقفه 2بهصورت مجدد تنظیم کنید .در
این حالت تعداد مشاهدات چند عدد خواهد بود؟
(ج) با توجه به پاسخ گزینه (ب) ،ضرایب مدل با وقفه 2را تخمین بزنید.
د .بــا توجه به گزینه (ج) تفاوت نتایج بهدســت آمده از تخمین مدل با وقفه 2و
وقفه 4را شرح دهید .در این مورد بهصورت ویژه به موضوع متغیرهای توضیحی
فراموششده که در فصل 6پیرامون آنها بحث شد توجه کنید.
انتخاب مرتبه وقفه
هنگام اســتفاده از مدلهای با وقفه توزیعشده ضروری است که قبل از هر چیز تعداد وقفههای الزم برای اجــرای مدل را بدانیم .برای مثال در مثال قبل ،چرا باید فرض کنیم که تعداد وقفه در مدل 4اســت؟ چرا از مرتبه وقفه 6 ،3یا 8 نباید استفاده کرد؟ این موضوع با مثالهای فصول 4تا 7شباهت ندارد .در آنجا قبل از کار با کامپیوتر و پردازش دادهها نمیتوانستیم تشخیص بدهیم که کدام
231
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
از مجموعه دادههای SAFETY.XLSکه در مثال باال توضیح داده شد برای این تمرین
متغیر توضیحی در الگو باید وارد شود ولی در اینجا سوال این است که برای متغیرهای توضیحی انتخابشده باید چند وقفه را انتخاب کرد .واضح است که تشــخیص تعداد وقفه مناسب یک موضوع صرفا آماری است که باید بر اساس مشخصههای آماری در مورد آن تصمیمگیری کرد. در اقتصادســنجی روشهای متنوعی برای انتخاب تعداد وقفه بهینه وجود دارد .ما در این فصل به یک روش مرســوم و ســاده میپردازیم که بر اســاس دانســتههای فصل 5کتاب قابل دســتیابی اســت .این روش از آزمون tبرای βq =0در تعیین تعداد وقفه اســتفاده مینمایــد .روش عمومی برای این کار به این ترتیب اســت که الف .ابتدا با یک وقفه بلند که میتوانیم آن را βqmax نامگذاری کنیم شــروع میکنیم و آزمون tرا انجام میدهیم که آیا این ضریب برابر با صفر اســت( ) βq = 0؟ ب .اگر اینگونه بود ،بیشــینه وقفه را کنار میگذاریــم و آزمون را مجددا برای qmax = 1انجــام میدهیم .ج .اگر ضریب βq −1 = 0بــود آنگاه مجدد آزمون را برای یک وقفه کمتر انجام میدهیم .د. فرایند فوق را آنقدر تکرار میکنیم تا در نهایت به تعداد وقفهای برسیم که قادر به رد فرضیه برابری با صفر ضریب شویم. روش انتخاب وقفهای که در باال توضیح داده شد را میتوانیم بهشکل زیر و در چهار گام فرموله کنیم: گام نخست .ابتدا بیشینه وقف ه مورد نظر ، qmax ،را انتخاب میکنیم. گام دوم .الگوی با وقفه توزیعی زیر را برآورد مینماییم: max
تحلیل دادههای اقتصادی
232
max
Yt = α + β0 Xt + β1Xt −1 + … + βqmax Xt − qmax + et اگر p-valueبرای آزمون 0 = βqکمتر از ســطح معناداری مورد انتظار بود ،آنگاه به مرحله بعد نمیرویم و qmaxرا بهعنوان وقفه انتخاب میکنیم .اگر اینگونه نبود به مرحله بعد میرویم. گام سوم .مدل با وقفه توزیعی زیر را برآورد کنید. max
Yt = α + β0 Xt + β1Xt −1 + … + βqmax −1Xt − qax −1 + et
اگر p-valueبرای آزمون 0 = βq −1کمتر از سطح معناداری مورد انتظار بود ،آنگاه به مرحله بعد نمیرویم و qmax − 1را بهعنوان وقفه انتخاب میکنیم. اگر اینگونه نبود به مرحله بعد میرویم. گام چهارم .مدل با وقفه توزیعی زیر را برآورد کنید. max
Yt = α + βt Xt + β1Xt −1 + ... + βqmax −2 Xt −qmax −2 + et اگر p-valueبرای آزمون 0 = βq −2کمتر از سطح معناداری مورد انتظار بود ،آنگاه به مرحله بعد نمیرویم و qmax − 2را بهعنوان وقفه انتخاب میکنیم. اگــر اینگونه نبود به مرحله بعد میرویم .آنقدر این کار را تکرار میکنیم تا به تعداد وقفه بهینه برسیم. بهخاطر داشته باشیم که در زمان کار کردن با مدلهای با وقفه توزیعی ،اگر تعداد مشاهدات در اصل برابر با Tباشد ،وقتی qmaxانتخاب شود ،تعداد مشاهدات برابر با T − qmaxخواهد بود .زمانی که وقفه qmax − 1انتخاب شــود ،تعداد مشاهدات T − qmax + 1خواهد بود و بههمین شکل انتخاب وقفه qmax − 2تعداد مشاهدات را به T − qmax + 2میرساند .یعنی به اندازه تعداد وقفه ،مشاهدات از دست میرود. پس الزم است همواره این نکته را در نظر داشته باشیم که انتخاب وقفه خیلی بلند، موجب کاهش زیاد مشاهدات خواهد شد. max
فرض کنید که در ابتدا بیشــینه وقفه را برای مدل با وقفه توزیعی 4در
نظر گرفتهایــم .به این معنی که معتقدیم طول دوره 4ماه حداکثر زمان
مــورد انتظار برای اثرگذاری آموزشهای ایمنی بر حوادث اســت .بر اساس روشــی که در باال توضیح دادیم ابتدا مدل با وقفه توزیعی را با
وقفه 4برآورد مینماییم .همانطور که در جدول 9-2مشاهده میشود،
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
مثال :اثر دورههای آموزشی ایمنی بر حوادث (ادامه مثال قبل)
233
ضریــب مرتبط با وقفه 4اختالف معناداری با صفر ندارد چراکه اندازه p-valueبرای متغیر Xt-4از 0/05بزرگتر است و ما قادر به رد فرضیه β4 =0نیســتیم .بنابراین ،وقفه 4را رها نموده و مدل را دوباره با وقفه
3اجرا میکنیم که نتیجه آن در جدول ( )9-3نشان داده شده است. جدول .9-3نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث
ضریب
انحراف معیار
t
p-value
عرض از مبدا 55/02 1643/18 90402/22
0/000
حد پایین در سطح %95
حد باال در سطح %95
93699/51 87104/94
تحلیل دادههای اقتصادی
Xt
-125/90
46/24
-2/72
0/0088
-218/69
-33/11
Xt-1
-443/49
45/88
-9/67
0/000
-535/56
-351/42
Xt-2
-417/61
45/73
-9/13
0/000
-509/38
-325/84
Xt-3
-179/90
46/25
-3/89
0/0003
-272/72
-87/09
234
همانطور که مشاهده میشود p-value ،برای آزمون β3 =0تقریبا 0/0003 اســت که بسیار کمتر از 0/05میباشــد .پس ادامه فرایند را متوقف میکنیم و وقفه 3را برای مدل با وقفه توزیعی انتخاب مینماییم .نتایج بهدســت آمده در جدول 9-3تقریبا مشــابه جدول 9-2اســت و بههمین دلیل از تکرار تفسیر ضرایب خودداری میکنیم.
مترین 9-2
از دادههــای SAFETY.XLSاســتفاده کنید که در آن T=60اســت و Yمیزان
خســارت وارده در اثر حوادث را نشان میدهد و Xساعاتی که نیروی کار تحت آموزش ایمنی قرار گرفتهاند .فرض کنید که بیشینه وقفه مورد انتظار 6است که به
این ترتیب qmax = 6میشود .روش انتخاب وقفه که در باال توضیح داده شد را اجرا کنید و طول وقفه صحیح را انتخاب کنید.
مترین 9-3
اقتصاددانان توسعه ،عالقهمند به یافتن اثر تحصیالت و آموزش بر رشد اقتصادی
هستند .در عینحال آنها معتقدند زمان الزم برای ایجاد اثر مناسب و مثبت آموزش
بر رشد اقتصادی 5تا 10سال است .برای روشن شدن این موضوع اطالعات زیر
را در نظــر بگیرید و بر اســاس آن گزارش مختصری در مــورد نحوه اثرگذاری مخارج انجامشده در تحصیالت ابتدایی بر رشد اقتصادی بنویسید.
دادههای EDUC.XLSشامل دادههای ســاالنه برای یک کشور از سال 1910تا 1995است که شامل متغیرهای زیر میباشد.
اندازهگیری شده است.
.Xمخارج انجامشده در زمینه تحصیالت ابتدایی که مقیاس آن مخارج انجامشده
برای هر کودک زیر 16سال است.
خالصه فصل
-1رگرسیونی که شــامل دادههای سریزمانی است با دو مساله روبهرو است که در فصلهای قبل با آن برخورد نداشــتهایم .نخست آنکه متغیرها میتوانند بــا وقفه و در یکدیگر اثر بگذارند .دوم آنکه اگر متغیرها نامانا باشــند ،امکان شکلگیری رگرسیون کاذب وجود خواهد داشت. -2در یک مدل با وقفه توزیعی متغیر وابسته به متغیر توضیحی و وقفههای آن وابسته است. -3چنانچه متغیرهای مورد اســتفاده در یک مدل با وقفه توزیعی مانا باشد، میتوان از روش OLSبرای تخمین ضرایب اســتفاده نمود و همچنین آمارهها و P-valueبرای تعیین سطح اطمینان و معناداری ضرایب قابل استفاده است. -4مرتبــه وقفه در مدل با وقفه توزیعــی با روشهای مختلفی قابل تعیین است که از آن جمله آزمون tاست که با طوالنیترین وقفه منطقی و مورد انتظار آغاز میگردد.
235
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
.Yرشد تولید ناخالص داخلی ( )GDPاست که بهصورت درصد تغییر در هر سال
پیوست -9-1سایر مدلهای با وقفه توزیعی
تحلیل دادههای اقتصادی
236
مدل با وقفه توزیعی که در این فصل به آن پرداخته شــده است بسیار عمومی اســت .در این مدل هیچگونه قیدی بــرای مقدار ضرایب β0 .β1.….βqوجود ندارد .در حالیکه مدلهای دیگری در ادبیات اقتصادسنجی وجود دارد که دارای وقفههای توزیعی هستند ولی برای مقادیر ضرایب قیودی در نظر میگیرند .از آنجاکه کار کردن با این مدلها تا حدودی (با اکسل) دشوار است ،ما از بحث درباره آنها در متن خودداری نمودیم. مدلهای بسیاری هستند که برای توزیع وقفهها قیودی را در نظر میگیرند که از آن جمله میتوان به مدل وقفههای حســابی ،1مد ل وقفههای هندسی 2و مدل کویک 3اشاره نمود .اما ما درباره جزئیات این مدلها صحبت نمیکنیم .یک مدل چندوجهی با وقفه توزیعشــده 4یا وقفه آل ُمن 5میتواند نمایندهای از همه مدلهایی از این دست باشد که در ادامه با شرح آن به اهم موضوعات مرتبط با این مدلها آشنا خواهیم شد .یک مدل وقفه توزیعی چندوجهی مشابه الگوهای معمولی با وقفه توزیعی است ولی قید زیر در آن در نظر گرفته میشود: βi = γ 0 + γ1i + γ 2i2
به این ترتیب ضرایب مربوط به وقفههای توزیعشده با یک تابع درجه دوم مقید میشــود .البته تابع درجه دوم معروفترین روش برای این مدلها است ولی میتوان از قیود دیگری نظیر تابع درجه ســوم هم استفاده نمود .قید درجه دومی که در باال تعریف نمودیم دارای ســه ضریب جدید است γ 0 . γ1.…. γ q که مقادیر آن را نمیدانیم که باید تخمین زده شــود .توجه داشته باشید که اگر بتوانیم γ 0 . γ1و γ 2را بهدست آوریم ،میتوانیم از آنها برای یافتن مقادیر βiبرای i=1.2. … . qاستفاده نماییم .هنگامی که بتوانیم ضرایب ثانویه فوق را بهدست آوریم میتوانیم آنها را مانند قبل تفسیر کنیم. امــا چگونه میتوانیم ضرایــب γ 0 . γ1و γ 2را برآورد کنیم؟ بــرای این کار 3- Koyck model
2- Geometric lag model 5- Almon lag
1- Arithmetic lag model 4- Polynomial distributed lag
میتوانیم رگرســیون OLSاجرا نماییم اما بــا متغیرهای توضیحی غیرمعمولی برای q=3که مدل وقفه توزیعی آن به شکل زیر است: Yt = α + β0 Xt + β1Xt −1 + β2 Xt − 2 + β3 Xt −3 + et
اگر بتوانیم βiبر اساس قید درجه دوم را در عبارت باال جایگزین کنیم ،مدل با وقفه توزیع چندوجهی زیر صورت خواهد یافت: که در آن؛
Yt = α + β0 Vt + γ1Wt + γ 2 Z t + et
Wt =Xt −1 + 2Xt − 2 + Xt −3 Vt =Xt + Xt −1 + Xt − 2 + Xt −3
،
به دیگر ســخن ما میتوانیم به ضرایب γ 0 . γ1و γ 2از طریق رگرســیونی دســت یابیم که Yرا به V، Wو Zوابسته میکند که البته متغیرهای توضیحی V، Wو Zباید ساخته شود. حال میتوانیم دریابیم که مدلهای با وقفه توزیعی چندوجهی چیســت و چگونه باید برآورد شــود .اما هنوز مشــخص نیســت که در اساس چرا باید از چنین مدلهای اســتفاده کنیم .دو دلیــل عمده برای اعمال قیودی نظیر قیود چندوجهی در مدلهای با وقفه توزیعی وجود دارد: -1مدلهــای با وقفه توزیعی چندوجهی نیاز به بــرآورد ضرایب کمتری دارند .در حالتی که قید درجه دوم بهشــکل باال وجود دارد ،همواره سه ضریب γ 0 . γ1و γ 2وجود خواهد داشــت .در حالیکه در مدلهای با وقفه توزیعی q+1ضریب باید برآورد شوند .اما در عمل ممکن است الزم باشد که qبزرگ باشد (برای مثال در استفاده از دادههای ماهانه ممکن است به q=12نیاز داشته باشــیم تا تمامی وقفههای یک سال را در اختیار داشته باشیم) .تعیین وقفههای بلند در حالتی که تعداد مشــاهدات زیاد نیســت میتواند برآورد ضرایب را با مشکل مواجه کند. -2مدلهای با وقفه توزیعی ممکن است با مشکل همخطی روبهرو باشند (به فصل 6مراجعه کنید) .برای مثال ممکن اســت Xtو Xt −1همبستگی باالیی
237
فصل :9رگرسیون با وقفه زمانی :الگوهای با وقفه توزیعی
Z t =Xt −1 + 4Xt − 2 + 9Xt −3
تحلیل دادههای اقتصادی
238
داشته باشــند .برای مثال فرض کنید که Xنرخ بهره است .فرض کنید که نرخ بهره با سرعت اندکی در طول زمان تغییر مییابد که موجب میشود Xtو Xt −1 بسیار شبیه (یا حتی یکســان) باشند .این امر موجب همبستگی شدید و ایجاد همخطی میگردد .اما مدلهای با وقفه توزیعی چندوجهی معموال دچار مشکل همخطی نمیشــود .برای مثال در مثال بــاال V، Wو Zمثالهایی از متغیرهای توضیحی هستند که همبسته نیستند. به غیر از دو موضوع فوق ،بســیاری از حاالت با مشکل نامانایی متغیرهای توضیحی روبهرو هســتند که همچنان اســتفاده از مدلهای با وقفه توزیعی را دچار مشــکل میکند .این موضوع را در فصل 10مورد بحث قرار خواهیم داد و نشان خواهیم داد که بدون اعمال قید چگونه میتوان در چنین وضعی مشکل همخطی را حل نمود. نخستین منطقی که برای استفاده از قید چندوجهی وجود دارد زمانی است که تعداد مشــاهدات اندک باشد .اما در حالتی که تعداد قابل توجهی دادههای توضیحی وجود دارد که امروزه اغلب دادههای اقتصاد کالن از آن برخوردارند، نیازی به اعمال چنین قیدی نیســت .از سوی دیگر ،اعمال قیود برای ضرایب میتواند نتایج مدل را منحرف نماید به خصوص اگر قیدهای اعمالشده صحیح نباشــد .بهخاطر داشته باشید که βiاثر تغییر متغیر توضیحی بر متغیر توضیحی i دوره قبل بر مقدار کنونی متغیر وابســته نشان میدهد .اما ضرایب مدل با وقفه توزیعــی چند وجهی میباید قید درجــه دوم را هم در نظر بگیرد که در نتیجه ممکن است مقدار این ضرایب تفاوت بسیاری داشته باشند. در مجموع باید بگوییم که شرایط خاص و اندکی وجود دارد که ما را ناچار به اعمال قید در مدلهای با وقفه توزیعی نماید و بههمین دلیل در این فصل بر این موضوع تاکید نکردیم.
فصل 10 تحلیل رسیزمانی تک متغیره
239
فصل :10تحلیل سریزمانی تک متغیره
در فصل ،9مباحثی پیرامون الگوهای با وقفه توزیعی مطرح شــد .این مدلها نوع سادهای از رگرسیونهای قابل استفاده با دادههای سریزمانی هستند .مهم است بهخاطر داشته باشیم که در این الگوها فرض بر این است که متغیر وابسته ، Yt ،به متغیر توضیحی Xtو وقفههای آن x t −1, x t −2 ,…, x t −qوابســتگی دارد .این مدلها بهعنوان گام نخست در درک مفاهیم مهم سریزمانی مفید است .الگوهای با وقفه توزیعی در موارد بسیاری کاربرد دارد اما در دو حالت زیر دچار نقایصی است: )1متغیر وابسته ، Yp ،به وقفههای خودش هم وابسته باشد .همانطور که میتواند همزمان به x t −1, x t −2 ,…, x t −qوابسته باشد )2 .متغیرهای مدل نامانا باشند. در این فصــل و فصل بعد ،ابزارهای مختلفی را جهــت مواجهه با هر دو مشــکل فوق ارائه خواهیم داد و همچنین بهصورت کامل مفهوم «نامانایی» را تشریح خواهیم نمود .برای ســادگی متغیر Xرا از مدل حذف نموده و تنها به Yمیپردازیم .یعنی بهاصطالح آماری در این فصل به «ســریزمانی تکمتغیره» میپردازیــم .همانطور که این اصطالح نشــان میدهد ،با یــک متغیر و یک سریزمانی (برای مثال )Y=GDPروبهرو هستیم .همانطور که در ادامه خواهیم دید ،مهم اســت که پیــش از کار کردن با چند ســریزمانی ،مفاهیم مرتبط با ک سریزمانی را بیاموزیم. پردازش ی
مثال الف 10-1درآمد خانوارها در آمریکا
در شــکل 10-1ســریزمانی لگاریتم طبیعی درآمد شخصی یا همان
درآمــد خانوارهای آمریکایی طی دوره زمانی فصل اول 1954تا فصل چهارم 1944نشان داده شده است .یعنی Yt
درآمد شخصی آمریکا برای
t=1954Q1… .1994Q4است .دادهها در فایل INCOME.XLSدر
دسترس قرار دارند .مقیاس دادهها میلیون دالر است.
توجه دارید که ســریزمانی مورد بررســی در طول زمان با نرخ تقریبا
یکسانی رشد یافته است .البته نوسانات معدودی را (برای مثال کاهش
یکباره درآمد شخصی ناشی از رکود در میانه 1970و اوایل )1980در تحلیل دادههای اقتصادی
آن میتوان دید اما در مجموع به نظر میرسد که سریزمانی مانند یک
خط راست به سمت باال صعود کرده است .این حرکت یکنواخت (در
240
این مثال به ســمت باال) را روند مینامند .بسیاری از متغیرهای اقتصاد
کالن (مانند ،GDPســطح قیمتها ،تولید صنعتــی ،مصرف ،مخارج دولتی) روندهای اینچنینی را نشان میدهند.
در همین قســمت میتوان بهراحتی مفهوم تفاضلگیری را توضیح داد.
بهطور کلی
اگر ) 1.….T
= Yt ( tســریزمانی یک متغیر باشــد ،آنگاه
∆Yt = Yt − Yt −1تفاضل مرتبه نخســت آن خواهد بود و ∆Ytاندازه
تغییرات یا رشــد این متغیر را در طول زمان نشان خواهد داد .چنانچه
از سریزمانی
اصلی Yt
لگاریتم طبیعی بگیریم ،آنگاه ∆Ytدرصد تغییر
ســریزمانی اصلی را از زمان tتا t-1نشــان خواهد داد.
را «دلتا »Yیا «تغییرات »Yمینامند .بههمین شــکل Yt −1
معموال ∆Yt
را
« Yt
با یک
وقفــه»« ،وقفه »Yیا در این مثال «وقفه نخســت درآمــد خانوارها» یا
مینامند .در نمودار 10-2تغییرات درآمد شخصی آمریکا با استفاده از
دادههای INCOME.XLSرسم شده است.
نمودار 10-2تفاوت بسیاری با نمودار 10-1دارد .روندی که در نمودار
10-1مشاهده میشد در اینجا ناپدید شده است که البته این موضوع را در ادامه تشریح خواهیم کرد .نمودار 10-2نشان میدهد که رشد درآمد
شــخصی در هر فصل بهطور متوسط 1درصد بوده است ولی تغییرات قابل توجهی در رشد درآمد سرانه فصلی وجود داشته است .در برخی
دورههای رکودی این متغیر منفی شده است و در دورههای رونق رشد درآمد شخصی به %3یا %4هم رسیده است.
241
فصل :10تحلیل سریزمانی تک متغیره
جزئیات مربوط به لگاریتــم در عمومی کتابهای معمولی اقتصاد ریاضی تشریح شده است و همچنین در فصل دوم و چهارم این کتاب نیز به آن پرداخته شده است (بهویژه مباحث مربوط به رگرسیونهای غیرخطی را مالحظه نمایید). این پاورقی برای یادآوری این موضوع اســت .در اقتصاد کالن مرسوم است که سریهای زمانی دارای رشد در طول زمان را تحت لگاریتم طبیعی مورد بررسی Yبا نرخ رشد ثابتی در طول زمان تغییر یابد ،آنگاه قرار دهند .اگر سریزمانی ســریزمانی ) ln(Yبه مانند یک خط راســت صورتبندی خواهد شد .بهطور کلی در این حالت متغیر ) ln(Yرفتار بهتری خواهد داشــت .توجه داشته باشید که در رگرسیون لگاریتم متغیرها ،ضرایب مربوطه تفسیر کشش خواهند داشت. همچنیــن این موضوع قابل نشــان دادن اســت که ) ln ( Yt ) − ln ( Yt −1بهطور تقریبی برابر با درصد تغییر Yطی دوره tو t-1است .به همه این دالیل مناسب اســت که در اغلب موارد از لگاریتم ســریهای زمانی استفاده شود .همچنین توجه داشته باشید که در بسیاری از گزارشها و مقاالت در همان ابتدا توضیح داده میشــود که متغیرها بهصورت لگاریتمی در نظر گرفته شدهاند و در ادامه دیگر عالمت ویژه تبدیل لگاریتمی را نمینویســند .یعنی برای مثال در مباحث
باال ممکن اســت نویسنده به جای آنکه مدام تکرار کند «لگاریتم طبیعی درآمد ملی در آمریکا» برای اختصار بگوید «درآمد ملی در آمریکا» .ما از همین سنت در متن استفاده کردهایم. نمودار .10-1درآمد خانوارهای آمریکایی
تحلیل دادههای اقتصادی
242
نمودار .10-2تغییر درآمد خانوارهای آمریکایی
مترین 10-1
فایل INCOME.XLSشامل لگاریتم درآمد خانوارها و مصرف خانوارها میباشد. (الف) درآمد خانوارها و تغییرات آن را محاسبه و توصیف کنید .این فرایند را برای
اطالعات مصرف خانوارها نیز تکرار نمایید.
(ب) نمودار مربوط به مصرف شــخصی و تغییرات مصرف شــخصی را به مانند نمودارهای 10-1و 10-2رسم کنید.
-1براي مثال اگر درآمد خانوارها در دوره جاري 1000واحد باشد ،با تقريب مناسبي ميتوانيد حدس بزنيد كه كه در فصل آينده درآمد خانوارها چقدر خواهد شد .اگر در دوره ركود باشيم يكي دو درصد پايينتر و اگر در دوره رونق باشيم ،يكي دو درصد باالتر .اما كمتر پيش ميآيد كه شما انتظار داشته باشيد تا درآمد خانوارها يكباره به 500يا 1500واحد برســد .به عبارتي مقــدار متغير در دوره آينده تا حدود زيادي به مقدار متغير در دوره جاري نزديك است .اين قابليت به دليل همبستگي باالي متغير شكل گرفته است.
243
فصل :10تحلیل سریزمانی تک متغیره
یکی دیگر از ویژگیهای سریزمانی که در دادههای مقطعی معموال وجود ندارد ،وجود همبســتگی بین مشاهدات اســت .برای مثال درآمد خانوارها در امروز وابســتگی شدیدی به درآمد خانوارها در فصل گذشته دارد .1در مباحث فصل 9نشــان داده شد که متغیر «درآمد خانوارها» با متغیر «درآمد خانوارها با یک وقفه» همبســتگی دارد .در حقیقت اگر ضریب همبستگی این دو متغیر را محاســبه نماییم به عدد 0/999716خواهیم رســید! اما اگر ضریب همبستگی را بــرای «تغییرات درآمد خانوارها» و «تغییــرات درآمد خانوارها با یک وقفه» محاسبه کنیم به عدد -0/00235خواهیم رسید .این یافته را میتوان به وضوح حس کرد .متغیرهای کالن اقتصادی نظیر ،GDPمصرف و نظایر اینها در طول زمــان به کندی تغییر مییابند .حتی در دوره رکود عمیق ،این متغیرها به ندرت کاهــش 1تا 2درصدی را در هر فصل تجربه میکنند .بههمین دلیل متغیرهای ســریزمانی به شباهت زیادی به مقادیر دوره قبل دارند و از این رو همبستگی زیادی نیز بین آنها برقرار است .اما این موضوع در مورد تغییرات سریزمانی صادق نیست .تغییرات درآمد خانوارها در این فصل و فصل قبلی ممکن است
تفاوت بســیاری داشته باشد و از این رو در مثال باال ضریب همبستگی نزدیک به صفر بوده است. نمودار 10-1و 10-2درآمد خانوارها و تغییرات آن را برای کشور آمریکا نشان میدهد .با این حال میتوان گفت که سریزمانی متغیرهای کالن اقتصادی در اغلب کشورها مشابه این دو نمودار است .یعنی سریزمانی اصلی Ytشکلی مشابه روند دارد و همبستگی شدیدی بین مشاهدات آن وجود دارد ولی در سوی مقابل ∆Ytهم رفتار مشابه روند ندارد و هم وابستگی شدیدی بین مشاهدات در طول زمان وجود ندارد .این موضوعات در زمان اســتفاده از سریهای زمانی در رگرسیون اهمیت بسیاری مییابد بهویژه زمانی که با مساله نامانایی روبهرو باشیم .در ادامه این فصل ابزارهای مناسب برای مواجهه با مساله فوق را توضیح خواهیم داد. تحلیل دادههای اقتصادی
تابع خودهمبستگی
244
همبســتگی که در باال توضیح داده شد ،مثال ســادهای از خودهمبستگی است (همبستگی بین یک متغیر با وقفه خودش) .تابع خودهمبستگی یک ابزار عمومی اســت که پژوهشــگران از طریق آن ویژگیهای یک سریزمانی را تشخیص میدهند .بر اساس مواردی که در فصل 9پیرامون شیوه نوشتار ذکر شد ،از این پس «همبستگی بین متغیر Yو وقفه نخست »Yرا با r1نشان خواهیم داد.
مترین 10-2
فایل INCOME.XLSشــامل دادههای درآمد خانوارهــا و مصرف خانوارها در آمریکا میباشد.
(الف) برای هر دو ســریزمانی نمودار همبســتگی XYبین متغیر و متغیر با یک وقفه را رسم کنید.
(ب) برای هر یک از این متغیرهای مقدار r1را محاسبه نمایید.
(ج) تفاضل مرتبه نخســت هر متغیر را بهدست آورده و موارد الف و ب را تکرار کنید .ضریب همبستگی بهدست آمده و نمودار XYرا چگونه تفسیر خواهید کرد؟
نکته
-1عالمت r1نشاندهنده همبستگی بین Yو یکم Yاست .اگر دادهها از t=1شروع شود ،آنگاه باید همبستگی بین Y1و Y0بررسی گردد .از آنجاکه اطالعات مربوط به Y0وجود ندارد پس دادهها از t=2 آغاز میگردد .بههمین شکل اگر قصد محاسبه rpداشته باشیم ،سری دادهها از t=p+1شروع خواهد شد .فرض کنید متغیر Wرا بهصورت Wt=Ytبرای t=p+1, ... ,Tتعریف کرده باشــیم و متغیر Zرا هم Zt=Yt برای t=p+1, ...,Tتعریف نماییم .توجه دارید که تعداد مشاهدات T-pعدد شده است .بنابراین زمانی که به دنبال محاسبه rpباشیم ،در عمل pمشاهده اول را بهدور انداختهایم .اگر بهدنبال محاسبه خودهمبستگی در وقفههای بسیار طوالنی باشیم، آنگاه مشاهدات اندکی برای پردازش باقی میماند .بهصورت حدی اگر p=Tباشد، تعداد مشاهدات قابل بررسی صفر خواهد شد .این نکته به ما میآموزد که pرا خیلی بزرگ انتخاب نکنیم .این موضوع به شــکل تقریبا مشابه در فصل 9و در انتخاب تعداد وقفه برای مدل با وقفه توزیعی نیز بیان شده بود. -2یک تابع خودهمبستگی شامل خودهمبستگی با وقفههای مختلف میباشد. بهصورت تئوریک ،برای محاسبه r1دادهها شامل t=2, …,Tمیباشد .برای محاسبه
245
فصل :10تحلیل سریزمانی تک متغیره
بهطور کلی ،ممکن اســت نیاز به محاسبه همبستگی بین Yو Yبا Pوقفه داشته باشیم .برای مثال مشــاهدات ما از درآمد خانوارها فصلی است .در این حالت ،همبســتگی بین Yو Yبا وقفه P=4بیانگر همبستگی بین درآمد فعلی خانوارها و درآمد ســال گذشــته خانوارها میباشد (با توجه به اینکه هر سال شــامل 4فصل است) .در این صورت ضریب همبستگی را با rpنشان خواهیم داد و آن را «خودهمبستگی با وقفه »Pمینامیم .تابع خودهمبستگی مرتبط با rp تابعی اســت که مقادیر ضریب همبستگی را برای p=1,…,Pنشان میدهد که در آن Pبیشــینه وقفه است و معموال سعی میشود تا مقدار آن اندکی طوالنی باشــد (برای مثال P=12برای دادههای ماهانه) .تابع خودهمبســتگی یکی از پرکاربردترین ابزارها برای تجزیه و تحلیل سریهای زمانی تکمتغیره میباشد.
r2دادهها شــامل t=3,…,Tمیباشــد و در نهایت برای آخرین وقفه دادهها شامل t=P+1,…,Tمیباشــد .این بهآن معنی است که برای محاسبه خودهمبستگی در هر وقفه تعداد دادهها متفاوت میشــود .بههمین دلیل در روش استاندارد محاسبه خودهمبستگی ابتدا باید بیشــینه وقفه ( )Pرا انتخاب نماییم و سپس همه مقادیر خودهمبستگی را با سری مشاهدات t=P + 1, … ,Tمحاسبه کنیم.
ادامه مثال 10-1درآمد خانوارها در آمریکا
جدول 10-1تابع خودهمبستگی ( Yدرآمد خانوارهای آمریکا) و ∆Y
تغییرات درآمد خانوارها را نشــان میدهد .برای این محاسبه از بیشینه
تحلیل دادههای اقتصادی
وقفه p = 12استفاده شده است .این اطالعات همچنین در نمودارهایی که محور Xهای آن تعداد وقفه و محور Yهای آن خودهمبستگی است
246
(نمودارهای 10-3و )10-4نشان داده شده است. جدول .10-1تابع خودهمبستگی تغییرات درآمد خانوارها
درآمد خانوارها
طول وقفه ()P
-0 .0100
0 .9997
1
0 .0121
0 .9993
2
0 .1341
0 .9990
3
0 .0082
0 .9986
4
-0 .1562
0 .9983
5
0 .0611
0 .9980
6
-0 .0350
0 .9978
7
-0 .0655
0 .9975
8
0 .0745
0 .9974
9
0 .1488
0 .9972
10
0 .0330
0 .9969
11
0 .0363
0 .9969
12
نکته بارز جدول فوق این اســت که خودهمبستگی درآمد خانوارهای
آمریکا تقریبا نزدیک به 1است که این موضوع حتی در وقفههای بلند هم تکرار شــده است .در حالیکه خودهمبســتگی در تغییرات درآمد خانوارها بسیار کوچک است .رفتار آن تا حدودی تصادفی است و در
مجموع آن را میتوان صفر در نظر گرفت .این موضوع تا حدود زیادی برای اغلب ســریهای زمانی اقتصاد کالن وجود دارد :خودهمبستگی
برای ســریزمانی اصلی نزدیک یک اســت ولی خودهمبستگی برای تفاضل سریزمانی به مراتب کوچکتر (اغلب نزدیک به صفر) میباشد.
Yدر طول زمان از همبستگی شدیدی برخوردار است .حتی -1متغیر
درآمد خانوارها در ســه فصل قبل همبستگی زیادی به درآمد خانوارها در دوره جاری دارد .اما این موضوع در مورد ∆Yوجود ندارد .رشــد
درآمد خانوارها در فصل جاری تقریبا هیچ همبســتگی به رشد درآمد خانوارها در فصل قبل ندارد.
-2اگر مقادیر گذشــته «درآمــد خانوارها» را بدانیــم آنگاه خواهیم
توانست با تقریب خوبی مقادیر بعدی درآمد خانوارها را حدس بزنیم. در حالیکه ،دانستن مقادیر گذشته «تغییرات درآمد خانوارها» کمکی در پیشبینی مقادیر بعدی آن نخواهد کرد.
« Yگذشته را بهخاطر دارد» چراکه با گذشته همبستگی -3بهطور کلی شــدیدی دارد .بههمین خاطر در رفتار Yحافظه بلندمدت وجود دارد.
در حالیکه ∆Yفاقد چنین ویژگی است.
-4متغیر Yنامانا است و سری ∆Yمانا است .ما هنوز بهصورت رسمی
تعریفی از واژه نامانایی و مانایی که اهمیت بســیاری در اقتصادسنجی
247
فصل :10تحلیل سریزمانی تک متغیره
در ادامه نکاتی برای درک بهتر خودهمبستگی ذکر شده است:
دارند ارائه نکردیم .در ادامه توضیحات بیشتری در مورد آنها خواهیم
داد ولی تا اینجا بهخاطر داشته باشید که سریهای زمانی با مشخصات تابع خودهمبستگی Yنامانا هستند.
نمودار .10-3تابع خودهمبستگی تغییرات درآمد خانوارها
تحلیل دادههای اقتصادی
248
نمودار .10-4تابع خودهمبستگی تغییرات درآمد خانوارها
مترین 10-3
از دادههای درآمد خانوارها ( )Yدر فایل INCOME.XLSاستفاده کنید.
(الف) تابع خودهمبستگی را برای Yو ∆Yبا بیشینه وقفه 4محاسبه نمایید. (ب) نمودار توابع خودهمبستگی را رسم کنید. (ج) نتایح بهدست آمده در بخش الف و ب را تفسیر کنید.
مدل خودرگرسیونی برای رسیهای زمانی تکمتغیره
Yt = α + φYt −1 + et
که با توجه به توضیحات قبلی دوره زمانی قابل استفاده در این الگو دوره زمانی t = 2,...,Tدارد .این الگو کامال شبیه الگوی با وقفه توزیعی است که در فصل قبل توضیح دادهایم با این تفاوت که متغیر توضیحی در این رگرسیون Yt −1است .تابع خودهمبستگی و مفهوم نامانایی در تعیین مقدار φدر رگرسیون ) AR(1نقش اصلی
249
فصل :10تحلیل سریزمانی تک متغیره
تابع خودهمبســتگی یک ابــزار کاربردی برای درک کلی از مشــخصات یک ســریزمانی اســت .با این حال در فصل ســوم و چهارم بحث شــده بود که همبســتگی محدودیتهایی دارد و از این رو استفاده از رگرسیون نسبت به آن ارجحیت دارد .در اینجا هم همان دالیل حاکم است و همان محدودیتها در تابع خودهمبستگی نیز وجود دارد .از این رو نیازمند طراحی الگوهایی هستیم تا رابطه یک متغیر با وقفههایش را بدون این محدودیتها نشان دهد .در ادبیات ل گرفته است ولی آماری روشهای مختلفی برای تحلیل یک ســریزمانی شک یکی از رایجترین آنها اســتفاده از رگرســیون است که میتوانیم آن را الگوی خودرگرسیونی بنامیم .همانطور که نام الگو نشان میدهد ،این یک رگرسیون است که متغیر توضیحی آن وقفههای متغیری هستند که خود متغیر وابسته است (یعنی رگرســیونی بین یک متغیر با وقفههای خودش) .عبارت خودرگرسیونی معموال بهصورت خالصه « »ARنامیده میشود. ما بحث خود پیرامون الگوی خودرگرسیونی را با مدلی آغاز میکنیم که یک متغیر توضیحی (یعنی یک وقفه) داشته باشد .آن را ) AR(1مینامیم:
ایفا میکنند .برای درک این موضوع سه حالت مختلف برای رگرسیون ) AR(1با سه مقدار مختلف برای φرا بهصورت مصنوعی ایجاد میکنیم .این سه مقدار φ =0 ، φ =0.8و φ =1است .مقدار αبرای هر سه سریزمانی یکسان و معادل 0/01 است و برای هر سه سریزمانی خطای یکسانی را در نظر گرفتهایم. نمودار .10-5
سریزمانی )AR (1
با φ =0
تحلیل دادههای اقتصادی
250
ســریزمانی ) AR (1نوعی رفتار تصادفی با نوسانات حول یک میانگین که حدود 0.01است را نشــان میدهد .در حقیقت این نمودار بسیار شبیه نمودار 10-2است که تغییرات درآمد ملی را تصویر مینماید .نمودار 10-7هم بسیار شــبیه نمودار 10-1است که سریزمانی درآمد ملی را نشان میدهد .اما نمودار 10-6چیزی بین دو نمودار با رفتار تصادفی 10-5و نمودار با روند قوی 10-7 اســت .سه نمودار فوق نشــاندهنده رفتارهایی است که ممکن است یک مدل ) AR (1داشــته باشد که البته در اقتصاد کالن عمومیت هم دارد .به ازای مقادیر مختلف ، φاین مدلها میتوانند شــکلهای متنوعی بگیرند که برای مدلسازی رشد متغیرهای اقتصاد کالن و یا رفتار توام با روند آنها یا شرایط بینابینی قابل استفاده است.
نمودار .10-6سریزمانی ) AR (1با φ =0 / 8
251
اما باید توجه داشــت که φ =1به شــرایطی گفته میشــود که آن را نامانا مینامیم .همین نکته ما را قادر میسازد تا الاقل برای الگوهای ) AR (1تعریف دقیقتری از مانایی و نامانایی ارائه کنیم .در الگوهای میتوانیم بگوییم که Yمانا است اگر φ < 1و نامانا است اگر φ =1باشد .حالت ممکن دیگر این است که φ > 1باشد که این مورد بسیار به ندرت در اقتصاد رخ میدهد و مربوط به
فصل :10تحلیل سریزمانی تک متغیره
نمودار .10-7سریزمانی ) AR (1با φ =1
شرایطی است که سریزمانی رفتار انفجاری 1از خود نشان دهد .شواهد اندکی (مانند ابرتورم )2برای چنیــن رفتاری وجود دارد و بههمین دلیل در این کتاب پیرامون آن توضیحی نخواهیم داد .یک اثبات ریاضی برای ویژگیهای )AR (1 و نحوه رابطه آن با موضوع نامانایی در پیوست 10-1قابل مشاهده است.
مترین 10-4
از دادههــای FIG95.XLS، FIG96.XLSو FIG97.XLSکــه از آنها در رســم نمودارهای 10-5تا 10-7استفاده شده است برای حل تمرینهای زیر استفاده کنید:
(الف) تابع خودهمبستگی را برای هر سریزمانی و با حداکثر وقفه 4محاسبه نمایید.
(ب) یافتههای قســمت (الف) را با تمرین 10-3مرتبط کنید .بر روی این سوال
تحلیل دادههای اقتصادی
تمرکز نمایید که آیا الگوی ) AR (1خواهد توانســت یک سریزمانی اقتصاد کالن مثل مصرف را توضیح دهد.
252
نامانایی در مقابل مانایی رسیهای زمانی
در قسمت قبل مفهوم «نامانایی» و «مانایی» را بدون هیچگونه تعریف خاصی مورد بررســی قرار دادیم .همانطور که خواهیم دید ،تفاوت قائل شدن بین سریزمانی مانا و نامانا بسیار مهم است .برای تعریف مشخص و دقیق این مفاهیم باید برخی موضوعات خاص آماری را مورد بررســی قرار دهیم که از هدف این کتاب خارج است .اما برای درک بهتر این مفاهیم ،تعاریفی در ادامه ارئه میگردد. بهطور کلی ،نامانایی به معنی هر چیزی اســت که مانا نیســت .اما معموال اقتصاددانان به نوع خاصی از نامانایی توجه دارند که در بسیاری از سریزمانیهای اقتصاد کالن وجود دارد و آن «نامانایی ریشــه واحد» است .این موضوع را در ادامه شرح خواهیم داد ولی در اینجا میتوانیم برای سادگی عنوان کنیم که در الگوی ) AR (1ریشه واحد به معنی φ =1است .در ادامه پنج تفاوت عمده بین 2- hyperinflation
1- Explosive behavior
که در آن ρ = ∅ − 1اســت .بنابراین اگر ∅ =1آنگاه ρ =0اســت و معادله قبل را میتوان به تنهایی برای ∆Ytاز نو نوشــت که به معنی نوســان ∆Ytحول αاست .در ادامه بهخاطر داشته باشید که برای آزمون وجود ریشه واحد میتوانیم ρ =0را آزمون نماییم .از آنجاکه مانا بودن سریزمانی به معنی −1 < φ < 1است پس میتوان گفت یک سریزمانی در صورتی مانا است که ρ < 0باشد .از این پس این قید را شرط مانایی مینامیم. حــال یک الگوی ) AR (1را در نظر بگیرید کــه در آن ( φ =1یا بهعبارتی ) ρ =0و α =0است .در این حالت میتوانیم الگوی را به شکل زیر بنویسیم:
1- Difference stationary
253
فصل :10تحلیل سریزمانی تک متغیره
سریزمانی دارای ریشه واحد یا سریزمانی مانا برای متغیر Yعنوان شده است: -1در یک الگوی ) AR (1اگر φ =1باشــد ،آنگاه Yدارای ریشــه واحد است .اگر φ < 1باشد آنگاه Yمانا است. -2اگر Yدارای ریشه واحد باشد ،آنگاه خودهمبستگیهای آن نزدیک به یک خواهد بود و با افزایش وقفه مقدار آنها به شدت کاهش نمییابد. -3اگر Yدارای ریشه واحد باشد ،آنگاه دارای حافظه بلند مدت است در حالیکه سریزمانی مانا حافظه بلندمدتی ندارد. -4اگر Yدارای ریشــه واحد باشد ،آنگاه رفتاری مانند روند از خود نشان میدهد (بهویژه اگر αمخالف صفر باشد). -5اگر Yدارای ریشــه واحد باشــد ،آنگاه ∆Yمانا خواهد بود .بههمین دلیل ســریزمانیهای دارای ریشه واحد گاهی با عبارت تفاضال مانا 1شناخته میشوند. مفهوم نکته آخر شــاید با عبارت زیر روشــنتر شود .اگر دو سمت معادله ) AR (1را منهای Yt-1نماییم ،خواهیم داشت: ∆Yt = α + ρYt −1 + e t
= Yt Yt −1 + et
الگوهای اینچنینی را گام تصادفی 1مینامند .چون φ =1است Yt ،دارای ریشه واحد و نامانا اســت .این الگوها کاربرد بســیاری در بازارهای سهام دارند .قیمت سهام امروز برابر است با قیمت سهام دیروز بعالوه (یک مقدار غیرقابل پیشبینی) جزءخطا .اگر قیمت ســهام از گام تصادفی تبعیت نکند آنگاه قیمت ســهام قابل پیشبینی میگردد و ســرمایهگذاران امکان آربیتراژ 2خواهند داشت .بههمین دلیل این یک اعتقاد عمومی است که فرصتهای آربیتراژی از این دست بسیار کم رخ میدهند و در اکثر مواقع قیمت داراییهای قابل مبادله (مثل سهام ،نرخ ارز و نظایر آنها) از گام تصادفی تبعیت میکند .این قسمت یادآور این نکته است که نامانایی در بسیاری از سریهای زمانی مالی و اقتصاد کالن وجود دارد. تحلیل دادههای اقتصادی
254
ادامه مثال کاربردی درآمد ملی در آمریکا
الگوی ) AR (1یک الگوی رگرســیونی اســت و ما میتوانیم از روش
OLSبــرای رگرس کردن متغیر Yبر روی وقفه Yاســتفاده کنیم .اگر ∧
∧
اینچنین کنیم آنگاه α =0 / 039و φ =0 / 996خواهد شد .برآورد ∧ OLSاز ضریب φبرای یــک الگوی ) AR (1به ندرت دقیقا برابر با 1
میشود اما این مقدار میتواند به 1نزدیک باشد همانطور که در برآورد رگرسیون برای Yاینچنین شده است.
اگر ∆Ytرا بــر روی Yt −1با روش OLSرگرس کنیــم ،مقدار برابر با -0/004خواهد شد (که بســیار نزدیک به صفر است) و انتظار ما هم ∧
∧
این بوده است که ρ = φ− 1باشد.
1- Random Walk
-2يعني سرمايهگذاران خواهند توانست به سرعت سهامهاي با سود بيشتر را جايگزين سهامهايي با سود كمتر نمايند.
مترین 10-5
از دادههــای FIG95.XLS، FIG96.XLSو FIG97.XLSکــه از آنها در رســم نمودارهای 10-5تا 10-7استفاده شده است برای حل تمرینهای زیر استفاده کنید:
(الف) برآورد OLSبرای مقادیر ρو φرا با توجه به الگوی ) AR (1محاسبه نمایید. (ب) با توجه به پاسخ (الف) نشان دهید که در کدام سریزمانی ریشه واحد وجود دارد. (ج) اقدامات (الــف) و (ب) را برای متغیر مصرف که در فایل INCOME.XLS
وجود دارد تکرار نمایید.
بسط الگوهای )AR(1
و نخستین وقفه آن است .با این وجود امکان دارد که وقفههای بیشتری از Yدر ردیــف متغیرهای توضیحی قرار گیرند .به عبارتی الگوی ) AR (1را میتوان به شکل زیر تا وقفه pبسط داد و آن را ) AR (pنامید: Yt = α + φ1Yt −1 + … + φp Yt −p + et
که دوره زمانی مدل t = p + 1,…,Tخواهد بــود .قصد نداریم تا در مورد ویژگیهای این مدل توضیحی دهیم اما شــما را به این نکته توجه میدهیم که این مدل بسیار شبیه به الگوی ) AR (1است ولی عمومیت بیشتری دارد .با این مدل میتوان بســیاری از سریزمانیهای اقتصاد کالن را مدلسازی کرد .حال اگر بهمانند قبل دو طرف معادله فوق را منهای Yt −1کنیم ،با یک سری تبدیالت جبری میتوانیم به عبارت زیر دست یابیم: ∆Yt = α + ρYt −1 + γ1∆Yt −1 + … + γ p −1∆Yt −p +1 + et
که ضرایب این رگرســیون ρ, γ1,..., γ pتابع ســادهای از( ) φ1,..., φpمیباشد. برای مثال ρ = φ1 + … + φp − 1اســت .توجه داشــته باشــید که این مدل هم ) AR (pاســت و تنها شــیوه نوشــتارش متفاوت اســت .شــاید متوجه شده که∆Yt −p +در معادله نخســت به ∆Yt −p +1در معادله دوم تبدیل شــده است باشــید 1
255
فصل :10تحلیل سریزمانی تک متغیره
پیش از این توضیح دادیم که الگوهای ) AR (1یک رگرسیون ساده است بین Y
تحلیل دادههای اقتصادی
256
= .) ∆Yt −p +1هــر دو معادلــه دارای تعداد یکســانی ضریب ( ∆Yt −p +1 − Yt −p ( )p + 1اســت که در معادله اول ( ) φp ,..., φ1, αو در معادله دوم ( ،... ، γ1 ، α ، ρ ) γ p −1است .نگذارید تا این موضوع شما را گمراه کند ،این تنها شیوه متفاوتی از جایگذاری ضرایب در معادله اصلی است. نکته قابل توجه این اســت که معادله فوق همچنان یک رگرسیون است و ρ =0نشان میدهد که الگوی ) AR(pسریزمانی Yدارای ریشه واحد است و اگر −2 0باشد ،در صورتی که نوسانات در دوره قبل به شکل غیرعادی باال بوده باشد( ،یعنی ∆y 2t−1زیاد باشد) ،این موجب باال رفتن نوسانات در دوره فعلی خواهد شد .در سوی مقابل ،پایین بودن نوسانات دوره قبل( ،یعنی ∆y 2t−1 کم باشد) به کم شدن نوسانات فعلی میانجامد .به عبارت دیگر ،اگر نوسانات باال باشــد ،باال خواهد ماند و اگر پایین باشــد ،پایین خواهد ماند .بهطور قطع، حضور جمله انحراف ، et ،به این معنی اســت که امکان رخداد استثناء در این رفتار وجود دارد .اما بهطور کلی ،این الگو نشان میدهد که ما شاهد فواصل یا خوشههایی در طول زمان خواهیم بود که نوسانات در آن کم است یا بالعکس فواصلی که در آن نوســانات زیاد است .در مطالعات تجربی قیمت داراییهای مالی چنین رفتاری بســیار مرسوم اســت .برای مثال به یاد آورید که در فصل 2نمــوداری از نرخ پوند به دالر را (نمودار 2-1را ببینید) مورد بررســی قرار دادیم .اگر به این نمودار با دقت نگاه کنید مشــاهده مینمایید که در یک دوره طوالنی این نرخ تغییرات اندکی داشــته است (برای مثال دوره 1967-1949و دوره )1996-1993و در یک دوره طوالنیتر ( )1992-1985این نرخ نوسانات شدیدتری داشته است. مبحث فوق به الگوی ) AR(1اشاره داشته است ولی همین منطق را میتوان به الگوی ) AR(pهم بســط داد .همه مفاهیمی که در فصل 10در مورد چنین
الگوهایی ذکر کردیم در اینجا هم صادق اســت .تنها تفاوت این است که در تفســیر به جای استفاده از خود ســریزمانی میباید به نوسانات آن بپردازیم. تمامی تکنیکهای آماری که در فصل 10ذکر کردیم در اینجا هم کاربرد خواهد داشت .چنانچه سریزمانی مانا باشد (یعنی φ < 1در وضعیت ) ،)AR(1آنگاه برآورد OLSو P-valueها میتواند بهصورت اســتاندارد آن مورد تفسیر قرار گیرند .آزمون ریشــه واحد نیز میتواند بــا روش دیکی-فولر صورت پذیرد. بهطور خالصه ،هیچ چیز آماری جدیدی در اینجا وجود ندارد. نمودار .12-1لگاریتم قیمت سهام
تحلیل دادههای اقتصادی
306
مثال 12-1الف .نوسانات در بازار سهام
فایل STOCK.XLSکه شامل دادههای قیمت سهام یک شرکت است ( )Yکه برای چهار سال و بهصورت هفتگی انتخاب شده است (یعنی .)T=208از دادهها لگاریتم گرفته میشود .نمودار 12-1نمودار سریزمانی آن را نشان میدهد. شــما میتوانید ببینید که قیمت سهام در طول زمان رو به افزایش است .اما دورههای متعددی وجود دارد که قیمت ســهام افت داشــته است .قیمت سهام در ابتدا 24/53پوند بوده اســت که در آخرین ماه به 30/14پوند افزایش یافته
307
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
است .در نمودار 12-2نموداری از ∆yکه درصد تغییرات Yاست ترسیم شده است .در این نمودار تفاضل مرتبه اول دادههایی که در نمودار 12-1بوده است در 100ضرب شده است ،یعنی . 100 × ln ( Yt ) − ln ( Yt −1 ) بررسی این نمودار نشان میدهد که به غیر از چند هفته که قیمت سهام افت، تغییرات قیمت این ســهام در عموم هفتهها مثبت بوده اســت .در اواسط دوره مطالعه (حدود هفتههای 90تا ،)110تغییرات عمدهای در جهت مثبت و منفی رخ داده است .برای مثال در هفتههای 94و 96قیمت سهام بیش از 1/5درصد رشــد داشته است که این رشد بسیار بزرگی در طول یک هفته بهشمار میآید. چنانچه چنین رشــدی برای یک سال دوام بیاورد ،قیمت سهام دو برابر خواهد شد (بازدهی 1/5درصد در هفته معادل بازدهی 100درصد در سال است) .اما میزان افت قیمت ســهام در هفتههای 93 ،92و 95تقریبا به همان اندازه بوده است .بهطور کلی نوسان قیمت سهام در این دوره بسیار بیشتر از سایر دورهها بوده اســت .به منظور بررسی نوسانات قیمت سهام ،انحراف قیمت از میانگین دادههای نمودار 12-2که تفاضل دادهها را نشــان میدهد را محاســبه و از آن مربع میگیریم .یعنی باید اقدامات زیر را انجام دهیم: -1میانگین تغییرات قیمت سهام را محاسبه کنید 0/099 :درصد -2مقدار باال را از تمامی تغییرات قیمت سهام کم کنید. -3مربع نتیجه باال را محاسبه کنید. نمودار 12-3نتیجه این ســری را نشــان میدهد که میتواند معیاری برای نوســانات باشد .توجه دارید که نوسانات به توان دوم رسیده است و نمیتواند منفی باشــد .شکلی که در نمودار 12-3نشــان داده میشود حاکی از افزایش شــدید نوسانات در هفتههای 90تا 97است و البته همین اتفاق کم و بیش در هفتههای 4-8و 101-107نیز رخ داده است .این نمودار تصویری از تغییرات نوسانات در طول زمان را نشان میدهد. یک روش مشخص برای بررسی رفتار نوسانات ،استفاده از الگوی )AR(p است که در فصل 10آن را یاد گرفتهایم .با آزمونهایی که در آن فصل ذکر شده
بود ،الگوی ) AR(1برای نوســانات این سهام انتخاب شده است که در جدول 12-1نشان داده میشود.
ضریب
انحراف معیار
آماره t
P-value
عرض از مبدا
0/024
0/015
1/624
0/106
-0/005
0/053
0/737
0/047
15/552
0/000
0/643
0/830
∆y 2t−1
تحلیل دادههای اقتصادی
308
جدول .12-1الگوی ) AR(1نوسانات متغیر مورد بررسی
حد پایین در سطح %95
حد باال در سطح %95
میتوان مشاهده نمود که در نوسانات هفته گذشته ،قدرت توضیح دهندگی باالیی برای نوسانات هفته کنونی دارند .ضریب مربوطه معنی دار است و R2 = 0 / 54 که نشــان میدهد 54درصد از تغییرات نوسانات را میتوان با نوسانات هفته قبل توضیح داد .بهنظر میرسد که خوشههای نوسانی در این الگو وجود داشته باشد .اگر نوســانات در یک دوره باال باشد ،این امر موجب آن میشود که نوسانات در دوره بعد هم باال باشد .این اطالعات ممکن است برای سرمایهگذارانی که قصد خرید این سهام را دارند ،بسیار ارزنده باشد .فرض کنید که سرمایهگذاری مشاهده نموده است که 0 = ∆y t −1و در نتیجه 0 = . ∆y 2t−1به بیان دیگر ،قیمت سهام به اندازه متوسط تغییرات ،در دوره t-1تغییر مییابد .سرمایهگذار میخواهد پیشبینی نوسانات در دوره tرا انجام دهد تا بتواند قضاوت مناسبی نسبت به ریسک سهام داشته باشد .با توجه به اینکه جمله خطا غیرقابل پیشبینی است ،سرمایهگذار میتواند آن را نادیده بگیرد (چراکه میتواند مثبت یا منفی باشــد) .الگوی ) AR(1منسوب به نوسانات بهشکل زیر است: ∧2 =∆ Y 0.024 + 0.737∆y 2t −1 t
چون 0 = ، ∆y 2t−1سرمایهگذار پیشبینی میکند که نوسانات در دوره tبرابر = ∆y 2t−1باشد ،او پیشبینی خواهد کرد با 0/024خواهد بود .اگر مشاهده او1 که نوسانات در دوره tبرابر با ( 0/761یعنی )0/024+0/737میشود .اینگونه اطالعات میتواند به مدلسازی مالی و رفتار سرمایهگذار کمک کند.
نمودار .12-2درصد تغييرات قیمت سهام
309
مترین 12-1
فایل NYSE.XLSشــامل داده درصد تغییرات قیمت سهام ( ) ∆Yطی ماههای 1952تا 1995در بازار سهام نیویورک ( )NYSEاست .برای کسانی که بهجزئیات
دقیق توجه دارند باید بگوییم که دادهها ،میانگین وزنی ارزش بازدهی سهام هستند که با اســتفاده از شــاخص قیمت مصرف کننده ،تورمزدایی شدهاند .توجه داشته
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
نمودار .12-3نوسانات قيمت سهام
باشید که این دادهها به شکل تفاضل ثبت شدهاند و انحراف از میانگین گرفته نشده
است (یعنی ( ∆Yاست و برابر با Yیا ∆yنیست).
(الف) یک نمودار سریزمانی از این سریزمانی رسم کنید و درباره رفتار آن نظر بدهید.
(ب) بر اســاس مطالبی که در فصل 10یاد گرفتهاید ،ویژگیهای این سریزمانی را بررسی نمایید .تابع خودهمبستگی آن چگونه است؟ اگر الگوی ) AR(pساخته شود مقدار pچقدر است؟ آیا ( ∆Yمانا است؟ آیا بازدهی سهام در NYSEقابل پیشبینی
است (یعنی آیا بازدهیهای قبلی کمکی به پیشبینی مقادیر کنونی میکند)؟
ج .فرض کنید که سریزمانی اصلی ،Y ،از رفتار گام تصادفی پیروی مینماید به شکلی
که ) AR(0الگوی مناسبی برای ∆Yمیباشد (شاید با وجود عرض از مبدا) .نوسانات این متغیر را همانطور که در این فصل شرح داده شده است محاسبه نمایید.
(د) نمودار نوسانات سریزمانی را ترسیم نمایید .آیا به نظر میرسد که خوشههای
تحلیل دادههای اقتصادی
نوسانی در آن وجود داشته باشد؟
310
(ه) الگوی ) AR(pنوسانات را بهدست آورید به شکلی که متناسب با ویژگیهای آن باشد .آیا نوسانات در دورههای گذشته میتواند به پیشبینی نوسانات در دوره جاری کمک نماید؟
الگوی خودهمبستگی با ناهمسانی رشطی واریانس ()ARCH
گروه الگوهای ( ARCHشــامل محلقــات آن) احتماال معروفترین الگو برای بررســی نوســانات مالی میباشــد .این الگوها را میتوان با کار بر روی یک رگرسیون معروف معرفی نمود: Yt = α + β1X1t + β2 X2t + … + βk Xkt + et
توجه داشــته باشــد که این الگو شــامل بســیاری از الگوهــای دیگر اســت که پیــش از ایــن بــا آن کار کردهایم .برای مثــال اگر X jt = Yt − j باشــد( ،یعنی متغیر توضیحی همان وقفه متغیر وابســته اســت) آنگاه این الگــوی بهصــورت ARدر خواهد آمــد .وضعیت جالب دیگر آن اســت کــه اگر هیــچ متغیر توضیحــی در مجموع وجود نداشــته باشــد( ،یعنی
) σ2t =var ( et
به بیان دیگر σ2t ،عالمت نوسانات خواهد بود که برابر است با واریانس جمله انحراف میباشد .این عبارت کاربرد بسیار مهمی در بازارهای مالی دارد (مانند قیمت گذاری ابزارهای مالی) .توجه داشــته باشید که ما اجازه تغییر نوسانات را در مدل میدهیم-موضوع مهمی که در قسمت قبل در مورد آن بحث شد. الگوی ARCHبا وقفه pکه بهصورت ) ARCH(pنشان داده میشود ،فرض میکند که نوسانات امروز میانگینی از مربع انحرافات گذشته است: σ2t = γ 0 + γ1e2t −1 + … + γ p e2t −p
که در آن γ1.…. γ pضرایبی هســتند که با بستههای نرمافزاری قابل برآورد میباشــند .در وضعیتی که متغیر توضیحی وجود ندارد و متغیر وابسته برابر با ∆y tاست ،داریم؛ σ2t = γ 0 + γ1∆y 2t −1 + … + γ p ∆y 2t −p
که الگوی نوسانات ARCHوابسته به مقادیر اخیر ∆y 2tاست .معیاری که در ابتدای فصل برای نوســانات در نظر گرفتیم .این مدل شباهت زیادی به الگوی خودهمبستگی دارد ( بههمین دلیل بخشی از الگوی ARCHشامل ARمیشود) و الگوهای ARCHدارای ویژگیهای مشــترکی با ARهستند بهجز اینکه در ARCHتنها نوسانات سریها مورد بررسی قرار میگیرد.
311
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
) α = β1 = … = βk = 0در ایــن حالت الگــوی ARCHکه آن را توصیف خواهیــم کرد بــه یک الگوی ســاده تبدیل میشــود که به متغیر وابســته خــود متصل اســت .حال اگــر متغیر وابســته را به همان بازدهی ســهام ( ) ∆y t = ∆Yt − ∆ Yبرگردانیــم ،آنگاه الگــوی مــا تبدیل به مدل ســاده نوســانات مالی خواهد شد که در ابتدای فصل مشاهده نمودیم. الگوی ARCHمرتبط با واریانس (نوسانات) انحراف ، et،است .در صورتی که ویژگیهای واریانس را فراموش نمودهاید شاید الزم باشد که مبانی الگو را در پیوســت 2-3مطالعه نمایید .با یک عالمتگذاری ساده (که در اقتصاد این شیوه رایج است) با این نشانهگذاری آغاز مینماییم:
مثال12-1ب
بهوســیله الگوی ARCHدیگر مانند گذشته نیازی به کسر میانگین از بازدهی قیمت ســهام نخواهیم داشت (با اضافه کردن عرض از مبدا به
رگرسیون ،بهسادگی اجازه شکلگیری یک فرایند گام تصادفی با رانش را میدهیــم) .مطابق با مثال قبل ،از لگاریتم قیمت ســهام که در فایل
STOCK.XLSوجود دارد اســتفاده میکنیم و تفاضل مرتبه اول آن را
بهدست میآوریم ( .) ∆Yt
الگــوی ) ARCH(1را بر اســاس متغیر وابســته ∆Ytبرآورد میکنیم و در آن عــرض از مبدا را هم قرار میدهیم .با اســتفاده از یک بســته
نرمافزاری ،خروجی مشابه با جدول 12-2بهدست خواهد آمد .قسمت
تحلیل دادههای اقتصادی
باالی جدول 12-2ضرایب معادله رگرسیونی را نشان میدهد .در این 312
قسمت ما تنها عرض از مبدا را قرار دادهایم (که با عالمت Ɣ0در معادله
رگرسیونی مشخص شده است) .قسمت پایین جدول به معادله ARCH
اختصاص یافته اســت .وقتی با الگوی ) ARCH(1کار میکنیم ،معادله
شامل عرض از مبدا (که با γ 0در الگوی ARCHمشخص شده است)
و یک وقفه برای مربع انحرافات (که با γ1در معادله ARCHمشخص شــده و در جدول 12-2با «وقفه »1نشان داده شده است) .اعدادی که در جدول 12-2وجود دارد میتواند به همان شــکلی خوانده شود که پیش از این در رگرسیون به آن اشاره شده است.
جدول .12-2الگوی ( ARCH )1بازدهی سهام ضریب
P-value
0 .105
0 .000
حد پایین در سطح %95
حد باال در سطح %95
∆Yt عرض از مبدا
0 .081
0 .129
ضریب
P-value
حد باال در سطح %95
حد پایین در سطح %95 ARCH
وقفه 1
0 .660
0 .000
0 .302
1 .018
عرض از مبدا
0 .024
0 .000
0 .016
0 .0320
جدول .12-3الگوی ( ARCH )2بازدهی سهام
عرض از مبدا
0 .109
0 .000
∆Yt
0 .087
0 .131
ARCH
وقفه 1
0 .717
0 .000
0 .328
1 .107
وقفه 2
-0 .043
0 .487
-0 .165
0 .079
عرض از مبدا
0 .025
0 .000
0 .016
0 .033
اعدادی که در ســتون «ضریب» دیده میشــود ،نتیجه برآورد ضرایب
است (در این الگو ،ضرایب با روش OLSبرآورد نشدهاند و با روشی پیچیدهتر که ویژه ARCHاست برآورد میشود) .اعدادی که در ستون
« »P-valueهمان P-valueاست که از آزمون فرضیه برابری با صفر
ضرایب بهدست آمده است.
در این حالت ،زمانی که P-valueکمتر از 5درصد باشــد ،میتوانیم
نتیجه بگیریم که ضرایب از نظر آماری در ســطح %5معنیدار هستند. ستونهای پایانی جدول فوق ،سطوح اطمینان باال و پایین را در سطح
95درصد نشــان میدهد .برآورد ضریب ( γ1ضریبی که با وقفه مربع
انحرافات در معادله )ARCHبرابر با 0/66اســت که نشــان میدهد
313
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
ضریب
P-value
حد پایین در سطح %95
حد باال در سطح %95
نوسانات در این ماه به شدت با مربع انحرافات در ماه قبل ارتباط دارد. این نشاندهنده نوعی پایداری نوسانات است به همان درجهای که در ابتدای فصل به آن اشــاره شده بود .بهخاطر داشته باشید که ما پیش از
این فهمیدیم که ضرایب ) AR(1که قبال برآورد شده بود مانند ضرایب 2 ∆y tاست که در رگرسیون پیشین برابر 0/737تخمین زده شده بود.
طول وقفههــای الگوی ARCHرا بههمان شــکلی که در هر الگوی ســریزمانی دیده بودیم میتوان انتخاب کرد (یعنی با بررسی فرضیه
برابــر با صفر بودن ضرایب و مقایســه P-valueبا مقادیر بحرانی و کاســتن وقفه در صورتی که ضریب آن برابر با صفر باشد) .برای مثال
اگر الگوی ) ARCH(2را با اســتفاده از دادههای بازدهی سهام برآورد تحلیل دادههای اقتصادی
کنیم ،نتایج جدول 12-3بهدست خواهد آمد.
314
ضرایب برآوردشده در جدول 12-3بسیار شبیه به ) ARCH(1است. اما ضریب مربوط به وقفه دوم ( )Ɣ 2معنیدار نیست چراکه P-value
آن بزرگتر از 0/05اســت .به این ترتیب الگــوی )ARCH(1برای دادهها مناسب اســت و وقفه دوم که به الگوی ) ARCH(2وارد شده
است نتوانسته است توضیحدهندگی بیشتری ایجاد نماید.
بنا بــه دالیل زیادی (برای مثــال در قیمتگذاری مشــتقات مالی) برآورد σ2tبرای همه دورهها مورد نیاز اســت .ما نمیخواهیم در مورد نحوه محاســبه بستههای نرمافزاری صحبت کنیم ولی فقط الزم است بدانید که این بستهها چنین قابلیتی دارند .الگوهای ARCHدارای بسطهای فراوانی است که در تحلیلهای مالی مورد اســتفاده قرار میگیرد .برای مثال بســتههای نرمافزاری Stataهفت الگوی مختلــف ARCHبا نامهای GARCH، SAARCH، TARCH، AARCH، NARCHو NARCHKارائه میدهد .مدل معروف دیگری که در گروه مدلهای
ARCHقرار ندارد ،نوســانات تصادفی نام دارد .اگر شــما نیاز جدی به تحلیل نوسانات مالی دارید میباید مطالعات عمیقتری را در این زمینه انجام دهید .در ادامه الگوی معروف دیگری به نام GARCHکه همان ARCHتعمیم یافته است را توضیح میدهیم .این الگو برگرفته از الگوی ARCHاست که وقفه نوسانات محاسبهشده (در کنار مربع انحرافات دارای وقفه) به الگو اضافه میگردد .یعنی الگوی GARCHکه با وقفههای ( )p,qکه با ) GARCH(p,qنشــان داده میشود دارای معادله نوسانات به شرح زیر است: ویژگیهای GARCHبسیار شبیه ARCHاست .برای مثال ضرایب به همان روش ضرایب ARتفســیر میشــوند و میتوان هر یک از آنها را با پایداری نوسانات مرتبط نمود .با این حال میتوان نشان داد که GARCHدارای انعطاف به مراتب بیشــتر ،ظرفیت بهتر و قابلیت تطبیق مناسبتری برای توضیح رفتار نوسانات مالی است.
مثال 12-1ج نوسانات در قیمت سهام
اگر یــک الگوی )GARCH(1,1را با دادههای بازدهی ســهام برآورد کنیم ،به نتایج جدول 12-4میرســیم .اعدادی که در این جدول قرار دارند را میتوان مشابه با جدول ARCHتفسیر نمود .اما در این جدول
یــک ردیف اضافه وجود دارد کــه GARCH-1نام دارد که وقفه اول
GARCHاست و شــامل ضریب λ1میباشد (که اثر نوسانات با وقفه اول است).
میتـ�وان دید که این ضریب معنیدار نیسـ�ت چراکـ�ه مقدا ر �P-val
ueآن بیــش از 5درصد اســت .از این رو برای ایــن داده ،به الگوی
315
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
σ2t = γ 0 + γ1e2t −1 + … + γ p e2t −p + λ1σ2t −1 + … + λ qσ2t − q
) GARCH(1,1چندان نیازی نیست و همان الگوی ) ARCH(1کامال مناسب به نظر میرسد.
جدول .12-1الگوی ( GARCH )1.1بازدهی سهام ضریب
P-value
عرض از مبدا
0 .109
0 .000
سطح پایین 95درصد
سطح باالی 95درصد
∆Yt
0 .087
0 .131
ARCH
وقفه 1
0 .714
0 .000
0 .327
1 .101
GARCH-1
-0 .063
0 .457
-0 .231
0 .104
عرض از مبدا
0 .026
0 .000
0 .015
0 .038
تحلیل دادههای اقتصادی
316
مترین 12-2
فایل NYSE.XLSشامل دادههای درصد تغییرات قیمت سهام ( ) ∆Yدر هر ماه از سال 1952تا 1995در بازار سهام نیویورک است.
(الــف) الگوی ) ARCH(pرا بــرای pهای مختلف برآورد کنیــد .آیا در آنها
خوشههای نوســانی دیده میشــود (یعنی آیا الگوی ARCHبه الگوی سادهای میرسد که در آن نوسانات ثبات داشته باشند که به معنی γ1 =…. =γ p =0 است)؟ کدام pمناسبتر است؟
(ب) برای pانتخابی شــما ،نمودار سریزمانی نوســانات را رسم نمایید (یعنی نموداری از .) σ2t
(ج) مرحلــه الف و ب را با الگــوی ) GARCH(p,qتکرار نماییــد .آیا نمودار
نوسانات که در بند قبل بهدست آوردید مشابه ARCHو GARCHاست؟
علیت گرنجر
1
1- Granger Causality
317
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
در این کتاب اشاره اندکی به علیت داشتهایم و این کار از طریق نحوه تفسیر همبستگی و نتایج رگرســیون بوده است که تا حدودی به علیت باز میگشت .برای مثال در فصل ســوم مثالی را در مورد رابطه نوشیدن الکل و نرخ سرطان ریه مورد بررسی قرار دادیم که این دو با هم وابسته بودهاند در صورتی که نوشیدن الکل علت ایجاد سرطان ریه نیست .در اینجا همبستگی ،علیت را نشان نمیدهد .در واقع مصرف سیگار است که موجب ســرطان ریه میگردد ولی وجود همبستگی بین مصرف سیگار و نوشیدن الکل موجب میشود که رابطه همبستگی بین الکل و سرطان ریه شکل بگیرد .در مباحثی که پیرامون رگرسیون داشتیم ،تا حدودی کار دشوارتر بود. بر زمین ســفتتر ،....راه نمیروند! این اوضاع زمانی تغییر کرد که بهدنبال دالیل اقتصادی برای تعیین متغیر وابســته یا متغیر توضیحی بودیم .در بسیاری از مسائل همینقدر که متغیری مانند Xقادر به توضیح متغیر دیگری مانند Yمیبود برایمان کفایت میکرد تا Xرا «علت» Yبدانیم. برای مثال در مثال قیمت خانه در فصل ،4قیمت خانه باید «علت» ویژگیهای آن خوانده شــود (مثال تعداد اتاقخوابها یا تعداد حمامها) .در حالیکه در بحث متغیر محذوف فصل ،6توضیح دادیم که در یک رگرسیون چندگانه چنانچه یک متغیر مهم حذف شده باشد ،ممکن است تفسیرهای گمراهکنندهای پیرامون علیت صورت گیرد .جدای از این ،رگرسیونهای فراوانی وجود دارد که در آن مشخص نیست که کدام متغیر علت کدام متغیر است .برای مثال در تمرین ،11-8رگرسیونی را بین افزایش دستمزد ( )Yو افزایش قیمت محصوالت ( )Xاجرا نمودید .ممکن است که افزایش قیمت محصوالت علت افزایش دستمزدها باشد (یعنی Xعلت Y باشد) چراکه با افزایش قیمت کاالها ،کارگران دستمزد باالتری را مطالبه مینمایند. ممکن اســت ادعای دیگری هم وجود داشته باشد که Yعلت Xاست .چراکه با افزایش دســتمزد کارگران ،سود بنگاه کاهش یافته و در نتیجه قیمت محصوالت
تحلیل دادههای اقتصادی
318
بیشتر میشود پس افزایش دستمزدها علت افزایش قیمت محصوالت است .به بیان دیگر ،علیت میتواند در هر یک از دو سمت جریان داشته باشد یا آنکه بهصورت همزمان در هر دو ســمت وجود داشته باشــد .بنابراین وقتی که ما از واژه «علت» در رگرسیون استفاده میکنیم ،میباید ضمن استفاده از منطقهای عقالنی ،احتیاط بسیاری نیز به خرج دهیم .اما هنگام کار بر روی دادههای سریزمانی ،میتوانیم تا حدودی با قاطعیت بیشتری در مورد علیت نظر بدهیم .در واقع چون زمان به عقب بــاز نمیگردد ،بنابراین اگر Aقبل از Bرخ داده باشــد ،آنگاه میتوان گفت که A علت رخداد Bاست چراکه امکان ندارد Bعلت شکلگیری Aباشد .به بیان دیگر، وقایعی که در گذشته رخ دادهاند میتوانند علت رخدادهای امروز باشند .اما وقایع آینده هرگز نمیتوانند علت رخدادهای امروز باشند .این درک شهودی را میتوان بهکمک رگرسیون و استفاده از مفهوم علیت گرنجر بررسی کرد .مبنای این مفهوم این است که Xعلت گرنجری Yمیباشد چنانچه مقادیر گذشته Xقادر به توضیح Yباشد .واضح است که اگر علیت گرنجر وجود داشته باشد بهطور قطع نمیتوان گفت که Xعلت Yاست .بههمین علت است که از عبارت «علیت گرنجر» به جای واژه «علیت» استفاده میکنیم .با این وجود وقتی که مقادیر گذشته Xقادر به توضیح مقادیر کنونی Yباشــند ،الاقل این پیشنهاد مطرح است که شاید Xعلت Yباشد. علیت گرنجر تنها در مورد متغیرهای ســریزمانی کاربرد دارد .برای درک مفاهیم بنیادی علیت گرنجر بین دو متغیر ( Xو )Yابتدا فرض میکنیم که هر دو متغیر مانا هستند .وضعیت نامانایی که Xو Yدارای ریشه واحد باشند ولی همانباشتگی داشته باشند را هم در ادامه مورد بررسی قرار میدهیم.
علیت گرنجر در یک الگوی ساده ARDL
با فرض اینکه متغیرهای Xو Yمانا هستند ،بر اساس مباحث فصل 11الگوی ARDLزیر یک پیشنهاد مناسب برای الگویی ساده است: Yt = α + φ1Yt −1 + β1Xt −1 + et
این الگو نشان میدهد که مقادیر مربوط به دوره قبلی Xتوان توضیحدهندگی
آزمون علیت گرنجر در الگوی ARDLبا وقفههای pو q
الگوی ARDLباال محدود به وجود یک وقفه برای Xو Yبود .اما در حالت کلی و به همان شکل که در فصل 11توضیح دادیم میتوانیم این الگو را به وقفههای 1 مختلف ) ARDL(p,qتعمیم دهیم: Yt = α + δt + φ1Yt −1 + … + φp Yt −p + β1Xt −1 + … + βq Xt − q + et
که در آن Xعلت گرنجری Yاست اگر یکی یا همه ضرایب β1.....βqاز نظر آماری معنیدار باشند .یعنی اگر Xدر هر زمانی در گذشته قادر به توضیح Yبوده باشد ،آنگاه میتوانیم بگوییم که Xعلت گرنجری Yاست .با توجه به اینکه فرض کردیم Xو Yریشــه واحد ندارند ،با برآورد OLSضرایب رگرسیونی و محاسبه -1توجه داشــته باشــيد كه متغير Xtاز الگو حذف شده است ،چراكه در عليت گرنجر ما به دنبال نقش گذشته متغيرها هستيم و مقدار دوره جاري آنها در الگو جايي ندارد .اگر Xtرا در الگو قرار ميداديم ،اين كار به منظور پیراستن الگو از پيچيدگيهايي است كه هنگام تفسیر ضرايب پيش ميآيد.
319
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
مقدار کنونی Yرا دارد .ضریب β1میزان اثرگذاری Xt −1بر Ytرا اندازه میگیرد .اگر β1 =0باشد آنگاه مقادیر گذشته Xاثری بر Yندارد و در نتیجه Xنمیتواند علت گرنجری Yباشد .یعنی اگر β1 =0آنگاه مقادیر گذشته Xدر مقابل مقادیر گذشته Yتوانایی توضیحدهندگی ندارند .حال با توجه به اینکه میدانیم چگونه یک الگوی ARDLرا برآورد کنیم و آزمون فرضیه را انجام دهیم ،آزمون علیت گرنجر ســاده خواهد بود .به این شکل که با برآورد OLSرگرسیون فوق که میتواند با اکسل یا بستههای نرمافزاری اقتصادسنجی انجام شود P-value ،مربوط به ضریب متغیر Xt-1 محاسبه و معناداری آن آزمون میشود .اگر β1از نظر آماری معنادار بود (برای مثال )P-value< 0/05آنگاه نتیجه میگیریم که Xعلت گرنجری Yاست .فرضیه صفر در این آزمون H0 :β1 =0است .یعنی فرضیه صفر عدم وجود علیت گرنجر است. پس بهتر است که آزمون H0 :β1 =0را آزمون عدم وجود علیت گرنجر بنامیم .اما در متن از همان عبارت عام آزمون علیت گرنجر استفاده میکنیم.
تحلیل دادههای اقتصادی
320
P-valueبرای هر یک از ضرایب میتوانیم در مورد وجود علیت گرنجر تصمیم بگیریم .اگر از سطح خطای 5درصد استفاده میکنید آنگاه اگر یکی از P-value هــای مربوط به ضرایب β1.….βqکوچکتر از 0/05بود ،آنگاه میتوانید نتیجه بگیرید که علیت گرنجر وجود دارد .اما اگر هیچیک از ضرایب P-valueکوچکتر از 0/05نداشــتند ،نتیجه میگیرید که علیت گرنجر وجود ندارد .راهبردی که در باال توضیح داده شــد بسیار ســاده و کاربردی و با استفاده از بستههای نرمافزاری بهراحتی قابل اجرا است .اما توجه داشته باشید که یک روش رسمی دقیقتر-و البته پیچیدهتر -برای این آزمون وجود دارد .بهخاطر داشته باشید که فرضیه صفر در واقع عدم وجود علیت گرنجر است .یعنی Xعلت گرنجری Yنیست اگر مقادیر گذشته Xتوانایی توضیحدهندگی مقدار کنونی Yرا نداشته باشند .در این صورت فرضیه صفر H0 :β1 = β2 = … = βq = 0خواهد شد که بر اساس آن Xعلت گرنجری Yنیســت و اگر این فرضیه رد شود ،آنگاه Xعلت گرنجری Yخواهد بود .توجه داشته باشید که آزمون این فرض تا حدودی با آزمونی که در پاراگراف قبلی توضیح دادیم متفاوت است چراکه باید بهصورت همزمان β1 = β2 = … = βq = 0مورد آزمون قرار گیرد که با آزمون اینکه یک ضریب با وقفه qرا در βi =0برایi=1. … .qتنهایی آزمون کنیم متفاوت است .ما اینجا در مورد اینکه چنین آزمونی که همزمان چند ضریب برابر با صفر باشــند ،صحبتی نخواهیم کرد ولی خوانندگان عالقهمند میتوانند به پیوست 12-1مراجعه کنند. با این وجود اگر راهبرد ساده توضیح داده شده در این کتاب را مورد استفاده قــرار دهید باید به این نکات توجه کنید :اگر دریافتید که یکی یا همه ضرایب β1.….βqبــا توجه به آمــاره tیا P-valueمعنیدار هســتند ،میتوانید نتیجه بگیرید که Xعلت گرنجری Yاســت .اگر هیچیک از ضرایب معنیدار نبودند، احتماال در وضعیتی هستید که Xعلت گرنجری Yنیست اما اگر از روش دوم که همه ضرایب را با هم آزمون مینماید استفاده میکردید ،نتیجهگیری شما با خطای کمتری در زمینه عدم علیت گرنجری مواجه بود.
مثال 12-2الف :آیا افزایش دستمزد علت گرنجری افزایش قیمت است؟ دادههای ســاالنه 1855-1987قیمت و دســتمزد انگلســتان در فایل
WP.XLSوجــود دارد که پیش از این در تمریــن 11-8دیدهاید .اگر آن تمرین را انجام داده باشید ،شاید بهخاطر داشته باشید که لگاریتم هر دو متغیر دارای ریشه واحد بوده است ولی همانباشته نیستند .اما تفاضل
و قیمت تفســیر کرد .ما از این دادهها برای بررســی اینکه آیا افزایش دســتمزد علت افزایش قیمت است استفاده میکنیم .دالیل خوبی برای
وجود چنین رابطهای وجود دارد .در نهایت اگر دســتمزد افزایش یابد، شــرکتها انگیزه کافی برای افزایش قیمت و جلوگیری از کاهش سود را خواهند داشــت .جدول 12-5شــامل نتایج برآورد OLSرگرسیون
افزایــش قیمت ( ) ∆Pبرای چهار وقفه خــودش و چهار وقفه افزایش دستمزد ( ) ∆Wو روند قطعی را نشان میدهد .آزمون فرضیه به وسیله P-valueنشان میدهد که تنها روند قطعی و وقفه آخر افزایش قیمت
توان توضیحدهندگی افزایش قیمت فعلی را دارند .تمامی ضرایب مربوط
به وقفههای افزایش دستمزد بیمعنی هستند .بنابراین ،بر اساس مباحثی که داشتهایم ،افزایش دستمزد علت گرنجری افزایش قیمت نیست. جدول 12-5الگوی ARDLکه تورم قیمت متغیر وابسته است
ضریب
انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حد باال در سطح %95
عرض از مبدا -0/751
0/710
-1/058
0/292
-2/156
0/654
∆Pt −1
0/822
0/170
4/850
0/000
0/486
1/158
∆Pt − 2
-0/041
0/186
-0/222
0/825
-0/409
0/326
321
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
این دو سری ،مانا بوده که آنها را میتوان بهعنوان نرخ افزایش دستمزد
ضریب
انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حد باال در سطح %95
∆Pt −3
0/142
0/186
0/762
0/448
-0/227
0/511
∆Pt − 4
-0/181
0/175
-1/035
0/303
-0/526
0/165
∆Wt −1
-0/016
0/143
-0/114
0/909
-0/299
0/267
∆Wt − 2
-0/118
0/143
-0/823
0/412
-0/402
0/166
∆Wt −3
-0/042
0/143
-0/292
0/771
-0/324
0/241
∆Wt − 4
0/038
0/142
0/266
0/791
-0/244
0/319
روند قطعی
0/030
0/011
2/669
0/009
0/0077
0/052
تحلیل دادههای اقتصادی
علیت دوطرفه
322
در بسیاری از شرایط مشخص نیست که علیت در کدام سمت وجود دارد .مثال آیا وقفههای افزایش دستمزد علت افزایش قیمت است یا اینکه سمت علیت برعکس است؟ در این شرایط که علیت میتواند در هر سمتی وجود داشته باشد مهم است که آن را مورد بررسی دقیق قرار دهید .اگر Yو Xدو متغیری مورد مطالعه باشند، عالوه بر اینکه باید رگرسیونی بین ،Yوقفههای Yو وقفههای ( Xمانند باال) برقرار کنید میباید رگرسیونی هم بین Xبا وقفههایش و وقفههای Yایجاد نمایید .توجه داشته باشید که این امکان وجود دارد که Yعلت گرنجری Xباشد و همزمان Xهم علت گرنجری Yباشــد .در روابط پیچیده اقتصادی ،اینگونه روابط علی دوسویه تا حدودی رایج و منطقی اســت .مثال به رابطــه نرخ بهره و نرخ ارز فکر کنید .از ت نرخ بهره بر نرخ ارز در آینده دیدگاه اقتصاد کالن این غیرمنطقی نیست که سیاس اثرگذار باشد و بههمین شکل منطقی است که فکر کنیم نرخ ارز میتواند بر آینده سیاســتگذاری نرخ بهره موثر واقع گردد (برای مثال اگر تصور شود که نرخ ارز خیلی باال است بانک مرکزی ممکن است نرخ بهره را در آینده کاهش دهد).
مثال 12-2ب :آیا افزایش قیمت علت گرنجری افزایش دستمزد است؟ در مثال 12-2الــف ،از دادههای WP.XLSبرای بررســی اینکه آیا
افزایش دســتمزد علت گرنجری افزایش قیمت اســت استفاده کردیم. آنجــا یافتیم که این رابطه علّی برقرار نیســت .با این وجود این امکان وجــود دارد که رابطــه علیت در جهت عکس آن برقرار باشــد که بر
این اســاس افزایش قیمت میتواند علت گرنجری افزایش دســتمزد قیمت دورههای گذشــته توجه میکنند و بر آن اســاس درخواســت
خــود را برای دســتمزد دوره جاری مطرح مینماینــد .جدول 12-6 شــامل نتایــج بــرآورد OLSتخمین رگرســیون افزایش دســتمزد
( ) ∆Wبــر روی چهار وقفه خودش و همچنین چهــار وقفه افزایش قیمت ( ) ∆Pو روند قطعی در آن است .در اینجا شواهدی یافت شده اســت که افزایش قیمت علت گرنجری افزایش دستمزد است .بهطور
ویژه ،ضریب ( ) ∆Pt −1معنیداری باالیی دارد که نشان میدهد که نرخ افزایش قیمت در سال قبل ،قادر بوده است تا بهخوبی افزایش دستمزد
را در دوره کنونی توضیح دهد.
جدول .12-6الگوی ARDLکه تورم دستمزد متغیر وابسته است
ضریب
انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حد باال در سطح %95
عرض از مبدا -0/609
0/835
-0/730
0/467
-2/262
1/044
∆Wt −1
0/053
0/168
0/312
0/755
-0/280
0/386
∆Wt − 2
-0/040
0/169
-0/235
0/814
-0/374
0/294
∆Wt −3
-0/058
0/168
-0/348
0/728
-0/391
0/274
∆Wt − 4
0/036
0/167
0/215
0/830
-0/295
0/367
323
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
باشــد .در کل میتــوان گفت کــه اتحادیههای کارگری بــه افزایش
ضریب
انحراف معیار
آماره t
P-value
حد پایین در سطح %95
حد باال در سطح %95
∆Pt −1
0/854
0/200
4/280
0/000
0/459
1/249
∆Pt − 2
-0/217
0/218
-0/993
0/323
-0/649
0/215
∆Pt −3
0/234
0/219
1/067
0/288
-0/200
0/668
∆Pt − 4
-0/272
0/205
-1/323
0/188
-0/678
0/135
روند قطعی
0/046
0/013
3/514
0/020
0/072
مترین 12-3
در مثال 12-2الف و ب ،از دادههای WP.XLSاستفاده شده است که در آن p=q=4 تحلیل دادههای اقتصادی
قرار داده شــده اســت (وقفه برای هر دو متغیر 4است) .با استفاده از افزایش قیمت
324
بهعنوان متغیر وابســته و اجرای آزمونهای رایج در فصل 11صورت گرفته است که
وقفه بهینه برای pو qانتخاب شده است .بررسی کنید که آیا بر اساس )ARDL(p,q
که انتخاب کردهاید ،افزایش دستمزد علت گرنجری افزایش قیمت است .این بررسی را در شرایطی که افزایش دستمزد متغیر وابسته است تکرار نمایید.
مترین 12-4
فایل دادههای LONGGDP.XLSکه شــامل دادههای GDPسرانه واقعی برای چهار اقتصاد بزرگ انگلیسیزبان (آمریکا ،انگلیس ،کانادا و استرالیا) طی سالهای
1870-1993است.
(الف) تفاضل متغیرها را محاسبه کنید تا رشد GDPسرانه برای این چهار کشور را داشته باشید.
(ب) بررسی کنید که رشد GDPدر کدامیک از کشورها میتواند علت گرنجری رشد
GDPدر کشوری دیگر باشد .برای مثال آیا رشد GDPدر آمریکا علت گرنجری رشد GDPدر انگلستان است؟ آیا در مورد کانادا هم این رابطه صادق است؟
علیت گرنجر با متغیرهای همانباشته
آزمون علیت گرنجر بین متغیرهای همانباشته بسیار شبیه روشی است که پیش از این توضیح دادیم .مرســوم است که با انواع الگوهای تصحیح خطا ()ECM که در فصل 11توضیح دادیم کار کنیم: ∆Yt = ϕ + δt + λet −1 + γ1∆Yt −1 + … + γ p ∆Yt −p + ω1∆Xt −1 + … + ωq ∆Xt − q + ε t
325
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
توضیحات مختصر فــوق به علیت گرنجری تمرکز یافت که تنها دو متغیر Xو Yدر آن وجــود دارد .اما هیچ دلیلی وجــود ندارد که مبانی تکنیکی فوق به متغیرهای بیشــتری تعمیم نیابد .برای مثال اگر ســه متغیر X، Yو Zرا در اختیار داشــته باشــیم و بخواهیم تحقیق کنیم که آیا Xیا Zعلت گرنجری Y هســتند ،میتوانیم بهسادگی رگرسیونی برای Yبسازیم که متغیرهای توضیحی آن وقفههای ،Yوقفههای Xو وقفههای Zباشد.اگر بگوییم وقفههای Zمعنیدار بودهانــد و وقفههای Xاینگونه نبودهانــد آنگاه میتوانیم بگوییم که Zعلت گرنجری Yاست ولی Xنیست.
∆Yt −p + ω1∆Xt −1 + … + ωq ∆Xt − q + ε t
همانطور که در فصل 11توضیح دادیم ،این همان الگوی ARDLاست بهجز =e آنکه در آن عبارت λet −1وجود دارد .بهخاطر دارید که Yt −1 − α − βXt −1 t −1 اســت ،که با برآوردی رگرسیونی بین Yو Xبهدســت میآید و پسماند آن برای رگرســیون فوق ذخیره میگردد .درک ما این است که Xعلت گرنجری Yاست وقتی که مقادیر گذشــته Xبتواند توضیحــی برای مقادیر کنونــی Yارائه دهد. بهکارگیری این مفهوم در ECMبه این شکل است که مقادیر گذشته Xرا به شکل ∆Xt −1,…, ∆Xt −qو et −1در نظر بگیریم .بر این اساس Xعلت گرنجری Yنیست اگر ω1 = ω2 = … = ωq = λ = 0باشــد .در فصل 11توضیح دادیم که چگونه میتوان با بستههای نرمافزاری یک مدل ECMرا برآورد کرد یا آنکه در یک روش دو مرحلهای رگرســیون OLSضرایب و مقادیر آماره tو P-valueمحاسبه شود
که بر اســاس آنها میتوان آزمون علیت گرنجــر را مانند آزمون مانایی انجام داد. همچنین آزمون Fکه در پیوســت 12-1توضیح داده شد هم میتواند برای آزمون ω1 = ω2 = … = ωq = λ = 0استفاده شود .در پاراگراف قبلی نحوه آزمون اینکه آیا Xعلت گرنجری Yاســت را توضیح دادیم .آزمون اینکه Yعلت گرنجری X است باید با آزمون عکس که Xعلت گرنجری Yاست در ECMمورد بررسی قرار گیرد .یکی از مفاهیم جذاب در تئوری همانباشتگی گرنجر که الزم است در اینجا بهآن اشاره شود این است که :اگر Xو Yهمانباشته باشند ،آنگاه نوعی علیت بین آن دو برقرار است .به این ترتیب که Xباید علت گرنجری Yباشد یا اینکه Yعلت گرنجری Xباشد یا آنکه علیت در هر دو سمت برقرار است.
مترین 12-5
تحلیل دادههای اقتصادی
از دادههای مصرف ( )Yو درآمد ( )Xدر فایل INCOME.XLSاســتفاده کنید .در
326
نتیجه تمرین 11-5میدانیم که این دو همانباشته هستند.
آزمون کنید که آیا Yعلت گرنجری Xاست یا آنکه Xعلت گرنجری Yاست.
خودرگرسیونی برداری ()1VAR
بحث ما پیرامون علیت گرنجر بهصورت طبیعی ما را به سمت خودرگرسیونی یــا همان ( )VARهدایت میکند .قبل از توضیــح در مورد کاربردهای عام این الگو و نحوه برآورد آن ،ابتدا باید بدانیم که VARچیســت .ابتدا فرض میکنیم که همه متغیرها مانا هستند .اگر متغیرهای اصلی ریشه واحد داشته باشند آنگاه باید از الگویی اســتفاده شــود که تفاضل متغیرها را مورد استفاده قرار میدهد (که دیگر ریشــه واحد ندارند) .در انتهای این فصل به بسط این نوع الگوها در شرایط همانباشتگی میپردازیم. -1عبارت VARدر اقتصادسنجي شناخته شده است اما بهخاطر داشته باشيد كه در اقتصاد مالي مفهوم «ارزش در معرض ريســك» نيز با varنشان داد ه ميشود كه مفهوم متفاوتي است .اما معموال دومي را با حروف كوچك مينويسند.
وقتی ما علیت گرنجر بین Xو Yرا مورد بررســی قرار میدادیم ،با الگوی محدود ) ARDL(p,qکار میکردیم که Yمتغیر وابســته بوده است .از این الگو برای آنکه بدانیم Xعلت گرنجری Yاست استفاده میشده است .سپس سعی نمودیــم که علیت را در جهت عکس هــم مورد آزمون قرار دهیم که در آن X متغیر وابسته شده بود .میتوانیم دو معادله را بهصورت زیر بنویسیم: Yt = α1 + δ1t + φ11Yt −1 + … + φ1p Yt −p + β11Xt −1 + … + β1q Xt −q + e1t
اولین معادله برای این به کار میرود که بدانیم Xعلت گرنجری Yاست یا نه .معادله دوم هم برای این آزمون اســت که بدانیم Yعلت گرنجری Xاست یا نه .توجه دارید که همه ضرایب زیرنویســی دارند که نشان میدهد در کدام معادله قــرار گرفتهاند .برای مثال α1عرض از مبدا معادله اول اســت و α 2 عرض از مبدا معادله دوم .همچنین جمله انحراف هم دارای زیرنویس است تا مشخص شود به معادله اول تعلق دارد یا به معادله دوم. یک الگوی VARبســطی از الگوی خودرگرســیونی ( )ARاست که در آن بیــش از یک متغیر تحت بررســی قرار میگیرد .به یــاد دارید که الگوی AR معرفیشــده در فصل 10تنها شــامل یک متغیر وابســته ( )Yبوده است که به وقفههای خود (و شاید روند معین) وابسته بوده است .اما در الگوی VARبیش از یک متغیر وابسته وجود دارد (برای مثال Yو )Xو در آن بیش از یک معادله هم وجود دارد (برای مثال یکی در حالتی که Yمتغیر وابســته است و دیگری برای آنکه Xمتغیر وابســته باشد) .هر معادله از وقفه تمامی متغیرهای مطالعه بهعنوان متغیر توضیحی (و شــاید از روند قطعی) استفاده مینماید .دو معادله باال ســاختار یک الگوی VARدومتغیره را نشان میدهد .برای مثال در معادل ه اول ،متغیر Yوابســته به pوقفه خودش و qوقفه Xاســت .تعداد وقفه pو q میتواند با روش آزمون پیدرپی که در فصل 10توضیح داده شد ،انتخاب شود.
327
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
Xt = α 2 + δ2 t + φ21Yt −1 + … + φ2p Yt −p + β21Xt −1 + … + β2q Xt −q + e2t
با این حال اگر VARبیش از دو متغیر داشته باشد ،تعداد وقفههای بسیار زیادی میباید مورد بررســی قرار گیرد .از این رو مرســوم است که در همه معادالت p=qدر نظر گرفته شــود یا به عبارتی تعداد وقفه یکســانی برای همه متغیرها ایجاد میشود که الگویی که از آن برمیآید را ) VAR(pمینامند .الگوی )VAR(p زیر دارای سه متغیر X، Yو Zاست:
Yt = α1 + δ1t + φ11Yt −1 + … + φ1p Yt −p + β11Xt −1 + … + β1p Xt −p + θ11Z t −1 + … + θ1p Z t −p + e
Xt −p + θ11Z t −1 + … + θ1p Z t −p + e1t
Xt = α 2 + δ2 t + φ21Yt −1 + … + φ2p Yt −p + β21Xt −1 + … + β2p Xt −p + θ21Z t −1 + … + θ2p Z t −p + e
Xt −p + θ21Z t −1 + … + θ2p Z t −p + e2t
Z t = α 3 + δ3 t + φ31Yt −1 + … + φ3p Yt −p + β31Xt −1 + … + β3p Xt −p + θ31Z t −1 + … + θ3p Z t −p + e تحلیل دادههای اقتصادی
Xt −p + θ31Z t −1 + … + θ3p Z t −p + e3t 328
توجــه دارید که هر معادله عالوه بــر عرض از مبدا و روند قطعی دارای p
وقفه برای هر متغیر تحت بررسی است .الگوی ) VAR(pبا بیش از سه متغیر هم میتواند بهشــکل مشابه تنظیم شود .از آنجاکه فرض نمودیم تمامی متغیرهای استفادهشده در الگوی ) VAR(pمانا هستند ،برآورد و آزمون فرضیه میتواند به شکل معمول صورت گیرد .یعنی میتوانید ضرایب هر معادله را با روش OLS برآورد کنید .آماره tو P-valueمحاسبهشــده کمک میکند تا تشخیص دهید کدام ضرایب معنیدار هستند .همچنین میتوانید به پیوست 12-1مراجعه کنید ش آزمون Fکه پیچیدهتر است را ببینید. تا رو با توضیحات باال ،اســتفاده از مدل VARســاده خواهد بود .شاید برایتان جالب باشــد که چنین الگویی چه کاربردی دارد و چرا کسی باید از این الگو اســتفاده نماید .یکی از کاربردهای این الگو ،آزمون علیت گرنجر است .به این شــکل که الگوی VARچارچوبی برای آزمون علیت گرنجر بین متغیرها ایجاد میکند .اما در واقع دالیل مهمتری برای استفاده از چنین الگویی وجود دارد که باید به آنها اشاره شود.
329
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
در این کتاب ،همواره تاکید داشــتیم که در مورد تفسیر ضریب همبستگی یا نتایج رگرســیون به علیت یا اثرگذاری میباید دقت فراوانی صورت گیرد .تئوری اقتصــاد و عقل متعارف در مورد برخی متغیرها میتواند کمک بزرگی به تفســیر نماید .در فصلهای 4تا 6مثالهای فراوانی را بررسی کردیم که در آنها ،رگرسیون ت یا X منعکسکننده علیت بود .مثال( X ،تراکم جمعیت) علت ( Yجنگلزدایی) اس (اندازه خانه( بر ( Yقیمت خانه) اثر میگذارد .در هر دو حالت ،امکانپذیر نیست که قاطعانه بگوییم Yعلت Xاست یا فقط بر آن اثرگذار است. اما مثالهای بســیاری وجود دارد که نه بر اســاس تئوری اقتصادی و نه بر اســاس عقل متعارف نمیتوانید یک رابطه رگرســیونی بسازید که ضرایب آن را بهعنوان علیت تفســیر کنید .مثال ،آیا ( Yافزایش دستمزد) علت ( Xافزایش قیمت) است؟ یا عکس آن صادق است؟ تئوری اقتصادی و مشاهدات عمومی بــه ما میگویند که هر دو حالت ممکن اســت و شــاید آزمون علیت گرنجر بتواند پاسخی برای این سوال داشته باشد .حوزه اقتصاد کالن پر است از چنین مثالهایی که نمیتوان بهصورت مشــخص جهت علیت را از قبل تعیین نمود. آیا نرخ بهره علت تغییر نرخ ارز اســت یا برعکس؟ آیا رشد GDPعلت تغییر نرخ بهره است یا برعکس؟ یا هر دو؟ پاسخ به این سوالها نامشخص است و از این رو تفسیر ضرایب رگرسیونی که Ytو Xtدر آن قرار دارند دشوار است. پیش از این از موضوع همانباشتگی و ضریب فزاینده بلندمدت صرفنظر کرده بودیم ولی باید بدانیم که اگر همانباشتگی وجود داشته باشد ،در تفسیر نتیجه برآورد ضرایــب بهعنوان علیت باید احتیاط کنیم .برای مثال در فصل 11یافتیم که قیمت ( Yپرتقال ارگانیک) و ( Xپرتقال معمولی) با یکدیگر همانباشته هستند و ضریب فزاینده بلندمدتی که اثر Xبر Yرا نشــان میدهد 0/996اســت .این نتیجه نشان میدهد که قیمت Xبر Yاثر میگذارد (بهاین شکل که با افزایش 1واحدی قیمت پرتقال معمولی ،قیمت پرتقال ارگانیک احتماال به اندازه 0/996واحد در بلندمدت افزایش مییابد) .در این حالت بعید به نظر میرســد که قیمت پرتقال ارگانیک بر قیمت پرتقال معمولی اثرگذار باشد چراکه این نوع پرتقال سهم بسیار کوچکی از
تحلیل دادههای اقتصادی
330
بازار را در اختیار دارد .یعنی Xبر Yاثرگذار است ولی Yبر Xاثر نمیگذارد .اما اگر رگرسیونی ترتیب میدادیم که در آن Xمتغیر وابسته میبود (یعنی پرتقال ارگانیک متغیر توضیحی و پرتقال معمولی متغیر وابســته باشد) باز هم میتوانستیم رابطه همانباشتگی را تشخیص دهیم و ضریب فزاینده بلندمدت را محاسبه کنیم .اما در این حالت محاسبات ما دچار خطا میبود. موضوعی که در پاراگراف باال توضیح دادیم در الگوی VARیا بهطور کلی شکل نمیگیرد یا آنکه در حد ضعیفی رخ میدهد .چراکه ما از گذشته تمامی متغیرها برای توضیح متغیر وابسته استفاده میکنیم (مثال در معادله اول وقف ه همه متغیرها از t-1به قبل بهعنوان متغیر توضیحی قرار گرفته اســت .متغیر وابسته نیز Ytاســت) .همواره این امکان وجود دارد که گذشته بتواند اکنون را توضیح دهد ولی امکان ندارد که اکنون بر گذشته اثر بگذارد) .از این رو در الگوی VAR متغیرهای توضیحی ممکن اســت بر متغیر وابســته اثر بگذارند ولی این امکان وجود ندارد که متغیر وابســته بر متغیر توضیحی موثر واقع شود .مساله تفسیر ضرایب رگرسیون Ytبر Xtدر الگوی VARمطرح نمیشود. یکی از موضوعات بحثبرانگیز در مورد الگوهای VARاین است که آنها غیرتئوریک هســتند .به عبارت دیگر خیلی سفت و سخت به تئوری اقتصادی پایبند نیســتند .مثال به رابطه بین نرخ بهره ،سطح عمومی قیمتها ،عرضه پول و GDPحقیقی فکر کنیــد .تئوریهای اقتصاد کالن روابط پیچیدهای را برای این متغیرها در نظر میگیرند .الگوی IS-LMشــاید یکی از شناختهشدهترین آنها اســت ولی در واقع تعداد بیشتری از این الگوها وجود دارد .اما در جایی کــه نظریهپرداز اقتصاد کالن میخواهد ایــن نظریات را به کاربردهای تجربی تبدیــل کند ،کاربرد الگوهــای VARدر عمل توجه چندانــی به آن تئوریها نمیکند .الگوی VARمیگوید« :نرخ بهره ،سطح قیمتها ،عرضه پول و GDP حقیقی جملگی به هم مرتبط هســتند .ما این روابط را بهگونهای اجرا میکنیم که هر متغیر به وقفههای خودش و وقفه همه متغیرهای دیگر وابســته باشد». در عمل یک رابطه واقعی بین الگوی تجربی VARو تئوری اقتصاد کالن (مثل
)IS-LMوجود ندارد .کسانی که از VARاستفاده میکنند از این الگو بهخاطر عملکرد عالی آن در پیشبینی دفاع مینمایند .در ادامه این موضوع را با جزئیات بیشــتری توضیح خواهیــم داد اما در اینجا باید تنها ایــن موضوع را بهخاطر بسپارید که این موضوع دلیل محکمی برای استفاده از الگوهای VARاست .در بسیاری مســائل ،الگوی VARپیشبینی بهتری نسبت به الگوهای درهمریخته اقتصاد کالن دارد.
اقتصاددانــان اغلب از این اطالعــات اقتصاد کالن اســتفاده میکنند: ( Rنــرخ بهــره)( M ،عرضــه پــول)( P ،ســطح قیمتهــا)،
GDP( Yحقیقی) .با توجه به عالمتهایی که برای این متغیرها به کار
گرفته میشــود ،به صورت غیررسمی به چنین الگوهای RMPYگفته میشود .فایل RMPY.XLSشــامل دادههای فصلی این متغیرها برای
آمریکا طی دوره زمانی 1947Q1تا 1992Q4میباشد: • نرخ بهره سه ماهه اوراق خزانه ()R
• عرضه پول ( )Mو در مقیاس میلیارد دالر ()M2
• ســطح عمومی قیمتها بر اساس شاخص ضمنی بر اساس سال پایه )P( 1987
• تولیــد ناخالص حقیقی در مقیاس میلیــارد دالر بر مبنای قیمتهای )Y( 1987
پیش از آنکه تحلیلی بر روی این دادهها صورت گیرد ،باید آزمون ریشه واحد انجام شود .بهخاطر دارید که اگر ریشه واحد وجود داشته باشد ولی رابطه همانباشتگی در بین نباشد ،امکان شکلگیری رگرسیون ساختگی
وجود خواهد داشــت .در این صورت باید با دادههای دیگری کار کنید.
331
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
مثال 12-3الگوی ) VAR(1با متغیرهای RMPY
در سوی مقابل اگر ریشــه واحد وجود داشته باشد و همانباشتگی بین
دادهها هم در بین باشد ،آنگاه اطالعات اقتصادی مهمی در اختیار است
که نشانگر همسو بودن و رفتار روندگونه مشابه متغیرها است.
در این مســاله ،فرضیه وجود ریشــه واحد و عدم وجود همانباشتگی
رد نشده اســت .بنابراین برای پرهیز از رگرسیون ساختگی با دادههای متفاوتــی کار خواهیم کــرد .در این خصوص ابتــدا از دادهها لگاریتم میگیریم و ســپس تفاضل آن را محاسبه مینماییم و بعد آن را در 100
ضرب میکنیم .حاال با درصد تغییرات دادههای اصلی روبهرو هســتیم
(برای مثال عدد 1به معنی 1درصد تغییر است) .یعنی: درصد تغییر در نرخ بهره ( ) ∆R
تحلیل دادههای اقتصادی
درصد تغییر در عرضه پول ( ) ∆M
332
درصد تغییر در سطح عمومی قیمتها که همان تورم است ( ) ∆P
درصد تغییر در تولید ناخالص داخلی که همان رشد اقتصادی است ( ) ∆Y
جــدول 12-7نتایج برآورد OLSالگوی ) VAR(1را نشــان میدهد.
توجه داشــته باشــید که این جدول اندک تفاوتهایی با جداول قبلی دارد .از آنجاکه چهار متغیر در الگوی VARوجود دارند ،چهار معادله
نیز برای آنها شکل گرفته است .نتیجه برآورد برای هر چهار معادله را در یک جدول گزارش شــده است .برای جا شدن کل نتایج ،تنها نتیجه
برآورد ضریب و P-valueآن را در جدول قرار دادیم.
با تفکیک ضرایب معنیدار (آنهایی که P-valueکمتر از 0/05دارند)
به رفتارهای جالبی پی میبریم .نخســت اینکه در همه معادالت وقفه متغیر وابسته معنیدار اســت .مثال در معادله اول که متغیر وابسته
∆R
است ،ضریب مربوط به ∆R t −1معنیدار است .دوم اینکه نتایج اطالعات
خوبی از علیت گرنجر به ما میدهند .در معادلهای که ∆Rمتغیر وابسته است ،میتوانیم ببینیم که هم رشد GDPو هم رشد پول ،علت گرنجری
نرخ بهره هستند .به عبارت دیگر ،وقفههای این دو متغیر قادر به توضیح مقدار کنونی نرخ بهره است .با توجه به معادله ، ∆Mدرمییابیم که رابطه
علیــت گرنجر بین نرخ بهره و عرضه پول در هر دو ســمت در جریان است.
جالب اســت که نرخ تورم علت گرنجری هیچ متغیری نیست اما ∆R
و ∆Mهــر دو ،علت گرنجری تورم هســتند .اقتصاددانان حوزه کالن با اســتفاده از این اطالعات میتوانند به پرسشهای نظری خاصی پاسخ
بدهند (مثال آیا تــورم یک پدیده کامال پولی اســت؟ آیا نتایج تجربی دیــدگاه پولیون را مورد حمایت قرار میدهد؟ یــا از دیدگاه کینزینها
حمایت میشــود؟ آیا بخش واقعی اقتصاد بر تورم اثرگذار است؟) ،اما بحث در مورد جزئیات این موضوعات فراتر از این کتاب است. جدول .12-7نتایج برآورد
متغیر وابسته
الگوی VARبرای RMPY
متغیر وابسته
متغیر وابسته
متغیر وابسته
ضریب
P-value
ضریب
P-value
ضریب
P-value
ضریب
P-value
عرض از مبدا
-3/631
0/162
0/335
0/001
0/161
0/138
0/495
0/005
∆R t −1
0/222
0/003
-0/013
0/000
0/010
0/002
0/00
0/940
∆Mt −1
3/391
0/007
0/749
0/000
0/121
0/021
0/283
0/000
∆Pt −1
1/779
0/228
0/061
0/303
0/519
0/000
-0/117
0/242
∆Yt −1
3/224
0/004
-0/032
0/480
-0/039
0/407
0/309
0/000
روند
-0/056
0/011
0/00
0/695
0/002
0/048
-0/003
0/035
333
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
اما نرخ بهره علت گرنجری GDPنیســت و این رابطه یکسویه است.
مترین 12-6
از دادههای R، M، Pو Yدر RMPY.XLSاستفاده کنید. (الف) آزمون ریشه واحد را برای هر متغیر انجام دهید.
(ب) آزمون همانباشتگی را برای متغیرها انجام دهید.
(ج) از دادههای ∆P ، ∆M ، ∆Rو ∆Yدر RMPY.XLSاســتفاده کنید و آزمون ریشه واحد را برای آنها انجام دهید.
انتخاب وقفه در الگوهای VAR
تحلیل دادههای اقتصادی
334
نتیجه مثال 12-3که بر اســاس الگوی ) VAR(1بنا شــده بود که در آن p=1را انتخــاب کرده بودیم و در نتیجه همه متغیرهــای توضیحی با یک وقفه بر متغیر وابســته اثر میگذاشتند .اما در حالت کلی شاید بخواهیم که pرا به مقادیر غیر از یک تعمیم دهیم .ادبیات انبوهی در ارتباط با انتخاب وقفه در الگوهای VARوجود دارد که عموم آنها پیچیده هستند و نمیتوان آنها را به کمک اکسل اجرا کرد .اما بستههای نرمافزاری خروجیهای مختلفی در ارتباط با انتخاب وقفه ارائه میدهند. مثال نرمافزار Stataاطالعات مختلفی در این زمینه ارائه میدهد که از جمله آنها معیار آکائیک ،)AIC( 1معیار شوارز-بیز )SBIC( 2و معیار هانان-کوئین)HQIC( 3 است .توضیح کامل پیرامون آنها به درک مفاهیمی نیاز دارد که فراتر از سطح این کتاب است .اما برای استفاده از آنها الزم است بدانید که از این معیارها برای تمامی وقفههای VARاز 1تا pmaxمیتوان اســتفاده کرد (حداکثر وقفهای که منطقی به نظر میرسد) .آنگاه آن وقفهای را انتخاب پایینتر میکنید که اندازه معیارها در آن کوچکترین باشد .همچنین ،روش استفاده از آماره tو P-valueکه در این کتاب به آن اشاره کردیم هم میتواند اطالعات مهمی در مورد تعداد وقفهها به ما بدهد. این نکات در مثال 12-4توضیح داده میشود.
1- Akaike’s information criterion 2- Schwarz-Bayes information criterion 3- Hannan-Quinn information criterion
مثال 12-4الف :الگوی )VAR(2با متغیرهای RMPY در مثــال 12-3از دادههای ∆P ، ∆M ، ∆R
و ∆Yبرای برآورد یک الگوی
) VAR(1استفاده نمودیم .حال در جدول 12-8برآورد یک الگوی )VAR(2
نشان داده شده است .ضرایب متعددی از وقفه دوم متغیرها معنیدار هستند.
برای مثال ∆R t −2در معادلهای که ∆R tمتغیر وابسته است معنیدار است .این نشان میدهد که الگوی ) VAR(1استفادهشده در مثال 12-3مناسب نبوده همراه داشته باشد ،نگاه دقیقی به معادلهای که ∆Yدر آن متغیر وابسته است
بیاندازید .بهخاطر دارید که در الگوی ) VAR(1نتیجه گرفته بودیم که تورم علت گرنجری رشد GDPنیست .حاال در الگوی ) VAR(2به این نتیجه
میرسیم که تورم علت گرنجری رشد GDPهست .با توجه به اینکه رابطه بین تورم و رشد GDPیکی از موضوعات بسیار بحثبرانگیز در اقتصاد
کالن مدرن است ،بهای سنگینی بابت انتخاب الگوی غلط ) VAR(1باید پرداخت شود.
جدول .12-7نتایج برآورد
متغیر وابسته ضریب
الگوی VARبرای RMPY
متغیر وابسته
P-value
ضریب
-4/00
0/103
0/261
0/017
∆R t −1
0/315
0/000
-0/017
0/000
∆Mt −1
عرض از مبدا
متغیر وابسته
متغیر وابسته
P-value
ضریب
P-value
ضریب
P-value
0/113
0/311
0/513
0/006
0/009
0/004
0/002
0/670
2/824
0/106
0/655
0/000
0/086
0/280
0/310
0/019
∆Pt −1
3/049
0/061
-0/020
0/785
0/366
0/000
0/074
0/545
∆Yt −1
3/696
0/000
-0/051
0/270
-0/010
0/835
0/270
0/001
∆R t − 2
-0/346
0/000
0/003
0/298
-0/001
0/795
-0/010
0/085
∆Mt − 2
-2/201
0/213
0/157
0/045
0/025
0/755
-0/094
0/480
∆Pt − 2
1/164
0/457
0/095
0/170
0/282
0/000
-0/233
0/049
∆Yt − 2
1/085
0/303
0/036
0/445
-0/046
0/334
0/153
0/054
روند
-0/045
0/029
0/00
0/798
0/001
0/209
-0/003
0/104
335
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
است .برای آنکه بدانید انتخاب الگوی اشتباه ممکن است چه اشکاالتی به
مترین 12-7
از نتایج جدول 12-8استفاده کنید .علیت گرنجر بین متغیرها را بررسی کنید.
مترین 12-8
از دادههای ∆P ، ∆M ، ∆Rو ∆Yدر فایل RMPY.XLSاستفاده کنید:
(الف) با وقفه pmax = 5شروع کنید .وقفه مناسب VARانتخاب کنید.
(ب) از نتایج قســمت الف اســتفاده و رابطه علیت گرنجر بین متغیرها را بررسی کنید.
مترین 12-9
تحلیل دادههای اقتصادی
مجموعه دادههای LONGGDP.XLSهمانطور که بهخاطر دارید شــامل GDP
سرانه چهار کشور بزرگ انگلیسیزبان (انگلستان ،آمریکا ،استرالیا و کانادا) است.
336
دوره زمانی دادهها 1870الی 1993است .تفاضل دادهها را بهدست آورید تا رشد GDPســرانه این چهار کشور را داشته باشید .یک الگوی VARبرای این دادهها بسازید.
پیشبینی با الگوهای VAR
با وجود اینکه پیشبینی یکی از فعالیتهای مهم اقتصاددانان بهشــمار میرود، در این کتاب مطالب اندکی درباره آن گفتهایم .اما حوزه پیشبینی بسیار گسترده است .با توجه به انبوه مطالعات و روشهای مختلف تا حدودی غیرممکن است که این حوزه را در کتابی اینچنین پوشــش دهیم .با این وجود عموم بستههای نرمافزاری دارای امکانات خاص پیشبینی هستند که استفاده از آنها هم بسیار آســان اســت .وقتی الگویی را برآورد کردید (مثال یک الگوی VARیا ،)AR بهسادگی فشــردن یک دکمه میتوانید عملیات پیشبینی را انجام دهید .بهبیان دیگر ،بسیاری از بستههای نرمافزاری میتوانند خروجی پیشبینی را ارائه دهند
Yt = α1 + δ1t + φ11Yt −1 + β11Xt −1 + e1t Xt = α 2 + δ2 t + φ21Yt −1 + β21Xt −1 + e2t
نمیتوان YT +1را مشاهده کرد ،اما شاید بخواهید حدسی در مورد آن بزنید. از معادله اول الگوی VARاســتفاده کنید و t=T+1قرار دهید .آنگاه به تعریفی از YT +1میرسیم: YT +1 = α1 + δ1 ( T + 1) + φ11YT + β11XT + e1T +1
این معادله بهصورت مســتقیم برای دســتیابی به YT +1کافی نیست ،چراکه اطالعی از e1T +1نداریم :نمیدانیم چه تکانههای پیشبینی نشدهای در دوره آتی به اقتصاد وارد خواهد شد .از سوی دیگر ،نمیدانیم مقدار ضرایب چقدر است. اما اگر از مقدار جمله خطا (که قابل پیشبینی نیســت) صرفنظر کنیم ،آنگاه ∧ میتوانیم با برآورد OLSضرایب به پیشبینی Y T +1برسیم: ∧
∧
∧
∧
∧
Y T +1 = α1 + δ1 ( T + 1) + φ11 YT + β11 XT
337
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
بدون آنکه نیاز به درک عمیقی از فرایند پیشبینی داشته باشید. در اینجا مقدمــه مختصری برای برخی مفاهیم مرتبــط با پیشبینی ارائه میدهیم .تمامی مباحثی که در ادامه خواهیم داشت به پیشبینی الگوهای VAR اختصاص دارد با این حال توجه به این نکته مهم اســت که تمامی این مفاهیم را میتوانیــد به پیشبینی در الگوهای ســریزمانی تکمعادله تعمیم دهید .در مجموع میدانیم که یک الگوی ARشبیه VARاست با این تفاوت که تنها یک معادله دارد. پیشبینی غالبا زمانی انجام میشود که دادههای سریزمانی در اختیارمان باشد. شما بر اساس مشاهداتان حدس میزنید که چه اتفاقی در آینده رخ خواهد داد .به بیان فنیتر ،شما دادههای دوره زمانی t = 1, … ,tرا برای پیشبینی دوره زمانی T+1، T+2و بیشتر استفاده میکنید .برای درک اینکه چگونه پیشبینی انجام میشود به الگوی ) VAR(1زیر که دارای دو متغیر Yو Xاست توجه کنید:
تحلیل دادههای اقتصادی
338
توجه داشــته باشید که همه چیز در فرمول باال از دادههای اصلی یا برآورد رگرسیونی قابل دستیابی است .فقط باید چند عدد (ضرایب برآوردشده بر اساس ∧ ،OLSمقدار XT ، YTو )T+1را جایگذاری نمایید تا مقدار Y T +1را محاســبه ∧ کنید .بهروش مشابه میتوانید به مقدار XT +1دست یابید .شاید پیشبینی کردن به این روش وقتگیر و خستهکننده باشد ولی بستههای نرمافزاری قادر به انجام تمامی این محاسبات هستند. در پاراگراف باال شــیوه پیشبینی برای یک دوره آینده را شــرح دادیم. میتوانیم راهبرد مشــابهی برای دو دوره آتی هم انجام دهیم ،الزم است که تنها یک بســط اضافی انجام دهیم .در حالتی که میخواســتیم یک دوره را ∧ ∧ پیشبینی کنیم از XTو YTاســتفاده میکردیم تا Y T +1و XT +1را بهدســت ∧ آوریــم .در حالتی که بخواهیــم دو دوره را پیشبینی کنیم ،آنگاه Y T + 2و ∧ XT + 2به YT +1و XT +1وابســته هســتند .اما با توجه به اینکه دادههای ما حداکثــر تا دوره Tوجــود دارد از مقادیر YT +1و XT +1اطالعی نداریم .از ∧ ∧ ایــن رو مقادیر YT +1و XT +1را بــا Y T +1و XT +1جایگذاری میکنیم .به ایــن ترتیب ما از معادله مربوطــه VARبدون در نظر گرفتن جمله انحراف، جایگذاری ضرایب OLSو مقادیر گذشــته متغیرها برای پیشبینی اســتفاده خواهیم کرد .در فرمول زیر داریم: ∧
∧
∧
∧
∧
∧
∧
Y T + 2 = α1 + δ1 ( T + 2 ) + φ11 Y T +1 + β11 XT +1
معادله باال را میتوانید در اکســل بهدست آورید هرچند کمی خستهکننده ∧ است .همچنین مقدار X T + 2را در معادله زیر میتوان محاسبه نمود. ∧
∧
∧
∧
∧
∧
∧
XT + 2 = α 2 + δ2 ( T + 2 ) + φ21 Y T +1 + β21 XT +1
با چشمپوشــی از مقدار انحرافی که میتواند در هر دوره وجود داشــته باشد، میتوانیــم این روش را به دورههای بیشــتری تعمیم دهیــم .در هر دوره ضمن جایگذاری ضرایب OLSو مقادیر گذشته متغیرها میتوانیم اقدام به پیشبینی نماییم. مطالب قبلی پیرامون نحوه محاسبه برآورد نقطهای پیشبینی بود .قطعا آنچه
339
مثال 12-4ب :الگوی (VAR)2متغیرهای RMPY
در این مثال ،پیشبینی چهار متغیر ∆P ، ∆M ، ∆Rو ∆Yرا بر اســاس دادههــای RMPY.XLSایجاد کردهایم .در مثــال 12-4الف الگوی
) VAR(2را بــرای این دادهها طی دوره زمانی 1947Q2تا 1992Q4
اســتفاده نمودیم .روش مرسوم این است که تعدادی از دادهها را برای
مقایســه پیشبینی نگه داشــته باشــیم .بنابراین در اینجا از دادههای 1947Q2تا 1991Q4اســتفاده و الگوی ) VAR(2را برآورد کردیم؛
ســپس پیشبینی برای دوره 1992Q1تــا 1992Q4انجام میدهیم و بعد پیشبینی انجامشده برای سال 1992را با واقعیت مقایسه میکنیم. این مقایسه ،دیدگاه روشنی در مورد دقت عملکرد پیشبینی در الگوی
فوق میدهد.
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
که در واقعیت رخ خواهد داد کامال شــبیه به پیشبینی شــما نخواهد بود .در فصل ،5مطالب مشابهی را عنوان کردیم .گفتیم که OLSتنها مقادیری را برای ضرایــب معین میکنند که نمیتواند کامال دقیق باشــد .بههمین دلیل در ادامه تخمین ،OLSپیشــنهاد دادیم که سطح اطمینان را بهدست آوریم .این موضوع بازخوردی از ســطح بیاطمینانی ما نسبت به مقدار ضرایب برآورد شده است. هنگام پیشبینی نیز ،محاســبه سطوح اطمینان میتواند تا حدودی آگاهیبخش باشــد .این اقدام زمانی بیشتر عمومیت مییابد که نهادهای دولتی هم بخواهند برای پیشبینیهای خود ســطوح اطمینان را گزارش نمایند .مثال بانک مرکزی ممکن است اطالعیهای را به این شرح صادر کند« :پیشبینی ما از تورم در سال آینده 1/8درصد است و 95درصد اطمینان داریم که این نرخ بین 1/45درصد تا 2/15درصد خواهد بود» .بسیاری از بستههای نرمافزاری بهصورت خودکار این سطوح اطمینان را محاسبه مینمایند.
جدول 12-9شــامل پیشبینی و مقدار واقعی تورم و رشــد
GDP
در ســال 1992است .در تفســیر باید توجه داشته باشید که متغیرها
درصد تغییر در فصل هستند.مثال ،پیشبینی نرخ تورم
در 1992Q2
برابر با 0/731اســت که یعنی تورم 2/96درصدی در سال .جدول 12-9نشــان میدهد که الگوی ) VAR(2پیشبینیهای خوبی برای
تورم داشــته اســت بهجز 1992Q3که تورم واقعی به شــکل غیر معمولی پایین بوده اســت .اما پیشبینی برای رشد GDPبههیچوجه خوب نیست .در الگوی VARکه ســاختهایم ،رشد اقتصادی کندتر
از واقعیت پیشبینی شده است. تحلیل دادههای اقتصادی
جدول .12-9پیشبینی تورم و رشد GDPبرای سال 1992با
340
پیشبینی
∆P
واقعیت
∆P
پیشبینی
∆P
الگوی)VAR(2 واقعیت
∆P
1992Q1
0/626
0/929
-0/019
0/865
1992Q2
0/731
0/689
0/220
0/698
1992Q3
0/862
0/289
0/275
0/838
1992Q4
0/940
0/813
0/271
1/393
مترین 12-10
از متغیرهای ∆P ، ∆M ، ∆Rو ∆Yدر RMPY.XLSاستفاده کنید.
(الف) در مثال 12-4ب ،از الگوی )VAR(2اســتفاده شده بود .از الگوی ) VAR(pبا مقادیر مختلف ( pمثال p=3و )p=4برای پیشبینی سال 1992استفاده کنید .آیا هیچ
یک از این الگوهای VARمیتوانند پیشبینی بهتری ارائه دهند.
(ب) دادههایی که در مثال 12-4ب اســتفاده شــده است طی دوره 1947Q2تا 1991Q1برای پیشبینی سال 1992استفاده شده است .حاال از دادههای1947Q2
تا 1990Q4برای پیشبینی سال 1991و ( 1992یعنی دو سال) استفاده کنید.
ج .همینطور ســعی کنید که پیشبینی را برای دورههای طوالنیتری استفاده کنید. مثال در قسمت ب ،پیشبینی برای دو سال انجام شده بود .حاال پیشبینی را برای سه سال انجام دهید .چهار سال ،پنج سال و همینطور بیشتر .نتایج را بررسی کنید.
آیا به این نتیجه میرسید که VARدر دورههای کوتاهمدت پیشبینی بهتری نسبت
به دوره بلندمدت ارائه میدهد.
خودرگرسیونی برداری همراه با همانباشتگی
341
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
در ابتدای بررسی موضوع الگوهای VARفرض کردیم که همه متغیرها مانا هستند. اگر برخی از متغیرهای اصلی ریشــه واحد داشته باشند و همانباشته نباشند ،آنگاه آن متغیری که ریشه واحد دارد میباید تفاضلگیری شود و حاصل مانا شده آن در الگوی VARوارد گردد .این همه حاالت را پوشش میدهد بهجز حالتی که متغیرها ریشه واحد داشته باشند و در عینحال همانباشته هم باشند. بهخاطر دارید که در این حالت ،هنگام بحث در مورد علیت گرنجر ،پیشنهاد داده بودیم که با ECMکار کنید .راهبرد مشــابهی در اینجا هم قابل اســتفاده اســت .بهصورت ویژه ،در کنار کار بر روی الگوهای خودرگرسیونی برداری ( )VARباید بــا کارکرد الگوهای تصحیح خطای برداری ( )VECMنیز آشــنا شــوید .مانند ،VARالگوی VECMنیز دارای یک معادله برای هر متغیر است. اگر دو متغیر Xو Yوجود داشــته باشد ،آنگاه الگوی VECMبه صورت زیر خواهد بود:
∆Yt = ϕ1 + δ1t + λ1et −1 + γ11∆Yt −1 + … + γ1p ∆Yt −p + ω11∆Xt −1 + … + ω1q ∆Xt − q + ε1t + ω11∆Xt −1 + … + ω1q ∆Xt − q + ε1t
∆Xt = ϕ2 + δ2 t + λ 2 et −1 + γ 21∆Yt −1 + … + γ 2p ∆Yt −p + ω21∆Xt −1 + … + ω2q ∆Xt − q + ε + ω21∆Xt −1 + … + ω2q ∆Xt − q + ε2t همانطور که قبال دیدهایم Yt −1 − α − βXt −1 = eاست .توجه دارید که t −1 VECMشــبیه الگوی VARاســت که تفاضل متغیرها در آن وارد شده است.
تحلیل دادههای اقتصادی
342
تفاوت دو الگو در عبارت et −1اســت .دســتیابی به این عبارت از مسیر برآورد OLSرگرسیونی بین Yو Xمیسر است که جمله پسماند آن ذخیره شود .آنگاه میتوانیم با روش OLSبرآورد الگوی ECMو P-valueو ســطوح اطمینان را بهدســت آوریم .تعیین تعداد وقفهها و پیشبینی به همان روشی که در الگوی VARمشاهده شــد قابل اجرا است؛ تنها با اضافه شدن این پیچیدگی که برای پیشبینی عبارت تصحیح خطا نیاز به مقدار محاسبهشــده etخواهیم داشت. این مورد بهســادگی و با برآورد مقادیر αو βو جایگزینی etبا پســماند ut امکانپذیر است .البته بستههای نرمافزاری برآورد ،آزمون فرضیه و پیشبینی در الگوهای VECMرا بهصورت خودکار انجام میدهند. مانند همــه الگوهای قبلی ،میباید پیش از هر چیز ،آزمون ریشــه واحد بر روی متغیرها انجام شــود تا در مــورد مانایی یا نامانایی آنها آنها مطمئن شــویم .اگر متغیرها دارای ریشه واحد بودند ،آنگاه باید آزمون همانباشتگی بر روی آنها انجام شــود .در فصل 11روشــی را برای آزمون همانباشتگی معرفی کردیم که بر مبنای کنترل وجود ریشــه واحد در پســماند رگرسیون همانباشــتگی اجرا میشد .اما روشهای دیگری نیز برای آزمون همانباشتگی وجود دارد که از جمله معروفترین آنها آزمون جوهانســن 1است .توضیح در مــورد این آزمون فراتر از مباحث این کتاب اســت .بــا این حال اگر به بســته نرمافزاری دسترسی دارید که آزمون جوهانسن را انجام میدهد ،آنگاه میتوانید آن را بهصورت یک تمرین اجرا کنید و ما هم در اینجا توضیحات مختصری پیرامون آن خواهیم داد. نخســتین نکتهای که باید توجه داشته باشــید این است که وقتی با چندین متغیــر ســریزمانی کار میکنید همــواره این امــکان وجــود دارد که بیش از یک رابطه همانباشــتگی وجود داشــته باشــد .در واقع اگر با Mمتغیر کار میکنیــد این امکان وجــود دارد که M-1رابطه همانباشــتگی بین آنها وجود 1- Johansen test
343
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
داشــته باشــد (و این یعنی اینکه حداکثر M-1پسماند همانباشتگی در الگوی VECMقرار دارد) .برای مثال در مثال 12-5ما همانباشــتگی بین ســه متغیر را مورد بررســی قرار دادیم :مصرف ،دارایــی و درآمد .همانطور که خواهیم دید احتماال تنها یک رابطه همانباشــتگی بین این ســه متغیر وجود دارد .وقتی c، aو yدارای ریشــه واحد هســتند C اما c t − α − β1at − β2 y tمانا است ،بر اساس تئوری امکان دارد که دو رابطه همانباشتگی بین آنها وجود داشته باشد (اگر c t − y tو at − y tهر دو مانا باشند) .بههمین دلیل غالبا به جای آنکه تنها به دنبال وجود همانباشتگی باشیم به دنبال تعداد روابط همانباشتگی هستیم. آزمون جوهانسن برای تشخیص تعداد روابط همانباشتگی در الگوی VECM قابل استفاده است .بنا به دالیلی از عبارت «تعداد روابط همانباشتگی» استفاده نمیکنیم و عبارت «مرتبه همانباشتگی» را جایگزین آن مینماییم .جزئیات آزمون جوهانسن تا حدودی پیچیده اســت ولی مانند هر آزمون فرضیهای میتوانید مقایسهای بین آماره آزمون و سطح بحرانی داشته باشید و اگر اندازه آماره آزمون در منطقه بحرانی قرار گرفت ،فرضیه صفر را رد نمایید .خوشــبختانه بستههای نرمافزاری متعددی (نظیر )Stataتمامی این اعداد را برای شما محاسبه میکنند .ما نحوه کار با آنها را در مثال 12-5خواهیم دید .قبل از آنکه به این مثال برســیم توجه داشته باشید که وقتی از آزمون جوهانسن استفاده مینمایید ،میباید تعداد وقفهها را مشخص کرده باشید و نسبت به وجود روند قطعی هم تصمیم گرفته باشید .طول وقفهها با روش آزمون فرضیه یا استفاده از معیارهایی که در باال توضیح دادیم قابل انتخاب است. در الگوهــای VECMمیتوانید عرض از مبدا و روند قطعی را به الگو وارد نمایید (همانطــور که در معادالت باال این کار را انجام دادیم) .بههمین شــکل میتوانید عرض از مبدا یا روند قطعی را به رگرســیون همانباشــتگی هم اضافه نمایید (اگر پسماند همانباشتگی c t − α − β1at − β2 y tباشــد ،که عرض از مبدا در آن قرار گرفته است) .آزمون جوهانسن تا حدودی به ترکیب این اجزای معین حساس است و شما باید قبل از اجرای آزمون جوهانسن در مورد آنها تصمیم بگیرید.
مترین 12-11
از دادههای تمرین 12-9و الگوی VARبه کار رفته در آن استفاده کنید و پیشبینی
برای رشد GDPکشــورها تهیه کنید .الگو را با افقهای مختلف پیشبینی تکرار کنید .آیا الگوی VARپیشبینی مناسبی ارائه میدهد؟
مثال 12-5مرصف ،ثروت انباشته و بازدهی مورد انتظار سهام
لتائو و لودویگســون )2001(1با طرح یک نظری مالی اظهار داشتند که مصرف ،دارایی و درآمد میباید همانباشــته باشند و پسماند این رابطه
همانباشــتگی میباید قابلیت پیشبینی بازدهی اضافی ســهام را داشته
تحلیل دادههای اقتصادی
باشد .آنها در ادامه مشاهدات تجربی در رابطه با این نظریه ارائه دادند.
ما این تئوری را تکرار نمیکنیم (نمیخواهیم به دیدگاه آن مقاله پیرامون 344
پیشبینی بپردازیم) اما تاکید میکنیم که کار آنها بر اســاس ابزارهایی
انجام شــده اســت که ما در این فصل به آن پرداختیم :همانباشتگی و
برآورد .VECM
وجود این رابطه همانباشــتگی را بر اساس دادههای آمریکا طی دوره 1951Q4تا 2003Q1بررسی نمودیم .مصرف( ،c ،این داده لگاریتم
مخارج ســرانه بر روی خدمــات و کاالهای کــمدوام مانند کفش و لباس اســت) .معیار دارایی( ،a ،لگاریتم ثروت سرانه خانوارها شامل داراییهــای مالی ،داراییهای خانگی و مصــرف کاالهای با دوام) و
لگاریتم درآمد نیروی کار پس از مالیات با yنشــان داده میشود .این دادهها در فایل CAY.XLSدر دسترس است .آزمون ریشه واحد نشان میدهد که همه این متغیرها ریشه واحد دارند .اگر از آزمون جوهانسن
با طول وقفه یک اســتفاده کنیم و بخش متغیرهــای قطعی را فقط به 1- Lattau and Ludvigson
عرض از مبدا محدود کنیم( ،یعنی مثال از روند قطعی استفاده نکنیم)،
به نتایج جدول 12-10میرسیم (ما از نرمافزار Stataاستفاده کردیم
هرچند با سایر بستههای نرمافزاری هم به نتایج مشابهی میرسیم).
چگونه باید این جدول را تفســیر نمود؟ ابتــدا توجه نمایید که «آماره
تریس» نام یک آماره در آزمون جوهانسن است و «مرتبه» هم نشاندهنده تعداد رابطههای همانباشتگی است که اگر مرتبه ( )0باشد ،نشان میدهد
اســاس وجود تعداد مشخصی رابطه همانباشــتگی تعریف میگردد و
فرضیه مقابل این است که تعداد روابط همانباشتگی بزرگتر از فرضیه آزمونشده میباشد.
در جدول باال آماره تریس و مقادیر بحرانی گزارش شدهاند .آماره تریس در فرضیــه وجود صفر رابطه همانباشــتگی ،بزرگتر از مقدار بحرانی
آن در ســطح خطای 5درصد است .این نشــان میدهد که میتوانیم
فرضیه عدم وجود رابطه همانباشــتگی را رد نماییم (یعنی تعداد روابط
همانباشتگی بزرگتر یا مساوی یک است) .بنابراین آزمون جوهانسن نشان میدهد که رابطه همانباشتگی بین متغیرها وجود دارد.
همانطور که میبینید فرضیه وجود یک رابطه همانباشتگی هم در سطح
خطای 5درصد رد نشده است .با توجه به اطالعات فوق به نظر میرسد
که یک رابطه همانباشتگی وجود دارد (که بر اساس لتائو و لودویگسون) محاســبه پسماند همانباشتگی میتواند امکان پیشبینی بازدهی سهام را ایجاد کند .از ســوی دیگر ،شما میتوانید از این اطالعات برای تصریح
الگــوی VECMبا یک رابطه همانباشــتگی (و همچنین یک تصحیح خطا) استفاده کنید.
345
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
که رابطه همانباشــتگی وجود ندارد .در آزمون جوهانســن ،فرضیه بر
جدول .12-10آزمون جوهانسن برای بررسی همانباشتگی
دادههای CAY.XLS
مرتبه
آماره تریس
مقدار بحرانی %5
0
32/27
29/68
1
6/93
15/41
2
0/95
3/76
مترین 12-12
برای این سوال از دادههای پرتقال معمولی و ارگانیک در فایل ORANGE.XLS
استفاده کنید.
(الف) از pmax = 4شــروع کنید و وقفه مناسب را برای الگوی VECMانتخاب
تحلیل دادههای اقتصادی
کنید و هر معادله را تخمین بزنید.
(ب) از الگوی VECMدر قســمت الف اســتفاده کنید و پیشبینی برای افقهای
346
مختلف انجام دهید .آیا الگوی VARمیتواند بهخوبی پیشبینی نماید؟
مترین 12-13
از دادههای مصرف ( )Yو درآمد ( )Xاز فایل INCOME.XLSاستفاده کنید.
(الــف) فرض کنید (شــاید بر خالف یافتههای تمریــن )11-5که متغیر Yو X
همانباشته هستند .مراحل مختلف تمرین 12-11را برای پیشبینی تکرار کنید.
(ب) حاال فرض کنید که Yو Xریشــه واحد دارند و همانباشــته نیستند .الگوی VARبر اســاس تفاضل دادههای فوق (یعنی ∆Xو ) ∆Yبســازید و بعد فرایند پیشبینی را تکرار کنید.
(ج) نتایج بهدســت آمده در بخش الف و ب را مقایســه کنید .فرض غلط وجود
همانباشتگی چه اثر بر عملکرد پیشبینی داشته است.
خالصه فصل
347
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
-1به نظر میرسد که بسیاری از متغیرهای سریزمانی بهویژه قیمت داراییها رفتار گام تصادفی دارند .بههمین دلیل ،دشوار است که در مورد تغییرات آنها در آینــده پیشبینی انجام دهیم .با این حال ،نوســانات اینگونه متغیرها اغلب دارای رفتار قابل پیشبینی است. -2مربع تغییرات در قیمت دارایی ،معیاری برای اندازهگیری نوسانات است. -3روشهای مرسوم ســریزمانی برای مدلسازی رفتار نوسانات قیمت داراییها قابل استفاده اســت .تنها تفاوت این است که نوسانات قیمت دارایی بهعنوان متغیر اصلی مورد استفاده قرار میگیرد در حالیکه در سایر الگوها خود قیمت دارایی متغیر اصلی است. -4الگوی ARCHروش قالب در اندازهگیری نوســانات است .این الگوها شامل دو معادله میشوند .یکی رگرسیون معمولی است و دومی معادله نوسانات اســت که در آن ،نوسانات بهعنوان واریانس (متغیر در طول زمان) جزء خطای رگرسیون اولی شناخته میشود. -5الگوهای ARCHبسیار شبیه به الگوهای ARهستند .بهجز اینکه الگوی ARبه معادله نوسانات تعلق دارد. -6بســطهای مختلفی و فراوانی برای ARCHوجــود دارد که GARCH شناختهشدهترین آنها است. -7الگوهای ARCHو GARCHبا عموم بستههای نرمافزاری قابل برآورد هستند (ولی برآورد آنها با اکسل دشوار است). -8متغیر Xعلت گرنجری متغیر Yاســت اگر گذشــته Xبتواند وضعیت کنونی Yرا توضیح دهد. -9اگر Xو Yمانا باشند ،روشهای آماری معمول بر مبنای ARDLمیتواند برای آزمون علیت گرنجر مورد استفاده قرار گیرد. -10اگر Xو Yدارای ریشــه واحد و همانباشــته باشند ،آنگاه روشهای آماری مبتنی بر ECMبرای علیت گرنجر قابل استفاده است.
تحلیل دادههای اقتصادی
-11خودرگرسیونی برداری ( )VARبرای هر متغیر تحت مطالعه یک معادله دارد .هر معادله یک متغیر را بهعنوان متغیر وابسته انتخاب میکند. -12الگوهای VARبرای پیشبینی مناســب هستند .آزمون علیت گرنجر و تشخیص روابط بین چند متغیر سریزمانی از جمله کاربردهای این الگو است. -13اگر همه متغیرها در الگوی VARمانا باشند آنگاه روش برآورد OLS قابل استفاده خواهد بود و آمارههای معمول این برآورد (نظیر آمار ه tو �P-val )ueبرای آزمون معنیداری کاربرد خواهد داشت. -14اگر متغیرهای تحت بررســی ریشه واحد داشــته باشند و همانباشته باشند آنگاه الگوی تغییر یافته VARکه آن را تصحیح خطای برداری ()VECM مینامیم قابل استفاده است. -15آزمون جوهانســن یک روش بسیار معروف برای آزمون همانباشتگی است که در بسیاری از بستههای نرمافزاری وجود دارد. 348
پیوست :12-1آزمون فرضیه برای بیش از یک رضیب
در فصــل 5و 6پیرامون آماره Fبحث داشــتهایم که از آن برای آزمون فرضیه R2 = 0در رگرسیون چندگانه استفاده میشود: Y = α + β1X1 + … + βk Xk + e
گفتهایــم که چگونــه از آن برای آزمون H0 : β1 = … = βk = 0اســتفاده میشــود (که یعنی همه ضرایب رگرســیون به اتفاق صفر هستند) .همچنین در مــورد آزمون فرضیه معنیدار هر ضریب بهتنهایــی با آماره tو P-value مطالبی داشــتهایم .با این وجود ابــزاری در اختیار نداریم تا یک آزمون فوری در شــرایط خاص انجام دهیم (برای مثال شرایطی که k=4باشد و ما بخواهیم H0 : β1 =β2 =0را آزمون کنیم) .چنین آزمونی در بحث علیت گرنجر مورد نیاز بوده اســت (در مثالی که الگوی رگرسیونی ما شامل 4وقفه برای افزایش قیمت ،چهار وقفه برای افزایش دســتمزد و روند قطعی بوده است و ما قصد داشتیم تا تنها فرضیه برابری چهار ضریب مربوط به افزایش دستمزد با صفر را
Y = α + β1X1 + β2 X2 + β3 X3 + β4 X4 + e
و بخواهید آزمون فرضیه H0 : β2 =β4 =0را انجام دهید ،آنگاه رگرسیون مقید به شکل زیر خواهد بود: Y = α + β1X1 + β3 X3 + e
راهبرد کلی این اســت که آماره آزمون محاســبه گردد و با مقادیر بحرانی مقایسه شود .اگر آماره آزمون در منطقه بحرانی قرار داشت آنگاه فرضیه صفر رد میشود در غیر اینصورت فرضیه صفر را میپذیرید .بهطور خالصه همواره در هر آزمون فرضیهای دو چیز مورد نیاز اســت ،آماره آزمون و مقادیر بحرانی. در ادامه آماره آزمون Fرا میبینیم: J
)
− RR2
) (T − k
2 U
(R
) (1 − R 2 U
=f
که در آن RU2و RR2مربوط به الگوی نامقید و مقید هســتند .تعداد قیدها با
349
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
مورد بررسی قرار دهیم) .هدف اصلی این پیوست شرح یک قاعده سرانگشتی برای آزمون چنین فرضیاتی است. آمــاره Fکه در فصل 5توضیــح دادهایم تنها یک حالت خاص از توزیع F است که مقادیر بحرانی آن را از جدول استخراج نمودیم .در این کتاب ما کمتر به تئوریهای آماری پرداختیم و در مورد نحوه استفاده از جداول آماری مطلبی نداشــتیم .اما اگر قصد دارید تا کارهای بیشــتری در زمینه علیت گرنجر انجام دهیــم توصیه میکنیم ک مبانی آماری مرتبــط را مطالعه کنید یا به یک کتاب اقتصادسنجی مراجعه و مفاهیمی که زیربنای آزمون فرضیه است را فرا بگیرید. برای درک مبانی آماره Fو شیوه کار آن ،تفاوت بین رگرسیون مقید و رگرسیون نامقید را شــرح میدهیم .در بیشتر فرضیات شما میخواهید تا قیدی را به مدل وارد نمایید .پس ما باید بتوانیم تمایز بین رگرسیون مقید و رگرسیون نامقید را دریابیم .مثال اگر رگرسیون نامقید ما به شکل زیر باشد:
تحلیل دادههای اقتصادی
350
Jنشان داده میشود (در مثال باال J=2است چراکه β2 =0و β4 =0دو قید بهشمار میروند) .در عبارت فوق T ،تعداد کل مشاهدات و kتعداد متغیرهای توضیحی در الگوی نامقید است. مقدار آماره Fبا اجرای رگرســیون مقید و رگرسیون نامقید قابل دستیابی است (با برآورد رگرســیون نامقید مقدار RU2و با برآورد رگرسیون مقید مقدار RR2را بهدســت میآوریم) و سپس با جایگذاری اعداد مقدار آماره Fبهدست خواهد آمد .اگر فرضیه خود را مشخص کرده باشید ،اکثر بستههای نرمافزاری برای شما بهصورت خودکار مقدار Fرا محاسبه میکنند. اما یافتــن نقاط بحرانی به مراتب پیچیدهتر خواهــد بود .در روش اصلی، مقادیر بحرانی به T-kو Jوابسته هستند .جدول 12-11شامل مقادیر بحرانی مرتبط با موضوع است اما برای محاسبات سرانگشتی T-kبه اندازه کافی بزرگ در نظر گرفته شــده است .مثال اگر تعداد مشاهدات شما زیاد باشد و در آزمون J=2باشــد ،آنگاه در سطح خطای 5درصد ،مقدار بحرانی شما 3خواهد بود که باید با مقدار آماره Fمقایسه گردد. جدول .12-11مقادیر بحرانی
آماره Fوقتی T-k>100
سطح معناداری
J=2
J=3
J=4
J=5
J=10
J=20
5%
3/00
2/60
2/37
2/21
1/83
1/57
1%
4/61
3/78
3/32
3/02
2/32
1/88
جدول .12-12مقادیر بحرانی
آماره Fوقتی T-k=40
سطح معناداری
J=2
J=3
J=4
J=5
J=10
J=20
5%
3/23
2/92
2/69
2/53
2/08
1/84
1%
5/18
4/31
3/83
3/51
2/80
2/37
در جــداول فوق قید J=1وجود ندارد چراکه در آنصورت از آماره tبرای بررســی یک ضریب استفاده میشده اســت .توجه دارید که مقادیر بحرانی با
مثال 12-6
در متــن اصلی این فصل ،آزمون علیت گرنجر با اســتفاده از دادههای
افزایش قیمت و دســتمزد انجام شــده اســت .ما دریافتیم که افزایش
دســتمزد علت گرنجری افزایش قیمت نیســت ،اما افزایش قیت علت گرنجری افزایش دستمزد اســت .اینجا بررسی مجددی بر روی این
رابطه با روش صحیح (آزمون )Fانجام میدهیم.
ابتــدا رابطهای را بررســی میکنیم که در آن ،افزایش دســتمزد علت گرنجری تورم قیمتها اســت .در درون متن اصلــی این فصل برای الگوهای غیرمقید )Y( ،افزایش قیمت و ( )Xافزایش دستمزد است و از الگوی نامقید استفاده شده است.
Y = α + δt + φ1Yt −1 + … + φ4 Yt − 4 + β1Xt −1 + … + β4 Xt − 4 + et تعداد دورههای زمانی T=128اســت( K=9 ،به این دلیل که p=q=4
است و روند قطعی در الگو قرار گرفته است) .برآورد OLSالگو نتیجه
351
فصل :12کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی
افزایش تعداد قیدها کوچکتر میشــوند .این موضــوع میتواند برای آزمون قیدهای بزرگتری که در جداول فوق نیستند مورد استفاده قرار گیرد. مثــا مقدار بحرانی برای J=7جایی بیــن مقدار بحرانی J=5و J=10قرار دارد .دانســتن این موضوع که مقادیر بحرانی بین چه اعــدادی قرار دارند در بســیاری از اوقات برای تصمیمگیری در مورد یک فرضیه گرهگشا خواهد بود. بههمین دلیل هرچند جداول فوق همه قیدها را در بر ندارند اما شــما میتوانید از آنها در آزمونهای مختلفی بهره بگیرید. تفاوت جدول 12-11و جدول 12-12در مقدار T-kاست .در جدول اول فرض شده است که این مقدار بزرگتر از 100است ( )T-k>100اما در جدول دوم ایــن مقدار برابر با 40اســت ( .)T-k=40همانطور کــه میبینید ،مقادیر بحرانی در جدول 12-11بزرگتر هستند.
2 میدهد که . RU = 0.616فرضیهای که مبتنــی بر عدم وجود رابطه
علیت اســت ( ) H0 : β1 = … = β4 = 0دارای چهار قید میباشد و بنابراین J=4است .الگوی مقید به این شکل خواهد بود: Y = α + δt + φ1Yt −1 + … + φ4 Yt − 4 + et
در الگوی مقید باال مقدار RR2 = 0.613است.
بر اســاس آمارههای فوق مقدار Fبرابر با 0/145خواهد شد .با توجه به اینکه T-k=119بسیار بزرگ است ،ما میتوانیم 0/145را با مقدار بحرانی 2/37مقایسه کنیم .چون 0/145>2/37است ،نمیتوانیم فرضیه صفر را در ســطح 5درصد رد نماییم .یعنی فرضیهای که در آن افزایش
تحلیل دادههای اقتصادی
دستمزد علت گرنجری افزایش قیمت نیست ،رد نمیشود.
برای آزمون اینکه افزایش قیمت علت گرنجری افزایش دستمزد است،
352
همین مراحل را تکرار میکنیم .با این تفاوت که متغیر وابســته افزایش دستمزد شده است و افزایش قیمت متغیر توضیحی خواهد شد .با برآورد
OLSالگوهای مقید و نامقید RR2 = 0.532 ،و RU2 = 0.605خواهد شد .توجه دارید که باقی موارد در فرمول محاسبه Fتغییری نمیکند .با جایگذاری اعداد در معادله ،مقدار Fبرابر با 33/412میشود که بسیار
بزرگتر از مقدار بحرانی در سطح 5درصد و حتی 1درصد است .یعنی با اطمینان میتوانیم فرضیه H0 : β1 = … = β4 = 0را رد کنیم و نتیجه بگیریم که افزایش قیمت علت گرنجری افزایش دستمزد است. توجه داشته باشید که نتایج بهدست آمده در این مثال (افزایش دستمزد
علت گرنجری افزایش قیمت نیست ولی افزایش قیمت علت گرنجری افزایش دســتمزد است) کامال مشابه نتایجی است که درون متن اصلی
بهدست آمده است.
منبع
کاربرد الگوهای سریزمانی در اقتصاد کالن و مدیریت مالی:12 فصل
Lettau, M and Ludvigson, S. (2001) «Consumtion, aggregate wealth and expected stock returns», Journal of Finance, 56(3): 815-849.
353
فصل 13 محدویتها و راهحلها
1- Second best
355
فصل :13محدویتها و راهحلها
رگرسیون و تکنیکهای مرتبط با آن ابزارهایی بسیار قدرتمند برای مواجهه با مســائل عملی اقتصــاد و یافتن راهحلهایی برای آنها هســتند .با این حال اگر تکنیکهای آماری مانند رگرســیون ،راهحل نهایی تمام مشکالت و مسائل اقتصادی را در آستین میداشــتند ،اقتصاددانان و آماردانان میبایست ب ه دنبال شغل جدیدی میبودند! در این فصل محدودیتهای روش رگرسیونی حداقل مربعــات معمولــی ( )OLSو روشهای غلبه بر آنهــا بهطور خالصه معرفی میشود .همانطور که در ادامه خواهیم دید ،در برخی حالتها استفاده از روش OLSبهترین انتخاب ممکن نیست و روشهای جایگزینی وجود دارد که بهتر است از آنها اســتفاده شود .در برخی حالتهای دیگر استفاده از روش OLS قطعا به نتایج غلط منجر میشود؛ از این رو نباید از OLSاستفاده کرد. درک تفاوت دو حالت فوقالذکر بسیار مهم است -یعنی حالتی که استفاده از روش OLSبه اصطالح دومین بهترین 1اســت و حالتی که استفاده از روش OLS به نتایجی غلط منجر میشــود .برای درک تفاوت این حالتها در مسائل تجربی اقتصادی ،بهخصوص تشخیص حالتهایی که در آنها نباید از OLSاستفاده کرد،
به مطالعه بیشــتری نیاز است .در این فصل قصد نداریم روشهای مواجه شدن با تمام این حالتها را توضیح دهیم؛ چون برای این کار باید چندین جلد کتاب درسی بنویســیم .در عوض در این فصل چند حالت کلی و ویژگیهای آنها را توضیح میدهیم تا دستکم شما بتوانید مشکل موجود را تشخیص بدهید و بدانید برای حل آن باید به چه کتاب یا متن درسی مراجعه کنید. مشکالت موجود را میتوان به سه دسته زیر تقسیم کرد: • مشکالت ناشی از وجود فرمهای خاص برای متغیر وابسته؛ • مشکالت ناشی از وجود فرمهای خاص برای جزءخطا؛ • مشکالتی که غلبه بر آنها نیازمند استفاده از مدلهای معادالت چندگانه است.
تحلیل دادههای اقتصادی
مشکالت ناشی از وجود فرمهای خاص برای متغیر وابسته مدل رگرسیون ساده زیر را در نظر بگیرید:
356
Y = α + βX + e
در فصلهای قبل در مورد حالتهایی که Yعددی واقعی اســت و میتواند هــر مقداری را اختیار کند (مثال قیمت فــروش خانه ،درصد تغییرات جنگل یا GDPسرانه) توضیحات مبســوطی ارائه کردیم .اما ممکن است با حالتهایی مواجه شوید که در آن متغیر وابسته شکل محدودی دارد .این شکل محدود متغیر وابسته ،پیامدهایی برای برآوردهای ما خواهد داشت .در فصل ،8حالتی را مطالعه Yمتغیر مجازی اســت؛ این یک نوع محدودیت برای متغیر وابســته کردیم که است ،چون چنین متغیر وابستهای فقط میتواند مقادیر خاص و محدودی داشته باشــد .اما در عمل ممکن است انواع مختلفی از محدودیتهای دیگر نیز برای متغیر وابسته وجود داشته باشند .حالتهایی که در این بخش فهرست شدهاند، متداولترین حالتهایی هستند که ممکن است در این طبقه از مطالعات تجربی 1 اقتصاد پیش بیایند؛ اما باید بدانید که فقط زمانی که متغیر وابســته سانسورشده 1- Censored
است ،استفاده از OLSالزاما نادرست خواهد بود .به هر حال بهتر است که برای درک کامل این شــرایط مطالعات خود در این زمینه را افزایش دهید و به جای اکسل ،از بستههای نرمافزاری اقتصادسنجی استفاده کنید.
Yسانسورشده است
" -1تورش" واژهای آماری اســت که تعریف غیررســمی آن اینگونه اســت :اگــر برآوردگر بدون تورش ( )unbiasedباشد ،مقدار هر یک از برآوردها در اغلب اوقات کمتر یا بیشتر از مقدار واقعی است اما با تکرار فرایند برآورد ،میانگین مقدار برآورد شــده با مقدار واقعی برابر خواهد بود .در مقابل حتی میانگین مقدار برآورد شده توسط یک برآوردگر تورشدار هم بر مقدار واقعی منطبق نخواهد بود؛ پس برآورد غلط است و نباید از چنین برآوردگری استفاده کرد.
357
فصل :13محدویتها و راهحلها
Yکمتر یا بیشــتر از مقادیر حدی است که این حالت زمانی رخ میدهد که مقدار در مطالعه بهعنوان حدود پایین یا باال در نظر گرفته شــده است .مثال در مطالعات مربوط به درآمد خانوار مرسوم است که درآمد هر فرد را از طریق بررسی مصرف خانوار گزارش کنند ،بهجز گروه بســیار پردرآمد که مقدار درآمدشان از حدی به باالست (مثال 100هزار پوند) .پس فردی که درآمدی معادل 20هزار پوند دارد در آمارها درآمدش همان 20هزار پوند ثبت میشود اما فردی با درآمد 200هزار پوند، درآمــدش در آمارها 100هزار پوند درج میشــود چون بهمنظور صرفهجویی در تعداد طبقات ،باالترین طبقه درآمدی 100هزار پوند و بیشتر فرض شده است پس همه کســانی که بیش از 100هزار پوند درآمد دارند نیز در این طبقه قرار خواهند گرفت .مثالی دیگر را در نظر بگیرید؛ فرض کنید که متغیر وابسته شما سطح مطلوب سرمایهگذاری بنگاه اســت اما فقط میتوانید سطح واقعی سرمایهگذاری بنگاه را مشاهده کنید .اگر در مشاهدات مربوط به سرمایهگذاری واقعی عددی منفی وجود نداشته باشد آنگاه تمام بنگاههایی که سطح سرمایهگذاری مطلوبشان منفی است آمار سرمایهگذاریشان صفر ثبت میشــود .اگر متغیر وابسته سانسور شده باشد آنگاه برآوردهای OLSممکن اســت گمراهکننده باشــند .به زبان آمارOLS ، تورش خواهد داشــت .1با افزایش تعداد مشــاهدات سانسور شده ،میزان این
تورش نیز افزایش خواهد یافت .اگر فقط چند تا از مشــاهدات سانسور شده باشند ،ممکن است بتوان استفاده از OLSرا توجیه کرد؛ اما اگر تعداد زیادی از مشــاهدات این وضعیت را داشته باشند آنگاه قطعا نباید از OLSاستفاده کرد. روش استاندارد در این شــرایط ،برآوردگر توبیت 1است .در اغلب کتابهای اقتصادسنجی این روش را مدل متغیر وابسته محدودشده 2مینامند.
Yعدد صحیح غیرمنفی است
تحلیل دادههای اقتصادی
358
این شــرایط بیشتر هنگامی رخ میدهد که متغیر وابسته تعداد دفعات رخ دادن یک اتفاق باشد .مثال ممکن است Yتعداد محصوالت معیوب یک خط تولید در یک هفته یا تعداد پتنتهایی( 3حق ثبت اختراع) باشد که یک بنگاه در یک سال ثبت میکند .اگر متغیر وابســته چنین شکلی داشته باشد ،برآورد OLSاحتماال نامناســب اســت اما روشهای بهتری برای برآورد وجود دارند .اگر مایلید در مورد این روشها بیشتر بخوانید ،در کتابهای اقتصادسنجی دنبال عبارت مدل دادههای شمارشی 4بگردید.
Yیک بازه زمانی را اندازهگیری میکند
این حالت در مطالعات اقتصاد نیروی کار متداول است ،جایی که متغیر وابسته اغلب اوقات مدت زمان صرفشــده در یک شرایط خاص است .مثال ممکن است محققی بخواهد به این سوال پاسخ دهد که چرا برخی از بیکاران سریعتر از سایرین شغل مییابند؟ در این حالت متغیر وابسته عبارت است از بازه زمانی که هر فرد طی آن بیکار است (یعنی زمان صرفشده توسط هر فرد برای یافتن شــغل) .مثال مرســوم دیگر تحلیل فعالیت صنعت است که در آن مدت زمان اعتصاب نیروی کار ،متغیر وابسته باشد .در این شرایط برآورد OLSیک معادله
2- Limited dependent variable models 4- Count data model
1- Tobit 3- Patent
رگرسیونی ،بهطور خودکار غلط یا گمراهکننده نیست .اما مدلهای بهتر دیگری هم در ادبیات اقتصادســنجی توسعه داده شدهاند که بهتر است از آنها استفاده شــود .به منظور خواندن و درک چنین مدلهایی در کتابهای اقتصادســنجی دنبال عبارتهایی مثل مدل مدت زمان 1بگردید.
مشکالت ناشی از وجود فرمهای خاص برای جزءخطا
2- Robust
1- Duration model
بهترین تمام -3به زبان آمار ،اگر اجزای خطا مســتقل از یکدیگر و توزیع یکســانی داشته باشندOLS ، ِ برآوردگرها (بین برآوردگرهای مشــابه) است .اگر توزیع اجزای خطا نرمال باشد ،بهینگی برآوردگر OLS حتی بیشتر هم میشود. 5- Heteroscedasticity
4- Generalized least squares
359
فصل :13محدویتها و راهحلها
در این کتاب چیز زیادی در مورد جزءخطا نگفتیم بهجز اینکه اشاره کردیم جزءخطا عبارت است از فاصله بین هر مشاهده و خط رگرسیون .ادبیات گستردهای در مورد این موضــوع وجود دارد که تحت فروض آماری مختلف برای جزءخطا ،بهترین برآوردگر کدام اســت .در این بخش با جزئیات نظری آماری این تکنیکها کاری نداریــم ،در عوض مفاهیم و اصطالحات مورد نیاز برای درک چگونگی رخ دادن این مشکالت را توضیح میدهیم و مانند شیوه مألوف این فصل ،کلیدواژههایی را معرفی میکنیم که در صورت تمایل به مطالعه بیشتر در این زمینه باید در کتابهای درسی اقتصادسنجی دنبالشان بگردید. کارمــان را با این بحث آغاز میکنیم که OLSمتداولترین برآوردگر مدلهای رگرسیونی است که تحت فروض مختلف و متنوع آماری ،روشی قوی 2محسوب میشــود (یعنی بهخوبی کار میکند) .با این حال OLSزمانی بهینه است که تمام اجزای خطا دارای ویژگیهای مشترکی باشند 3.در شرایط دیگر برآوردگر حداقل مربعات تعمیمیافته 4یا GLSقابلیت اعتماد بیشتری دارد .برای درک عملکرد روش GLSمثالی در مورد مشکل ناهمسانی واریانس 5را در نظر میگیریم. بهفرض که میخواهید مدل رگرســیون رشد بینکشوری را برآورد کنید که Nکشور است .متغیرهای متغیر وابســته آن متوسط نرخ رشد GDPدر هر یک
تحلیل دادههای اقتصادی
360
توضیحی هم ســطح تحصیالت ،سرمایهگذاری ،نرخ پسانداز و غیره برای هر کشــور است .فرض کنید تعداد زیادی از کشورهای توسعه یافته (مثل آمریکا، انگلستان و آلمان) و کمتر توسعهیافته (مثل سودان ،آنگوال و هائیتی) را در مثال خود دارید .در کشورهای توســعه یافته موسسات دولتی آماری بزرگی وجود دارند که با منابع مالی پایدارشــان دادههای ( GDPو بسیاری متغیرهای دیگر) را مرتبا جمعآوری میکنند؛ در نتیجه دادههای GDPاین کشورها با دقت قابل قبولی در دســترس است .در مقابل کشورهای کمتر توسعه یافته قرار دارند که اغلب فاقد چنین موسساتی هستند و بخش غیررسمی یا زیرزمینی اقتصادشان بزرگ و قابل توجه اســت .نتیجه این میشــود که دادههای رسمی GDPاین کشورها اغلب اوقات دقیق نیســتند .جمعآوری دادههایی با این ویژگیها چه پیامدهایی بر برآوردهای OLSدارد؟ اولین پیامد این اســت که جزءخطا یا eدر کشــورهای کمتر توسعه یافته گرایش دارد که بزرگتر از جزءخطای کشورهای توسعه یافته باشد .این مفهوم را «ناهمسانی واریانس» مینامند 1.دومین پیامد این است که چون در مقایسه با کشــورهای کمتر توسعه یافته ،دادههای کشورهای توسعه یافته دقیقتر هستند، میتوانیم برای دادههای کشــورهای اخیر وزن یا اهمیت بیشــتری قائل شویم (یعنی به این دادهها وزن بدهیم) .این دقیقا همان کاری اســت که روش GLS انجام میدهد .در واقع برآوردگر GLSرا میتوان OLSای دانست که از دادههای وزندهیشده 2استفاده میکند. اگر وقت بیشتری را به خواندن اقتصادسنجی اختصاص بدهید یاد خواهید گرفت که منظورمان از «وزندهیشــده» دقیقا چیست .فعال کافی است همین قدر بدانید که در این شــرایط OLS ،هنوز برآوردگر خوبی است 3اما اگر ناهمسانی واریانس وجود داشته باشد GLS ،بهتر است .میتوانید در یک نرمافزار صفحه گسترده (مثل -1تعریف دقیق ناهمسانی واریانس این است که انحراف معیار جزء خطا در مشاهدات مختلف متفاوت باشد.
2- Reweighted data -3به زبان آماری ،هم OLSو هم GLSبرآوردگرهایی بدون تورش هستند ،اما GLSکاراتر از OLSاست.
361
فصل :13محدویتها و راهحلها
اکسل) دادهها را وزندهی و از GLSاستفاده کنید اما در بیشتر مجموعه دادهها انجام چنین کاری وقتگیر و خستهکننده است و بهتر است از یک نرمافزار اقتصادسنجی اســتفاده کنید .عالوه بر ناهمسانی واریانس ،ممکن است مشکالت دیگری نیز در دادهها وجود داشــته باشد که پیامدهای مشــابهی در انتخاب روش برآورد به جا بگذارد (یعنی هرچند OLSمناسب است اما GLSبهتر است) .شناختهشدهترین این مشکالت زمانی اتفاق میافتد که اجزای خطا خودهمبستگی داشته باشند .مفهوم خودهمبستگی در فصل 10معرفی شد .اینجا تفاوت این است که داریم در مورد etبحث میکنیم نه Yt؛ یعنی موضوع بحث این بخش همبستگی اجزای خطا با مقادیر باوقفه خودشان است .اگر مقادیر وقفه را بهدرستی انتخاب کرده باشید (یعنی pدر ) AR(pیا pو qدر ( ،)ARDL (p,qبعید است خودهمبستگی اجزای خطا بدل به مشکل شود .اما اگر چنین مشکلی وجود داشته باشد ،برآوردگر GLSنسبت به OLSبرآوردهای مطمئنتری تولید میکند. همه آنچه در باال گفته شــد مربوط به حالتهایی اســت که OLSاحتماال روش مناســبی اســت اما برآوردگرهای دیگری هم هســتند که در آن شرایط بهتر کار میکنند .اما یک حالت ویژه وجود دارد که مشــکل اجزای خطا باعث میشــود که بهکار بســتن OLSگمراهکننده و غلط باشد .این مربوط به زمانی اســت که اجزای خطا با متغیرهای توضیحی همبســته باشند .در مورد اینکه چنین شرایطی کی رخ میدهد و اصال چرا منجر به مشکل میشود ،خیلی بحث نمیکنیم؛ اما نمودار 13-1درکی تصویری از موضوع ارائه و شرایطی را توضیح میدهد که اجزای خطا و متغیرهای توضیحی همبستگی مثبت دارند. در نمودار 13-1خط رگرســیون درست با خط توپر و فرمول Y = α + βX نشان داده شده است .همبستگی مثبت بین Xو اجزای خطا به این معنی است که مقادیــر زیاد Xو مقادیر زیاد خطا (یعنی خطاهای مثبت) و مقادیر کم Xبا مقادیر کم خطا (یعنی خطاهای منفی) همراه هستند .با این حساب نمودار XYشبیه نمودار 13-1میشود که در آن نقاط مشاهده قرار گرفته زیر خط رگرسیون درست ،مربوط به مقادیر اندک Xو نقاط باالی آن مربوط به مقادیر زیاد Xهستند .بهعبارت دیگر
تحلیل دادههای اقتصادی
نمودار 13-1بهشکلی رسم شده است تا بهازای مقادیر کم ، Xتمام خطاها منفی و ب ه ازای مقادیر زیاد ، Xمثبت باشــند OLS .نیز خطی از میان نقاط نمودار 13-1 رسم میکند که با خطچین نشان داده شــده است .در نمودار میتوان دید که هم شیب و هم جزء ثابت (عرض از مبدا) خط رسمشده بهوسیله OLSمتفاوت از خط رگرسیون درست است؛ این تفاوت به آن معناست که در این شرایط استفاده از OLS به وضوح نامناسب است .معمولترین حالتی که در آن بین متغیرهای توضیحی و خطاها همبســتگی وجود دارد ،مدل معادالت همزمان 1اســت .این عنوان را در بخش بعدی توضیح خواهیم داد .فعال همینقدر کافی اســت بدانید که اگر جزءخطا با متغیرهای توضیحی همبســته باشــد ،نباید از OLSاستفاده کنید؛ بهجای آن باید از برآوردگر متغیرهای ابزاری 2استفاده کنید. تمام نرمافزارهای اقتصادســنجی قابلیت برآورد مدلهای با متغیر وابســته محدود ،روش GLSو متغیرهای ابزاری را دارند. 362
نمودار 13-1
2- Instrumental variables
1- Simultaneous equations model
مشکالتی که غلبه بر آنها نیازمند استفاده از مدلهای معادالت چندگانه است
363
فصل :13محدویتها و راهحلها
در سراســر این کتاب بهجز بحثمــان در مورد مدلهــای VARو ،VECM تمرکزمان بر مدلهای رگرسیون تک-معادلهای بود .در مقاصد عملی غیرمعمول نیست که چندین متغیر وابسته و در نتیجه چندین مدل رگرسیونی داشته باشیم (که گاهی اوقات سیســتم معادالت خوانده میشود) .در ادامه بهمنظور توضیح این کاربردهای عملی ،چند مثال ارائه میشود. • فرض کنید که دادههای مقطعــی تولید چند بنگاه را جمعآوری کردهاید. ایــن دادهها عبارتنــد از :تعداد نیروی کار ،حجم ســرمایه ،انرژی و مواد اولیه استفاده شده و قیمت تمام این نهادههای تولید .هدف توضیح چگونگی انتخاب نهادههای تولید توســط بنگاهها است .در این مثال با چهار متغیر وابسته مواجه هســتیم (یعنی نیروی کار ،سرمایه ،انرژی و مواد اولیه) که همه آنها وابسته به قیمتشــان هستند .باید برای هر متغیر وابســته یک معادله رگرسیون جداگانه بنویسید ،پس چهار معادله مجزا داریم. • فرض کنید که دادههای سریزمانی مصرف به تفکیک انواع آن (یعنی غذا، حملونقل ،مســکن ،پوشــاک ،کاالهای بادوام و غیره) را جمعآوری کردهاید. هدف بررســی این موضوع اســت که مصرف این اقالم (یعنی اجزای مصرف کل به تفکیک فوق) چگونه به شــرایط کلی اقتصاد وابسته هستند .در این مثال با تعداد زیادی متغیر وابســته ســر و کار دارید (یعنی مصرف غذا ،حملونقل، مســکن و غیره) و از متغیرهای اقتصاد کالن مثل ،GDPنرخهای بهره و غیره بهعنوان متغیرهای توضیحی اســتفاده میکنید .وجود هر متغیر وابسته بهمعنی وجود یک معادله رگرسیون است. • به کاربردهای مالی بپردازیم .ممکن اســت بخواهید بازده سهام بنگاههای مختلف را بررســی کنید .در این شــرایط احتماال تعداد زیادی متغیر متفاوت خواهید داشــت (یعنی بازده سهام هر بنگاه) که وابسته به متغیرهای توضیحی گوناگونی چون نرخهای بهره و غیره هستند.
تحلیل دادههای اقتصادی
364
• مدل خودرگرســیون برداری ( )VARکــه در فصل 12در موردش بحث کردیم مثالای از مدلهای معادالت چندگانه اســت .در این مدل Y ،وابسته به وقفههای خودش و وقفههای متغیر دیگر یعنی Xاســت .البته معادله دومی هم وجود دارد که در آن Xمتغیر وابسته است و بستگی به وقفههای Yو وقفههای خودش دارد. • خوانندگانی که اقتصاد کالن خواندهاند ،مدل IS-LMرا بهخوبی میشناسند. این مدل هم دو معادله دارد (یعنی معادله ISو معادله .)LM • مدل عرضه و تقاضا ،مدل استاندارد علم اقتصاد است .این مدل دارای دو معادله است :منحنی عرضه و منحنی تقاضا. برای توضیح نکته اصلی این بخش باید اشــاره کنیم که فقط دو مثال آخر باعث ایجاد مشکالت جدی در برآورد OLSمیشوند. برای درک مشــکلی که در سیستم معادالت چندگانه وجود دارد ،ابتدا باید چند مفهوم را معرفی کنیم که ممکن است از پیش با آنها آشنا باشید .یک متغیر را درونزا میگویند اگر مقدار آن درون مدل تحت بررسی تعیین شود .اگر جز این باشد ،آن را برونزا مینامند. این مفاهیم ارتباط نزدیکــی با موضوع علیت (که در فصل 4آن را مطالعه کردیم) دارند .به یاد بیاورید که اگر متغیر توضیحی علت متغیر وابسته باشد (و نه عکس آن) ،تفسیر نتایج رگرسیون بسیار ساده میشود .بهعبارت دیگر مدل رگرســیون فرض میکند که Yبهوسیله تغییرات Xتعیین میشود .البته به این موضوع که Xچطور تعیین میشــود کاری نداشتیم .در این حالت متغیر وابسته یعنی ،Yمتغیر درونزا است و متغیر توضیحی یعنی Xبرونزا فرض شده است. اگر بخواهیم سرراست بگوییم ،تا زمانی که متغیرهای توضیحی مدلتان برونزا هســتند ،استفاده از OLSمشــکلی ندارد ،حتی اگر چندین معادله در مدلتان باشد .اما اگر متغیرهای توضیحی درونزا باشند ،نباید از OLSاستفاده کنید. مثالهای زیر باید بتوانند موضوع را برایتان روشن کنند. • در فصلهای 6و ،7قیمت خانه را بر چندین متغیر نشاندهنده ویژگیهای
365
فصل :13محدویتها و راهحلها
خانه رگرس کردیم .قیمتهای خانه یعنی Yوابســته به ویژگیهای آن اســت (یعنی خانههای دارای اتاقخوابهای بیشتر ،گرایش به قیمت بیشتر دارند) .اما ویژگیهای هر خانه به قیمت آن بستگی ندارد (یعنی مثال اگر بازار مسکن دچار ت خانهها کاهش یابد ،باعث نمیشود که اتاقهای خواب یا رکود شــود و قیم حمامها خانهها کمتر شــوند) X .علت Yاست اما Yعلت Xنیست X .برونزا و Yدرونزا است. • بنگاهها مقدار استخدام نهادههای خود را با توجه به قیمت آنها تعیین میکنند (یعنی اگر در مقایســه با خرید ماشــینآالت جدید ،دستمزدها نسبتا ارزان باشند، بنگاهها گرایش پیدا میکنند که بهجای خرید ماشینآالت ،کارگران بیشتری استخدام کنند) .قیمت اســت که مقدار استخدام نهادهها را تعیین میکند یا علت آن است. اما عکس آن درست نیست یعنی مقدار نهاده انتخابشده تاثیری بر قیمت نهادهها ندارد .مثال حداقل در بازارهای رقابتی ،اگر بنگاهی کارگران بیشتری استخدام کند، این عمل باعث افزایش دستمزدها نمیشود .پس در مدلی که قرار است چگونگی استخدام نهادهها را توضیح دهد ،مقدار نهادهها درونزاست (یعنی توسط مدل تعیین میشود) و قیمت نهادهها برونزا خواهد بود. • آنچه که از حل مدل IS-LMبهدست میآید ،مقدار تعادلی درآمد ملی و نرخ بهره است .یعنی در این مدل ،درآمد ملی و نرخ بهره هر دو تعیینشده (یا ی IS-LMاز این دو حلشده) هستند .محقق اقتصادسنجی هنگام برآورد مدلها متغیر (و دیگر متغیرها) استفاده میکند .هر دوی این متغیرها درونزا هستند (و در مدل تعیین میشوند). • در مدل عرضه-تقاضا ،قیمت و مقدار تعادلی از برخورد منحنیهای عرضه و تقاضا بهدست میآیند .هم قیمت و هم مقدار کاالهای عرضهوتقاضاشده در بازار بهوسیله مدل تعیین میشوند .بنابراین هر دو (قیمت و مقدار) درونزا هستند. در ادامه این بخش ،فرض میکنیم که Yنشــاندهنده یک متغیر درونزا و Xنشــاندهنده یک متغیر برونزا باشد .اگر از هر کدام از این متغیرها بیشتر از یکی داشــتیم ،از عبارتهای Y1,......,YMو X1,......,XKبرای اشاره به Mمتغیر
درونزا و Kمتغیر برونزا اســتفاده خواهیم کرد .در ادامه طبقهبندی حالتهای ممکن آمده است: • مدل رگرســیون Y = α + β1X1 + … + βK XK + eبهطور کامل در این کتاب توضیح داده شد .این مدل را بهراحتی میتوان با OLSبرآورد کرد.1 • اگر سیستم معادالتی بهشکل زیر داشته باشید: Y1 = α1 + β11X1 + … + β1K XK + e1
Y2 = α 2 + β21X1 + … + β2K Xk + e2
...................................................................................................... ...................................................................................................... YM = αM + βM1X1 + … + βMK Xk + eM
تحلیل دادههای اقتصادی
366
بهسادگی میتوانید هر دفعه یک معادله را با OLSبرآورد کنید .البته فرض این مدل آن اســت که متغیرهای توضیحی تمام معادالت دقیقا یکسان هستند (یعنی مقدار هر نهاده وابسته به قیمت تمام نهادهها است) .اگر معادالت دارای متغیرهای توضیحی متفاوتی باشــند (مثال مقدار هر نهاده فقط به قیمت همان 2 نهاده بستگی داشته باشد) ،آنگاه برآوردگر معادالت رگرسیون بهظاهر نامرتبط یا ( )SUREبهتر از OLSاســت .البته در ایــن حالت هم OLSدومین بهترین است (و نادرست نیست).اگر با مدل مثل مدل زیر کار میکنید: • یا شکل عمومیتر آن یعنی:
Y1 = α + βY2 + e
Y1 = α1 + γ12 Y2 + … + γ1M YM + β11X1 + … + β1K XK + e1 Y2 = α 2 + γ 21Y1 + … + γ 2M YM + β21X1 + … + β2K XK + e2
...................................................................................................... ...................................................................................................... -1البته که اگر مشکالت مربوط به جزء خطا یا متغیر وابسته -که قبال در همین فصل توضیح داده شد- وجود داشته باشند ،آنگاه باید اصالحاتی بر OLSاعمال کرد .این شرایط برای مورد بعدی نیز صادق است. 2- Seemingly unrelated regression equations
YM = αM + γ M1Y1 + … + γ M.M−1YM−1 + βM1X1 + … + βMK XK + eM
QD = αD + βDP
این رابطه مقدار تقاضای یک کاال یعنی QDرا وابسته به قیمت آن Pفرض میکند .منحنی عرضه چگونگی عرضه کاال یعنی QSتوســط بنگاهها را نشان میدهد که آن هم وابسته به قیمت کاالست: S Q = α S + β SP
خطهای توپر در نمودار 13-2نشاندهنده منحنیهای عرضه و تقاضاست. نقطــه برخورد آنها نیز قیمت و مقدار تعادلی یعنی * Pو * Qرا تعیین میکند. بهعبارت دیگر قیمت و مقدار درون مدل تعیین میشوند و از این رو درونزا هستند .چه میشــد اگر دادههای قیمت و مقدار را جمعآوری (مثال دادههای هفتگــی بازار یک محصول خاص طی چندیــن هفته) و مقدار را روی قیمت رگــرس میکردیم؟ نتایج رگرســیون فرضی ما عبارت میشــد از جزء ثابت ∧ ∧ ∧ ∧ (عرض از مبدا) و شیب خط رگرسیون یعنی αو . βاما این αو βبرآوردهای چه چیزی هستند؟
367
فصل :13محدویتها و راهحلها
آنگاه اســتفاده از OLSبه نتایج گمراهکننده منجر میشود و در نتیجه نباید از آن اســتفاده کرد .بــرای خالصه کردن بحث ،اگــر متغیرهای توضیحیتان برونزا باشند اســتفاده از OLSقابل قبول است (حتی در مدلهای رگرسیون چندگانه) .اما اگر متغیرهای توضیحی درونزا باشــند OLS ،برآوردگر مناسبی نیست (حتی در مدل رگرسیون تک-معادلهای). آخریــن مدلی که در باال وجود دارد را مدل معادالت همزمان مینامند که در ادبیات اقتصادســنجی بسیار مورد توجه است .بحث در مورد جزییات این مدلها در چارچوب موضوعات این کتاب قرار ندارد؛ با این حال ارزش دارد با مرور یک مثال اندکی در مورد دالیل نامناســب بودن OLSدر این شــرایط بحث کنیم .ســادهترین مدل اســتاندارد عرضه و تقاضــا در اقتصاد را در نظر بگیرید .منحنی تقاضا با رابطهای مثل رابطه زیر مشخص میشود:
نمودار 13-2
تحلیل دادههای اقتصادی
368
شــاید متوجه مشکل استفاده از OLSشــده باشید؛ مشکل این است که ما ∧ ∧ نمیدانیم αو βبرآوردشــده مربوط به αDو ( βDیعنی متعلق به منحنی تقاضا) هستند یا مربوط به αSو ( βSیعنی متعلق به منحنی عرضه) .1برآوردهای OLSدر عمل احتماال نه نشاندهنده منحنی عرضه هستند نه منحنی تقاضا. با دقت به نمودار 13-2میتوان ایرادات بیشتر روش OLSرا فهمید P* .و *Q بهترتیب قیمت و مقدار تعادلی را نشان میدهند .فرض کنید که قیمت و مقدار این کاال را در بازار به دفعات زیاد مشاهده و ثبت کردهایم (مثال هر هفته به مدت یک سال) .در جهان واقعی احتماال هیچوقت دقیقا در نقطه تعادل قرار نداریم و همیشه انحرافاتی از تعادل وجود خواهد داشت .یعنی قیمت و مقدار واقعی مشاهدهشده در هر هفته هر دفعه دقیقا برابر * Pو * Qنیستند .احتماال این نقاط مشاهدهشده در ابری از مشاهدات اطراف نقطه تعادل قرار میگیرند؛ مثل نقاط مشاهدات در نمودار .13-2سعی کنید کاری که OLSانجام میدهد را در ذهنتان تکرار کنید :یعنی خطی -1به زبان رسمی اقتصادسنجی ،این مثالای از مشکل شناسایی ( )identification problemاست.
مستقیم از میان این نقاط بگذرانید .احتماال فهمیدهاید که این خط برازششده الزاما نشاندهنده هیچیک از منحنیهای عرضه یا تقاضا نخواهد بود. به بیان فنی میتوان گفت زمانی که برخی یا تمام متغیرهای توضیحی درونزا باشند ،جزءخطای رگرسیون با متغیرهای توضیحی همبستگی خواهد داشت و استفاده از OLSاشتباه است (بحثهای نمودار 13-1را دوباره مالحظه کنید). برای مواجه شدن و غلبه بر این شرایط ،الزم است نحوه کار کردن با مدلهای معادالت همزمان و برآورد متغیرهای ابزاری را یاد بگیرید.
خالصه فصل
369
فصل :13محدویتها و راهحلها
بهطور خالصه میتوانیم بگوییم که اگر چه OLSابزاری قدرتمند و قابل تطبیق با شرایط مختلف دادههاست اما تمام حالتهای ممکن را پوشش نمیدهد .در ادامه خالصهای از برخی شرایط آمده که در آن OLSهرچند قابل استفاده است اما بهترین انتخاب ممکن نیست .البته شرایطی هم وجود دارد که استفاده از این روش غلط است. -1در شرایط زیر OLSدومین بهترین انتخاب است: • متغیر وابســته یک بازه زمانی را اندازه بگیرد یا شمارشی باشد (یعنی عدد صحیح باشد)؛ • اجزای خطا واریانس ناهمسان یا خودهمبسته باشند؛ • تعداد زیادی متغیر وابســته در دادهها وجود دارد که منجر به تعداد زیادی معادله میشود اما تمام متغیرهای توضیحی برونزا هستند. -2در شرایط زیر نتایج OLSگمراهکننده است ،پس نباید از آن استفاده کرد: • متغیر وابسته سانسور شده باشد؛ • اجزای خطا با متغیرهای توضیحی همبستگی داشته باشند؛ • یکی یا چند تا از متغیرهای توضیحی درونزا باشند؛ • تعداد زیادی متغیر وابسته در دادهها وجود داشته باشد که منجر به چندین معادله شود ،اما برخی از متغیرهای توضیحی درونزا باشند.
ضمیمه الف شیوه نوشنت یک مقاله
ترشیح یک مقاله متداول
امروزه بخش زیادی از فعالیت اقتصاددانان ،انجام تحقیق در حوزههای گوناگون است .دانشــجویان مقاطع لیسانس و فوق لیسانس ،اســاتید دانشگاه در رشته اقتصاد ،سیاســتگذاران شــاغل در بخش خدمات شــهری و بانک مرکزی و اقتصاددانان حرفهای شاغل در بخش خصوصی یا صنعت ،همگی ممکن است نیازمند نوشتن گزارشی به همراه تحلیل دادههای اقتصادی باشند .بسته بهعنوان مقاله و موضوع و سیاستهای مجله ،شکل مقاله میتواند کامال متفاوت باشد، بنابرایــن نمیتوان یک حکم کلی در مورد فرمت یک مقاله علمی ارائه کرد .با در نظر داشــتن این موضوع ،در ادامه این بخش مولفههای اصلی و متداول یک گزارش یا مقاله اقتصادی را معرفی میکنیم که میتواند سرمشقی برای نوشتن
371
ضمیمه الف :نوشتن یک مطالعه تجربی
در این ضمیمه سرخطهای کلی نوشتن یک مقاله یا گزارش ارائه شده است. در ادامه بحث ،چندین عنوان برای نوشــتن مقاله پیشنهاد شده است که تکمیل این مقاالت کمک زیادی به درک تکنیکهای توضیح داده شــده در این کتاب میکند .دادههای مورد نیاز نیز در وبســایت مربوط به این کتاب موجود است (بهجز موضوع آخر که دادههای مورد نیاز آن در وبسایت دیگری وجود دارد).
تحلیل دادههای اقتصادی
372
متنهای مشــابه در آینده باشد .اما فراموش نکنید که اگر موضوع کارتان مقاله کالسی دوره لیســانس یا گزارشهای کاری باشد ،الزم نیست تمام مولفههای زیر را در گزارش خودتان بیاورید. مقدمه :اغلب مقاالت با مقدمهای مختصر آغاز میشــوند که در آن به دالیل و انگیزههای نوشــتن مقاله ،توضیحی از موضوع مورد مطالعه و خالصهای از مهمترین یافتههای تجربی آن اشاره میشود .مقدمه باید به زبان ساده و غیرفنی با حداقل استفاده از عبارتهای آماری و اقتصادی نوشته شود تا خوانندهای که در موضوع مقاله یا گزارش متخصص نیست هم بتواند آن را بخواند و موضوع کلی آن را بفهمد. مرور ادبیات :در این بخش باید خالصهای از کارهای مشابه دیگران نوشته شود .مرور ادبیات باید شامل فهرست و توضیحی بسیار مختصر از سایر مقاالت و یافتههای مشابه با کار شما باشد. مبانی نظری اقتصادی :اگر گزارش مدنظر ،دانشــگاهی و شــامل یک مدل نظری باشد ،این مدل باید در این بخش توضیح داده شود .گزارشهای سیاستی (خالصه مدیریتی) الزم نیســت حتما چنین مدلی داشــته باشند .در این بخش میتوانید موضوع اقتصادی یا آماری کارتان را با جزییات بیشــتر تشریح کنید. زبان و موضوع این بخش میتواند فنیتر از بخش قبل باشــد که معموال شامل عبارتها و واژگان ریاضی ،آماری و اقتصادی است .کوتاه اینکه میتوانید این بخش را بهتنهایی به یک مخاطب متخصص در این حوزه ارائه کنید. دادهها :دادههای مورد استفاده و توضیحی مفصل در مورد منبع آنها در این بخش نوشته میشود. مدل برآوردشــده :در این بخش باید توضیح بدهید که چگونه از دادهها برای بررسی نظریه اقتصادی استفاده کردهاید .بسته به موضوع مقاله و خطمشی مجله یا مخاطبان ،فرم دقیق این بخش میتواند تغییر کند .مثال ممکن است بخواهید در مورد رگرسیون خاصی که مورد توجه مطالعه است استدالل کنید ،در مورد متغیر وابسته مدل توضیح بدهید یا متغیرهای مستقل مدلتان را بررسی کنید .یا اگر موضوعتان در
نکات کلی
در این بخش چند نکته کلی بررسی میشود که به درد نوشتن هر نوع مقالهای میخــورد .بحث اصلی این بخش این اســت که یک مقاله خوب شــامل چه
373
ضمیمه الف :نوشتن یک مطالعه تجربی
حوزه اقتصاد کالن و دادههای مورد استفاده سریزمانی است ،ممکن است استدالل کنید که بنا بر نظریه اقتصادی انتظار دارید که متغیرها همجمع باشد ،از این رو آزمون همجمعی انجام بدهید .خالصه اینکه در این بخش باید تکنیکی که قرار است در بخش بعد استفاده کنید را توجیه کنید. یافتههای تجربی :معموال این بخش مهمترین قسمت هر مقاله است که در آن یافتههــای تجربی توضیح داده و ارتباط این نتایج با موضوع اقتصادی مورد نظر مقاله بررسی میشود .در این بخش هم باید اطالعات اقتصادی وجود داشته باشد هم اطالعات آماری .منظورمان از «اطالعات اقتصادی» مثال مقدار ضرایب برآوردشــده یا نتایج آزمون همانباشــتهی بین دو متغیر و ارتباط این یافتهها با مبانی نظری اقتصادی اســت« .اطالعات آماری» ممکن است چیزی شبیه این باشــد :نتایج آزمون فرضیه که نشــان میدهد کدامیک از ضرایب معنا دارند، توجیه تعداد وقفههای انتخابشده ،توضیح دالیل حذف متغیرهای توضیحی که از نظر آماری معنادار نیستند ،بحث در مورد برازش مدل (مثال R2یا مشاهدات پرت) و . ...این اطالعات معموال بهوســیله جدول یا نمودار ارائه میشــوند. بســیاری از مقاالت هم با یک نمودار ســاده (مثال نمودار سریزمانی دادهها) شروع میشوند و ســپس جدول آمار توصیفی (شامل میانگین ،انحراف معیار، مینیمم و ماکزیمم هر متغیر و ماتریس همبستگی تمام متغیرها) را ارائه میکنند. ممکن است جدول دیگری شامل نتایج تحلیل آماری مثل برآورد ضرایب OLS بههمراه آماره ( tیــا )P-valueاین ضرایب ،مقدار R2و آماره Fبرای آزمون معناداری کل رگرسیون نیز ممکن است در برخی مقاالت وجود داشته باشد. نتیجهگیری :این بخش باید شامل خالصهای کوتاه از موضوع تحت بررسی مقاله و مهمترین یافتههای تجربی آن باشد.
تحلیل دادههای اقتصادی
374
مواردی است و نتایج مقاله چگونه باید ارائه شوند. اولین نکته مهم این اســت که نتایج درســت یا غلط وجــود ندارند .نتایج تجربی همانطور که بهدست میآیند گزارش میشوند و اگر خروجی نرمافزار و نتایــج مقالهتان مطابق انتظار نبود نباید ناامید شــوید .در حالت آرمانی ،ابتدا محقق یک نظریه را در نظر میگیرد یا حتی نظریهای جدید ارائه میکند ،سپس برای آزمایــش این نظریه ،آزمونهای تجربی را انجــام میدهد که در بهترین حالت ،نتایج آن نظریه جدید را از نظر آماری تایید میکند .اما در جهان واقعی بهندرت چنین فرایندی اتفاق میافتد. در جهان واقعی متغیرهای توضیحی که انتظار دارید از لحاظ آماری معنادار باشند ،اغلب معنادار نیستند .متغیرهایی که انتظار دارید همجمع باشند ،معموال همجمع نیســتند و ضرایبی که انتظار دارید مثبت باشــند ،اغلب منفی بهدست میآیند .بهدســت آمدن چنین نتایجی اصال عجیب نیست -حتی در مطالعات پیچیده و سطح باال .این موضوع نباید باعث نومیدی شما بشود! در عوض باید زاویه دیدتان را بازتر کند .یافتههایی که با نظریه نمیخوانند درســت به اندازه یافتههای مطابق با نظریه ،علمی هستند. عالوه بر این نتایج تجربی اغلب اوقات مبهم و گیجکننده هستند .مثال یک آزمون آماری ممکن اســت به یک نتیجه منجر شود و آزمون دیگر به نتیجهای دیگر .بههمین شــکل ،یک متغیر توضیحی که در یک رگرسیون معنادار است ممکن است در رگرسیون دیگر معنادار نباشد .شما کاری در این مورد نمیتوانید انجام دهید بهجز اینکه نتایج را دقیقا همانطور که هســت گزارش کنید و (در صورت امکان) سعی کنید بفهمید چرا چنین نتایجی بهدست آمده است. کم پیش میآیــد که اقتصاددانــی کل نتایج آماری مقاله را دســتکاری یا جعل کند .آنچه بیشــتر پیش میآید این اســت که محقق یا اقتصاددان ممکن است وسوسه شــود کاری کند که نتایج را مطابق انتظار نظریه جلوه دهد .مثال در تحقیقها متداول اســت که تعداد زیادی رگرســیون با متغیرهای توضیحی گوناگونی برآورد شــود .انجام چنین کاری هوشــمندانه است و نشان میدهد
عناوین مقاالت
در ادامه چندین عنوان درج شده است که میتوانید هر کدام را بدل به یک مقاله کنید.
موضوع اول :معامی کم قیمتگذاری شدن سهام
پیشینه :سرمایهگذاران و اقتصاددانان مالی عالقهمند به دانستن ساز و کار بازار سهام برای قیمتگذاری سهام شرکتهای مختلف هستند (ارزش سهام) .در تحلیل بنیادی ارزش سهام هر بنگاه باید نشاندهنده انتظارات سرمایهگذاران نسبت به سودآوری آینده آن بنگاه باشد .اما در مورد سودآوری آینده بنگاه دادهای وجود ندارد .به جای آن مطالعات تجربی مالی باید از معیارهایی مثل درآمد فعلی ،فروش ،حجم دارایی و بدهی بنگاه بهعنوان متغیر توضیحی استفاده کنند.
375
ضمیمه الف :نوشتن یک مطالعه تجربی
که محقق دادهها را با دقت موشــکافی کــرده و موضوع را از جوانب مختلفی در نظر گرفته اســت .اما اگر محقق فقط نتایــج دلخواه را گزارش کند و نتایج سایر رگرسیونهایی که مطابق انتظار نیستند را گزارش نکند ،میتوان گفت که خواننده را گول زده اســت .از وسوسه گزارش جهتدار نتایج (یعنی گزارش نکردن نتایج نامطلوب) اجتناب کنید! در مورد نحوه گزارش کردن نتایج مهمترین چیز ،وضوح و شفافیت است. فارغ از این که مقالهتان خوب اســت یا نه ،خوانندگان احتمالی مقالهتان یعنی اساتید دانشگاهی ،کارمندان دولت ،سیاســتگذاران و شاغلین بخش صنعت آنقدر وقت و حوصله ندارند که صرف خواندن گزارشی طوالنی ،ب ه هم ریخته یا مبهم و پیچیده کنند. مهارت اصلی که نویسندگان مقاالت خوب دارند ،حسن انتخاب است .مثال ممکن اســت رگرســیوههای گوناگونی را برآورد و ضرایب زیادی را بهدست آورده باشــید .نکته مهم این اســت که تصمیم بگیرید کدام یک از نتایج برای خوانندگان مهم هســتند و کــدام کماهمیت .فقط باید نتایــج مهم را در مقاله گزارش کنید و اینکار را بدون دستکاری کردن نتایج انجام دهید.
تحلیل دادههای اقتصادی
376
عالوه بر پرسش عام چگونگی تعیین ارزش بازار سهام هر بنگاه ،طی سالهای اخیر پرسش دیگری نیز مورد توجه اقتصاددانان قرار گرفته است .برای درک این سوال توجه کنید که بخش عمده سهام مبادلهشده در بازارهای سهام ،سهام قبال منتشرشده شرکتهای موجود هستند .اما شرکتهای موجود نیز عالوه بر سهام قبلی خود ،سهام جدید نیز منتشر میکنند -که به آن SEO1میگویند .عالوه بر این ،شــرکتهایی که تا به حال سهامشان در بازار معامله نمیشده است ممکن است سهام منتشر کنند (مثال شرکت نرمافزار کامپیوتر که مالک آن یک فرد است میخواهد بدل به شــرکت سهامی عام شود و برای افزایش سرمایه یا گسترش مقیاس خود ،سهامش را در بازار عرضه کند) .اولین عرضه عمومی سهم را IPOs مینامند .بعضی از محققین بر مبنای شواهد تجربی معتقدند که IPOsدر مقایسه با ،SEOsزیرقیمت ارزشگذاری میشــوند .در این مقاله با استفاده از دادههای زیر ،این موضوع را بررسی کنید. دادهها :فایل EQUITY.XLSشــامل دادههای N=309شرکتی است که در ســال 1996در آمریکا سهام جدید منتشــر کردهاند .بعضی از آنها SEOsو برخی دیگر IPOsهســتند .برای متغیرهای زیر داده وجود دارد .تمام متغیرها بهجز SEOبه میلیون دالر هستند. • :VALUEارزش مجموع ســهام (جدید و قدیمی) پس از انتشــار سهام جدید توسط شرکت .این مقدار از ضرب قیمت هر سهم در تعداد سهام موجود بهدست آمده است. • :DEBTمقدار بدهی بلندمدت هر شرکت. • :SALESمجموع فروش هر شرکت. • :INCOMEخالص درآمد هر شرکت. • :ASSETارزش دفتــری داراییهای هر شــرکت (یعنی یک حســابدار داراییهای شرکت را چقدر ارزشگذاری میکند). 1- Seasoned equity offerings
• :SEOمتغیر مجازی که اگر ســهام منتشرشده SEOباشد مساوی 1است و اگر IPOباشد مساوی صفر است.
موضوع دوم :توضیح رشد اقتصادی
2- Fernandez, Ley and Steel
1- Barro
377
ضمیمه الف :نوشتن یک مطالعه تجربی
پیشــینه :در مقاله مهم بارو ،)1991( 1از روش رگرســیونی برای تعیین عوامل موثر بر رشد اقتصادی کشورها استفاده شده است .پس از آن تعداد زیادی مقاله دیگر منتشر شد که این موضوع را با دادهها ،متغیرها و روشهای آماری متفاوتی بررســی کردند .هدف این مقاله بررســی عوامل تعیینکننده رشد اقتصادی با استفاده از دادههای زیر و روش رگرسیون است .دادهها :فایل GROWTH.XLS شامل دادههای N=72کشــور برای متغیرهای زیر است .همه متغیرها متوسط دوره 1960-1992یا سالهایی در این دوره زمانی هستند. • :GDP growthمتوسط رشد GDPسرانه. • :Primary schoolنسبت جمعیت دارای حداقل تحصیالت دبستان. • :Life expectancyامید به زندگی. • :GDP 1960سطح GDPسرانه در سال ( 1960به دالر آمریکا). • :Investmentسرمایهگذاری در ماشینآالت و تجهیزات. • :Higher educationنسبت جمعیت دارای حداقل مدرک لیسانس. • :War dummyمتغیر مجازی با مقدار 1اگر کشــور مدنظر در بازه زمانی 1960-1992درگیر جنگ بوده باشد و 0در غیر این صورت. نکته :دادههای استفادهشــده در این مقاله بخشــی از دادههای استفادهشده توسط فرناندز ،لی و استیل )2001( 2است ،البته ایشان از مدل آماری پیچیدهتری اســتفاده کردند .در مقاله ایشان از دادهها با جزییات بیشتری استفاده شده است و البته منبع کل دادهها نیز ذکر شده است.
موضوع سوم :مشارکت زنان در بازار کار
تحلیل دادههای اقتصادی
378
پیشینه :اقتصاددانان مایل به دانستن عوامل تعیینکننده تصمیم زنان برای ورود به بازار کار هســتند .هدف این مقاله برآورد مدل انتخاب کیفی مناســبی برای توضیح عوامل تعیینکننده مشــارکت زنان در بازار کار اســت .از نتایج برآورد میتوان برای پاســخ دادن به سواالت تحقیقی مانند سوالهای زیر استفاده کرد: «آیا داشــتن فرزند تمایــل زنان به کار کردن را کاهش میدهــد؟» یا «آیا زنان تحصیلکرده یا باهوشتر بیشــتر کار میکنند؟» یا «آیا درآمد شوهر بر تصمیم زنان متاهل برای ورود به بازار کار موثر است؟». دادهها :در این مقاله میتوانید از دادههای فایل WORKCHOICE.XLSاســتفاده کنید که از نظرسنجی از 655زن آمریکایی متاهل سفیدپوست برای تعیین تمایلشان به کار کردن بهدست آمده است .فایل دادهها شامل یک متغیر وابسته مجازی یعنی ( workchoiceانتخاب کار) است ،اگر فرد موردنظر شاغل باشد مساوی 1و در غیر این صورت مساوی 0است .متغیرهای توضیحی مدل بهشرح زیر هستند: • :abilityمعیار توانایی شــناختی مبتنی بر آزمون ( IQنگران واحد شمارش نباشید ،اما توجه داشته باشید که مقدار بیشتر این متغیر نشاندهنده توانایی بیشتر است). • :num-kidsتعداد فرزندان. • :sp_incomeدرآمد شوهر (به هزار دالر). • :years_edتعداد سالهای تحصیل. • :Urateنرخ بیکاری در منطقه محل زندگی.
موضوع :4چگونگی تنظیم دستمزدها
پیشــینه :در این مقاله با اســتفاده از دادههای ســریزمانی ،چگونگی تعیین دســتمزدها بررسی میشود .پرســش اصلی در چنین تحلیلهایی این است که وابســتگی سطح دستمزدها به عوامل اقتصاد کالن مثل سطح قیمتها GDP ،و متغیرهای مرتبط با اشتغال و نیروی کار چگونه است .برای بررسی تجربی این
موضوع :5مرصف ،ثروت و درآمد
پیشینه :در مقاله برجسته التائو و لودویگسون )2001( 1نظریه مالی ارائه شد که بر مبنای آن مصرف ،داراییها و درآمد همانباشته هستند و پسماند رابطه همانباشتگی میتواند مازاد بازده ســهام را پیشبینی کند .ایشان برای اثبات 1- Lattau and Ludvigson
379
ضمیمه الف :نوشتن یک مطالعه تجربی
موضوع باید به مسائلی چون ریشه واحد و همانباشتهی توجه کرد. دادهها :فایل WAGE.XLSشــامل دادههای ســاالنه انگلســتان از سال 1855 تا 1987اســت .از همه متغیرهای لگاریتم طبیعی گرفته شــده است .دادههای متغیرهای زیر در فایل وجود دارند: • :Wلگاریتم دستمزد اسمی. • :Pلگاریتم شاخص قیمت مصرفکننده. • :GDPلگاریتم GDPواقعی. • :Eلگاریتم مجموع تعداد نیروی کار. • :Lلگاریتم مجموع نیروی کار بالقوه. ادامه پیشــینه :عالوه بر موضوع چگونگی تعیین دســتمزد ،میتوان به روابط بیــن متغیرهای فــوق نیز پرداخــت .اگر فرمولهــای عملگــر لگاریتم مثل ) ln(AB) = ln(A) - ln (Bو ln (1 + A ) ≈ Aرا به یاد داشــته باشید میتوانید فرمولهای زیر را بهدست بیاورید: • لگاریتم دستمزدهای واقعی = W - P • لگاریتم بهرهوری هر کارگر = GDP - E • لگاریتم نرخ بیکاری ≈ L − E • لگاریتم سهم دستمزدها از W - P- GDP + E = GDP موضوع دیگر قابل بررسی این است که آیا روابط فوق ،روابط همانباشتهی هستند یا خیر.
تحلیل دادههای اقتصادی
380
ادعای خود شــواهد تجربی ارائه کردند .در مقاله بعدی لتائو و لودویگسون ( )2004با اســتفاده از دادههای مشــابه شــواهد بیشــتری برای آزمون هم انباشتگی و VECMجمعآوری کردند.در این مقاله باید از آزمونهای ریشه واحد و هم انباشتگی و تکنیک VECMاستفاده کنید .البته میتوانید مقاله را به دلخواه خود تغییر دهید اما موضوعات و پرســشهایی که در ادامه آمده است مثالهای مناسبی هستند: • نتیجهگیری لتائو و لودویگســون مبتنی بر این یافته اســت که متغیرهای فوقالذکر هم انباشــته هستند .با در نظر گرفتن طول وقفههای متفاوت و تغییر دادن اجــزای قطعی (مثل جزء ثابت و روند زمانی) رابطه هم انباشــتگی ،این موضوع را دقیقتر بررسی کنید. • یک مدل تصحیح خطای برداری یا VECMرا برآورد و نتایج آن را تفسیر کنید .کدام متغیرهای توضیحی برای پیشبینی کدام متغیرها مناســب هستند؟ روش VECMرا برای بررسی علیت گرنجر بهکار بگیرید. دادهها :برای انجام این مقاله از فایل CAY.XLSاستفاده کنید که شامل دادههای متغیرهای زیر از فصل چهارم سال 1951تا فصل اول سال 2003است: • مصرف یا c؛ • دارایی یا a؛ • درآمد یا .y چنین رابطهای که CAYنامیده میشود در ادبیات جدید اقتصاد مالی بسیار پرکاربرد است.
موضوع :6نوسانات مالی
در این مقاله از دادههای کار فرانسیس و فاندیک )2000( 1استفاده میشود .این دادهها به همراه مجموعه غنی از دادههای قیمت سهام و نرخهای ارز کشورهای 1- Franses and van Dijk
381
ضمیمه الف :نوشتن یک مطالعه تجربی
مختلف در وبســایت مرتبط وجود دارد .از جمله این دادهها میتوان به موارد زیر اشاره کرد :شاخص قیمت سهام بورسهای آمستردام ( ،)EOEفرانکفورت ( ،)DAXهونــگ کونــگ ( ،)Hang Sengلنــدن ( ،)FTSE100نیویــورک ( ،)S&P 500پاریس ( ،)CAC40سنگاپور ( )Singapore All Sharesو توکیو ( )Nikkeiو نرخهای ارز عبارتند از دالر استرالیا ،پوند بریتانیا ،دالر کانادا ،داچ مارک آلمان ،گیلدر هلند ،فرانک فرانســه ،ین ژاپن و فرانک ســوییس همه بر حســب یک دالر آمریکا .بازه زمانی شاخص قیمت سهام از 6ژانویه 1986تا 31دســامبر 1997است و برای نرخهای ارز این بازه زمانی از 2ژانویه 1980 تا 31دسامبر 1997را شامل میشود. با اســتفاده از این دادهها و مدلهای ARCHو GARCHنوسانات مالی را بررسی کنید .آیا در بازده سهام هم نوسان وجود دارد؟ نرخهای ارز چطور؟ کارهــای زیادی میتوان با این دادهها انجام داد .مثال یکی از موضوعاتی که مورد توجه محققان اقتصاد مالی قرار دارد این اســت که آیا نوسانات بازارهای مالی به تواتر دادهها بستگی دارد؟ یعنی ممکن است دادههای روزانه بازده سهام نوسان بیشــتری نسبت به دادههای ماهانه داشته باشند .با استفاده از این دادهها میتوانید این موضوع را بررســی کنید .دادههای فوق با تواتر روزانه نیز وجود دارند .اگر در تحقیقتان به تواتر هفتگی نیاز دارید ،از دادههای چهارشــنبه هر هفته استفاده کنید و برای تواتر ماهانه ،از روز آخر هر ماه.
ضمیمه ب فهرست راهنامی دادهها ADVERT
مخارج فروش و تبلیغات
مقطعی برای 84شرکت
فصلهای 4و 5
AFFAIR
انتخاب یک کار
مقطعی برای 61نفر
فصل 8
CAY
مصرف ،داراییها و درآمد
سریزمانی برای 206فصل
فصل 12و ضمیمه A
COMMUTE
انتخاب بین حملونقل عمومی یا اتوموبیل شخصی
مقطعی برای 390نفر
فصل 8
COMPUTE1درصد تغییر در خرید کامپیوتر و بهرهوری کارمندان
سریزمانی برای 98ماه
فصل 11
COMPUTERدرصد تغییر در خرید کامپیوتر و بهرهوری کارمندان
سریزمانی برای 98ماه
فصل 11
CORMAT
متغیرهای ساختگی با نامهای Y، Xو Z
20مشاهده مقطعی
فصل 3
EDUC
مخارج آموزش و رشد GDP
سریزمانی 86ساله از 1910 تا 1995
فصل 9
ELECTRIC
هزینه تولید صنعت برق ،مقدار تولید و قیمت نهادههای تولید
مقطعی برای 123شرکت
فصلهای 5 ،4و 6
مقطعی برای 309شرکت
ضمیمه الف
EX34
متغیرهای شبیهسازیشده به نامهای X2 ،Y، X1و X3
20مشاهده مقطعی
فصل 3
EX46
متغیرهای شبیهسازیشده به نامهای Yو X
50مشاهده مقطعی
فصل 4
EXRUK
نرخ ارز پوند انگلستان به دالر آمریکا
سریزمانی 598ماهه از ژانویه 1947تا اکتبر 1996
فصل 12
FIG105
متغیر شبیهسازیشده به نام «سری »b=0
سریزمانی با 100مشاهده
فصل 10
FIG106
متغیر شبیهسازیشده به نام «سری »8.b=0
سریزمانی با 100مشاهده
فصل 10
FIG107
متغیر شبیهسازیشده به نام «سری »b=1
سریزمانی با 100مشاهده
فصل 10
FIG108
متغیر شبیهسازیشده به نام «»trend stat
سریزمانی با 100مشاهده
فصل 10
FIG51
متغیر شبیهسازیشده به نامهای Xو Y
مقطعی با 5مشاهده
فصل 5
EQUITY
ارزش سهام بنگاهها ،بدهی ،فروش ،درآمد ،داراییها و متغیر مجازی SEO
383
ضمیمه ب :فهرست راهنمای دادهها
فایل دادهها
محتوا
نوع دادهها
فصل
فایل دادهها
محتوا
نوع دادهها
فصل
FIG52
متغیر شبیهسازیشده به نامهای Xو Y
مقطعی با 100مشاهده
فصل 5
FIG53
متغیر شبیهسازیشده به نامهای Xو Y
مقطعی با 100مشاهده
فصل 5
FIG54
متغیر شبیهسازیشده به نامهای Xو Y
مقطعی با 100مشاهده
فصل 5
FOREST
کاهش سطح جنگلها ،تراکم جمعیت ،تغییر مراتع و تغییر کشتزار
مقطعی برای 70کشور
فصلهای 5 ،4 ،3 ،2و 6
GDPPC
GDPسرانه واقعی
مقطعی برای 90کشور
فصلهای 2و 5
GROWTH
رشد GDPو متغیرهای توضیحی
مقطعی برای 72کشور
ضمیمه الف
HPRICE
قیمت و ویژگیهای خانه (مثل اندازه خانه ،تعداد اتاق خوابها و)...
مقطعی برای 546خانه
فصلهای 6 ،5 ،4 ،3و 7
INCOME
لگاریتم درآمد شخصی و مصرف در آمریکا
LONGGDP
تحلیل دادههای اقتصادی
384
سریزمانی برای 164فصل از فصل اول سال 1954تا فصل فصلهای 11 ،10 ،2و 12 چهارم سال 1994
سریزمانی 124ساله از 1870 GDPسرانه واقعی استرالیا ،آمریکا ،انگلستان و کانادا تا 1993
NYSE
تغییرات قیمت سهام
سریزمانی 528ماهه از ژانویه 1952تا دسامبر 1995
ORANGE
قیمت پرتقال معمولی و ارگانیک
سریزمانی برای 181ماه
RMPY
سریزمانی برای 184فصل از نرخ بهره ماهانه اوراق خزانهداری ،قیمت این اوراق، فصل اول سال 1947تا فصل عرضه پول GDP ،و تغییرات تفاضلی تمام متغیرها چهارم سال 1992
فصلهای 11و 12 فصل 12 فصلهای 11و 12 فصل 12
SAFETY
زیانهای شرکت ناشی از حوادث و ساعات صرفشده برای آموزش ایمنی
سریزمانی برای 60ماه
فصل 9
SMOKING
استعمال سیگار ،آموزش و سن
مقطعی برای 1196نفر
فصل 8
STOCK
دادههای وقفهدار قیمت سهام
سریزمانی برای 208هفته
فصل 11
سریزمانی برای 133سال از 1855تا 1987
ضمیمه الف
WAGEDISC
دادههای مرتبط با اشتغال کارمندان (مثل حقوق، آموزش ،تجربه و جنسیت)
مقطعی برای 100کارمند
فصل 7
WORKCHOICE
انتخاب شغل توسط زنان
مقطعی برای 655نفر
ضمیمه الف
WP
لگاریتم دستمزها در انگلستان و شاخص قیمت مصرفکننده
سریزمانی 131ساله از 1857 تا 1987
فصلهای 10و 11
WAGE
لگاریتم دستمزهای اسمی در انگلستان ،شاخص
قیمت مصرفکننده GDP ،واقعی ،کل اشتعال و مجموع نیروی کار بالقوه
مجموعه این دادهها را میتوانید از طریق سایت وبالگ کانال دریافت نمایید.