تحلیل داده های اقتصادی: درک الگوهای اقتصادسنجی بدون نیاز به پیشینه ریاضی 9786004970235

کتاب تحلیل داده‌های اقتصادی نوشته‌ی گری کوپ، مهم‌ترین الگوهای اقتصادسنجی مدرن را بررسی می‌کند. کتاب تحلیل داده‌های اقتص

583 108 5MB

Persian Pages 384 [385] Year 1397

تحلیل داده های اقتصادی: درک الگوهای اقتصادسنجی بدون نیاز به پیشینه ریاضی
9786004970235

Author / Uploaded
گری کوپ
Gary Koop

Categories
Economy
Econometrics

Table of contents :
پیش‌گفتار مترجمان
پیش‌گفتار چاپ چهارم
پیش‌گفتار چاپ سوم
پیش‌گفتار چاپ دوم
پیش‌گفتار چاپ اول
فصل 1: مقدمه
فصل 2: مبانی کار با داده‌ها
فصل 3: همبستگی
فصل 4: معرفی رگرسیون ساده
فصل 5: جنبه‌های آماری رگرسیون
فصل 6: رگرسیون چندگانه
فصل 7: رگرسیون با متغیرهای مجازی
فصل 8: الگوهای انتخاب کیفی
فصل 9: رگرسیون با وقفه زمانی: الگوهای با وقفه توزیعی
فصل 10: تحلیل سری‌ زمانی تک متغیره
فصل 11: رگرسیون با متغیرهای سری ‌زمانی
فصل 12: کاربرد الگوهای سری ‌زمانی در اقتصاد کلان و مدیریت مالی
فصل 13: محدویت‌ها و راه‌حل‌ها
ضمیمه الف: شیوه نوشتن یک مقاله
ضمیمه ب: فهرست راهنمای داده‌ها

Citation preview

‫به‌نام آن‌که جان را فکرت آموخت‬

‫سرشناســه‪ :‬کوپ‪ ،‬گــری‪ /Koop, Gary /‬عنوان و نــام پدیدآور‪ :‬تحلیل داده‌های اقتصــادی‪ :‬درک الگوهای‬ ‫اقتصادسنجی بدون نیاز به پیشینه ریاضی‪ /‬گری کوپ؛ مانی موتمنی‪ ،‬آرش هادی‌زاده‪ /‬مشخصات نشر‪ :‬تهران‪:‬‬ ‫انتشــارات دنیای اقتصاد‪ /1397 ،‬مشخصات ظاهری‪ 384 :‬ص‪ :.‬جدول‪ ،‬نمودار؛ ‪ 21/5 ×14/5‬س‌م‪ /.‬فروست‪:‬‬ ‫اقتصاد‪ /‬شابک‪ /978-600-497-023-5 :‬وضعیت فهرست‌نویسی‪ :‬فیپا‪ /‬یادداشت‪ :‬عنوان اصلی‪Analysis :‬‬ ‫‪ /.of economic data,4th ed, 2013‬عنوان دیگر‪ :‬درک الگوهای اقتصادســنجی بدون نیاز به پیشینه ریاضی‪/‬‬ ‫موضوع‪ :‬اقتصادســنجی‪ /‬موضوع‪ /Econometrics :‬شناســه افزوده‪ :‬موتمنی‪ ،‬مانی‪ ،-1360 ،‬مترجم‪ /‬شناسه‬ ‫افزوده‪ :‬هــادی‌زاده‪ ،‬آرش‪ ، -1360 ،‬مترجم‪ /‬رده‌بندی کنگــره‪3 1397 :‬ت‪9‬ک‪ /HB141 /‬رده‌بندی دیویی‪:‬‬ ‫‪ / 330/015195‬شماره کتابشناسی ملی‪5318950 :‬‬

‫‪1397‬‬

‫اقتصاد‬

‫تحلیل داده‌های اقتصادی‬

‫درک الگوهای اقتصادسنجی بدون نیاز به پیشینه ریاضی‬

‫گری کوپ‬ ‫مرتجامن؛ مانی مومتنی؛ عضو هیات علمی دانشگاه مازندران‪ ،‬دانشکده اقتصاد و علوم اداری‬ ‫یزاده؛ عضو هیات علمی دانشگاه آزاد اسالمی‪ -‬واحد قزوین‬ ‫آرش هاد ‏‬ ‫ ‬

‫تحلیل داده‌های اقتصادی (درک الگوهای اقتصادســنجی بدون نیاز به پیشینه ریاضی)‪ /‬ناشر‪ :‬انتشارات دنیای‬ ‫اقتصــاد‪ /‬مولف‪ :‬گری کوپ‪ /‬مترجم‪ :‬مانی موتمنی (عضو هیات علمی دانشــگاه مازندران‪ ،‬دانشــکده اقتصاد و‬ ‫علوم اداری)‪ /‬آرش هادی‏زاده (عضو هیات علمی دانشــگاه آزاد اســامی‪ -‬واحد قزوین)‪ /‬طراح جلد و یونیفورم‪:‬‬ ‫حسن کریم‌زاده‪ /‬صفحه‌آرا‪ :‬مریم فتاحی‪ /‬مدیر تولید‪ :‬انوشه صادقی آزاد‪ /‬نوبت چاپ‪ :‬اول‪ /1397-‬شمارگان‪:‬‬ ‫‪ 500‬نسخه‪ /‬شابک‪ /978-600-497-023-5 :‬چاپ‪ :‬پردیس‪ /‬تمام حقوق این اثر محفوظ و متعلق به نشردنیای‬ ‫اقتصاد اســت‪ /‬نشانی انتشارات‪ :‬تهران‪ ،‬خیابان مطهری‪ ،‬بین سنایی و میرزای شیرازی‪ ،‬شماره ‪ ،370‬طبقه سوم‪/‬‬ ‫تلفن‪ / 87762136 :‬نشانی فروشگاه‪ :‬تهران‪ ،‬خیابان قائم‌مقام فراهانی‪ ،‬ضلع شمال غربی میدان شعاع‪ ،‬شماره ‪/108‬‬ ‫تلفن ‪ /87762747 :‬پست الکترونیک‪ /book@den. ir :‬پایگا‌ه اینترنتی‪book. den. ir :‬‬

‫در این کتاب می‌خوانید‬

‫‪1‬‬ ‫‪ 3‬‬ ‫‪ 15‬‬ ‫‪1‬‬ ‫‪ 7‬‬ ‫‪1‬‬ ‫‪ 9‬‬ ‫‪ 21‬‬

‫پیش‏گفتار مترجمان‬ ‫پیش‏گفتار چاپ چهارم‬ ‫پیش‏گفتار چاپ سوم‬ ‫پیش‏گفتار چاپ دوم‬ ‫پیش‏گفتار چاپ اول‬

‫ ‬ ‫ ‬

‫فصل ‪1‬‬ ‫مقدمه‬ ‫سازمان‏دهی کتاب‬ ‫پیشینه مورد نیاز‬ ‫پیوست ‪ :1-1‬مفاهیم ریاضی مورد استفاده در این کتاب‬

‫ ‬ ‫ ‬

‫‪ 28‬‬ ‫‪3 0‬‬ ‫‪3 1‬‬

‫‪3 7‬‬ ‫‪3 9‬‬ ‫‪4 0‬‬ ‫‪4 1‬‬ ‫‪ 42‬‬ ‫‪4 6‬‬ ‫‪ 49‬‬ ‫‪5 1‬‬ ‫‪5 4‬‬ ‫‪ 57‬‬ ‫‪ 61‬‬

‫فصل ‪2‬‬ ‫مبانی کار با داده‏ها‬ ‫انواع داده‏های اقتصادی‬ ‫تفاوت بین داده‏های کیفی و کمی‬ ‫پَنِل دیتا یا داده‏های پنلی‬ ‫تبدیل داده‏ها‪ :‬سطوح در مقابل نرخ‏های رشد‬ ‫اعداد شاخص‬ ‫گردآوری داده‏ها‬ ‫کار با داده‏ها‪ :‬روش نموداری‬ ‫هیستوگرام‬ ‫نمودارهای ‪XY‬‬ ‫کار با داده‏ها‪ :‬آمار توصیفی‬ ‫خالصه‬

‫‪6 2‬‬ ‫‪7 0‬‬ ‫ ‬ ‫ ‬

‫ ‬ ‫ ‬

‫‪ 76‬‬ ‫‪8 3‬‬ ‫‪ 93‬‬ ‫‪ 94‬‬

‫‪9 6‬‬ ‫‪ 104‬‬ ‫‪1 09‬‬ ‫‪ 116‬‬ ‫‪1 21‬‬ ‫‪ 122‬‬

‫ ‬ ‫ ‬

‫ ‬ ‫ ‬

‫‪ 127‬‬ ‫‪1 31‬‬ ‫‪ 141‬‬ ‫‪ 148‬‬ ‫‪1 53‬‬ ‫‪ 154‬‬

‫‪ 159‬‬ ‫‪ 160‬‬ ‫‪1 61‬‬ ‫‪ 162‬‬ ‫‪1 67‬‬ ‫‪1 71‬‬ ‫‪1 73‬‬ ‫‪1 82‬‬ ‫‪ 183‬‬

‫پیوست‪ :2-1‬اعداد شاخص‬ ‫پیوست ‪ :2-2‬آمار توصیفی پیشرفته‬ ‫فصل ‪3‬‬ ‫همبستگی‬ ‫فهم همبستگی‬ ‫درک دلیل همبستگی متغیرها‬ ‫خالصه فصل‬ ‫ضمیمه ‪ :3-1‬جزییات ریاضیاتی‬ ‫فصل ‪4‬‬ ‫معرفی رگرسیون ساده‬ ‫رگرسیون به‌عنوان بهترین خط برازش شده‬ ‫تفسیر برآوردهای ‪OLS‬‬ ‫مقادیر برازش‏شده و ‪ :R2‬اندازه‏گیری نیکویی برازش مدل رگرسیون‬ ‫غیرخطی بودن در رگرسیون‬ ‫خالصه فصل‬ ‫ضمیمه ‪ :4-1‬جزییات ریاضی‬ ‫فصل ‪5‬‬ ‫جنبه‏های آماری رگرسیون‬ ‫چه عواملی بر دقت برآورد ^‪ β‬تاثیر می‏گذارند؟‬ ‫^‬ ‫محاسبه فاصله اطمینان برای ‪α‬‬ ‫^‬ ‫آزمون فرضیه ‪β=0‬‬ ‫آزمون فرضیه ‪ :R2‬آماره ‪F‬‬ ‫خالصه فصل‬ ‫ضمیمه ‪ :5-1‬استفاده از جدول‏های آماری برای آزمون فرضیه ‪β=0‬‬ ‫فصل ‪6‬‬ ‫رگرسیون چندگانه‬ ‫رگرسیون به‏عنوان بهترین خط برازش‬ ‫برآورد ‪ OLS‬از مدل رگرسیون چندگانه‬ ‫جنبه‏های آماری رگرسیون چندگانه‬ ‫تفسیر برآوردهای ‪OLS‬‬ ‫تفاوت‏های بین تفسیرهای نتایج رگرسیون ساده و چندگانه‬ ‫تورش متغیرهای حذف‏شده‬ ‫هم‏خطی‬ ‫خالصه فصل‬ ‫ضمیمه ‪ :6-1‬تفسیر ریاضی ضرایب رگرسیون‬

‫ ‬ ‫ ‬

‫ ‬ ‫ ‬

‫ ‬ ‫ ‬

‫ ‬ ‫ ‬

‫‪1 88‬‬ ‫‪1 90‬‬ ‫‪ 194‬‬ ‫‪1 98‬‬ ‫‪2 01‬‬

‫‪2 05‬‬ ‫‪2 07‬‬ ‫‪2 15‬‬ ‫‪ 215‬‬

‫‪ 224‬‬ ‫‪2 27‬‬ ‫‪2 28‬‬ ‫‪ 231‬‬ ‫‪2 35‬‬ ‫‪ 236‬‬

‫‪2 44‬‬ ‫‪2 49‬‬ ‫‪ 252‬‬ ‫‪2 55‬‬ ‫‪2 62‬‬

‫‪2 62‬‬ ‫‪2 65‬‬ ‫‪2 69‬‬ ‫‪ 269‬‬ ‫ ‬ ‫ ‬

‫‪2 74‬‬

‫فصل ‪7‬‬ ‫رگرسیون با متغیرهای مجازی‬ ‫رگرسیون ساده با استفاده از متغیرهای مجازی‬ ‫رگرسیون چندگانه با متغیرهای مجازی‬ ‫رگرسیون چندگانه با متغیرهای توضیحی مجازی و غیرمجازی‬ ‫اثر متقابل متغیرهای مجازی و غیرمجازی‬ ‫خالصه فصل‬ ‫فصل ‪8‬‬ ‫الگوهای انتخاب کیفی‬ ‫الگوی انتخاب در دانش اقتصاد‬ ‫احتماالت در انتخاب و الگوهای لوجیت و پروبیت‬ ‫خالصه فصل‬ ‫پیوست ‪8-1‬‬ ‫فصل ‪9‬‬ ‫رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬ ‫متغیرهای باوقفه‬ ‫شیوه نوشتاری‬ ‫مثال کاربردی‪ :‬اثر دوره‏های آموزشی ایمنی بر حوادث‬ ‫انتخاب مرتبه وقفه‬ ‫خالصه فصل‬ ‫پیوست ‪ -9-1‬سایر مدل‏های با وقفه توزیعی‬ ‫فصل ‪10‬‬ ‫تحلیل سری‏‏زمانی تک متغیره‬ ‫تابع خودهمبستگی‬ ‫مدل خودرگرسیونی برای سری‏‏های زمانی تک‏متغیره‬ ‫نامانایی در مقابل مانایی سری‏های زمانی‬ ‫بسط الگوهای )‪AR(1‬‬ ‫آزمون ضرایب در )‪AR(p‬با وجود روند قطعی‬

‫آزمون ضرایب ‪α.ᵞ ......ᵞ , ᵟ‬و ‪ᵟ‬‬ ‫‪p-1‬‬

‫‪1‬‬

‫آزمون ‪ρ‬‬ ‫خالصه فصل‬ ‫پیوست ‪ :10-1‬درک ریاضیاتی الگوی)‪AR(1‬‬ ‫فصل ‪11‬‬ ‫رگرسیون با متغیرهای سری‏زمانی‬ ‫رگرسیون سری‏زمانی در حالتی که ‪ X‬و ‪ Y‬مانا هستند‬

‫‪2 81‬‬ ‫‪2 82‬‬ ‫‪2 86‬‬ ‫‪2 92‬‬ ‫‪2 97‬‬ ‫‪3 00‬‬ ‫ ‬ ‫ ‬

‫ ‬ ‫ ‬

‫‪ 302‬‬ ‫‪3 06‬‬ ‫‪3 10‬‬ ‫‪ 317‬‬ ‫‪3 18‬‬ ‫‪3 19‬‬ ‫‪ 322‬‬ ‫‪3 25‬‬ ‫‪3 26‬‬ ‫‪ 334‬‬ ‫‪ 336‬‬ ‫‪ 341‬‬ ‫‪3 47‬‬ ‫‪ 348‬‬

‫رگرسیون سری‏زمانی در حالتی که ‪ Y‬و ‪ X‬ریشه واحد داشته باشند‪ :‬رگرسیون ساختگی‬ ‫رگرسیون سری‏زمانی در حالتی که ‪ Y‬و ‪ X‬دارای ریشه واحد باشند‪ :‬هم‏انباشتگی‬ ‫برآورد و آزمون با متغیرهای هم‏انباشته‬ ‫رگرسیون سری‏زمانی در حالتی که ‪ Y‬و ‪ X‬هم‏انباشته باشند‪ :‬الگوی تصحیح خطا‬ ‫رگرسیون سری‏زمانی وقتی ‪ Y‬و ‪ X‬ریشه واحد دارند ولی هم‏انباشته نیستند‬ ‫خالصه فصل‬ ‫فصل ‪12‬‬ ‫کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬ ‫نوسانات مالی‬ ‫مثال ‪ 12-1‬الف‪ .‬نوسانات در بازار سهام‬ ‫الگوی خودهمبستگی با ناهمسانی شرطی واریانس )‪(ARCH‬‬ ‫علیت گرنجر‬ ‫علیت گرنجر در یک الگوی ساده ‪ARDL‬‬ ‫آزمون علیت گرنجر در الگوی ‪ ARDL‬با وقفه‏های ‪ p‬و ‪q‬‬ ‫علیت دوطرفه‬ ‫علیت گرنجر با متغیرهای هم‏انباشته‬ ‫خودرگرسیونی برداری )‪(VAR‬‬ ‫انتخاب وقفه در الگوهای ‪VAR‬‬ ‫پیش‏بینی با الگوهای ‪VAR‬‬ ‫خودرگرسیونی برداری همراه با هم‏انباشتگی‬ ‫خالصه فصل‬ ‫پیوست ‪ :12-1‬آزمون فرضیه برای بیش از یک ضریب‬

‫‪ 356‬‬ ‫‪ 357‬‬ ‫‪ 358‬‬ ‫‪ 358‬‬ ‫‪ 359‬‬ ‫‪3 63‬‬ ‫‪3 69‬‬

‫فصل ‪13‬‬ ‫محدویت‏ها و راه‏حل‏ها‬ ‫مشکالت ناشی از وجود فرم‏های خاص برای متغیر وابسته‬ ‫‪ Y‬سانسور‌شده است‬ ‫‪Y‬عدد صحیح غیرمنفی است‬ ‫‪Y‬یک بازه زمانی را اندازه‏گیری می‏کند‬ ‫مشکالت ناشی از وجود فرم‏های خاص برای جزءخطا‬ ‫مشکالتی که غلبه بر آن‏‏ها نیازمند استفاده از مدل‏های معادالت چندگانه است‬ ‫خالصه فصل‬

‫‪3‬‬ ‫‪ 71‬‬ ‫‪3‬‬ ‫‪ 83‬‬

‫ضمیمه الف‪ :‬شیوه نوشتن یک مقاله‬ ‫ضمیمه ب‪ :‬فهرست راهنمای داده‏ها‬

‫فهرست جداول و نمودارها‬

‫‪ 37‬‬ ‫‪ 50‬‬ ‫‪ 53‬‬ ‫‪ 55‬‬ ‫‪ 60‬‬ ‫‪6 2‬‬ ‫‪6 3‬‬ ‫‪6 7‬‬ ‫‪6 7‬‬ ‫‪6 9‬‬ ‫‪7 0‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬ ‫نمودار ‪ .2-1‬نمودار سری‏زمانی نرخ ارز پوند انگلستان‪/‬دالر آمریکا‬ ‫نمودار ‪ .2-2‬هیستوگرام ‪ GDP‬واقعی سرانه سال ‪ 1992‬برای ‪ 90‬کشور‬ ‫نمودار ‪ .2-3‬نمودار ‪ XY‬تراکم جمعیت در مقابل جنگل‏زدایی‬ ‫نمودار ‪ .2-4‬هیستوگرامی كه توزیع زنگوله‏ای را نشان می‏دهد‬ ‫ت میوه‏ها در سال‏های مختلف‬ ‫جدول ‪ 2-1‬قیم ‏‬ ‫جدول ‪ 2-2‬محاسبه شاخص قیمت موز‬ ‫جدول ‪ .2-3‬مقادیر میوه خریداری‏شده (به تن)‬ ‫جدول ‪ 2-4‬محاسبه شاخص قیمت السپیرز برای میوه‏ها‬ ‫جدول ‪ 2-5‬محاسبه شاخص قیمت پاشه برای میوه‏ها‬ ‫جدول ‪ .2-6‬تغییر سال پایه برای شاخص قیمت‬

‫‪ 75‬‬ ‫‪ 89‬‬ ‫‪ 90‬‬ ‫‪ 90‬‬ ‫‪ 91‬‬ ‫‪ 92‬‬ ‫‪9 3‬‬

‫فصل ‪ :3‬همبستگی‬ ‫نمودار ‪ .3-1‬نمودار ‪ XY‬قیمت در مقابل اندازه خانه‬ ‫نمودار ‪ .3-2‬نمودار ‪ XY‬دو متغیر با همبستگی کامل (‪)1=r‬‬ ‫نمودار ‪ .3-3‬نمودار ‪ XY‬دو متغیر با همبستگی مثبت (‪)r= 0/51‬‬ ‫نمودار ‪ .3-4‬نمودار ‪ XY‬دو متغیر کامال ناهمبسته (‪)0=r‬‬ ‫نمودار ‪ .3-5‬نمودار ‪ XY‬دو متغیر با همبستگی منفی (‪)r=-0.58‬‬ ‫جدول ‪ .3-1‬ماتریس همبستگی ‪ X‬و ‪ Y‬و ‪Z‬‬

‫‪ 95‬‬ ‫‪1 02‬‬ ‫‪1 17‬‬ ‫‪1 19‬‬ ‫‪1 19‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬ ‫نمودار ‪ .4-1‬بهترین خط برازش برای سه مشاهده‬ ‫نمودار ‪ .4-2‬ارتباط توانی بین ‪ X‬و ‪Y‬‬ ‫نمودار ‪ .4-3‬متغیرهای ‪ X‬و ‪ Y‬نیاز به لگاریتم‏گیری دارند‬ ‫نمودار ‪ ln (X) .4-4‬در مقابل )‪ln (Y‬‬

‫‪1 25‬‬ ‫‪1 28‬‬ ‫‪1 28‬‬ ‫‪1 29‬‬ ‫‪1 29‬‬ ‫‪ 137‬‬ ‫‪ 145‬‬ ‫‪ 151‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬ ‫نمودار ‪ .5-1‬حجم مثال بسیار کوچک‬ ‫نمودار ‪ .5-2‬حجم مثال بزرگ‪ ،‬واریانس خطای بزرگ‬ ‫نمودار ‪ .5-3‬حجم مثال بزرگ‪ ،‬واریانس خطای کوچک‬ ‫نمودار ‪ .5-4‬مقادیر ‪ x‬مشاهدات به یک ناحیه کوچک محدود است‬ ‫جدول ‪ .5-1‬برآورد ‪ OLS‬و فواصل اطمینان‬ ‫جدول ‪ .5-2‬رگرسیون جنگل‏زدایی بر تراکم جمعیت‬ ‫جدول ‪ .5-3‬رگرسیون هزینه تولید روی تولید‬

‫‪ 157‬‬ ‫‪ 164‬‬ ‫‪ 168‬‬ ‫‪ 169‬‬ ‫‪ 176‬‬ ‫‪ 177‬‬ ‫‪ 179‬‬ ‫‪ 181‬‬ ‫‪ 181‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬ ‫جدول ‪ 6-1‬رگرسیون قیمت فروش خانه روی اندازه خانه‪ ،‬تعداد اتاق‏های خواب ‪...‬‬ ‫جدول ‪ .6-2‬رگرسیون قیمت فروش خانه بر تعداد اتاق‏های خواب‬ ‫جدول ‪ .6-3‬ماتریس همبستگی متغیرهای توضیحی مثال قیمت خانه‬ ‫جدول ‪ .6-4‬نتایج رگرسیون برای داده‏های ساخته شده ‪...‬‬ ‫جدول ‪ .6-5‬نتایج رگرسیون برای بخشی از داده‏های ساخته شده ‪...‬‬ ‫جدول ‪ .6-6‬نتایج رگرسیون متغیرهای صنعت برق ‪....‬‬ ‫جدول ‪ .6-7‬ماتریس همبستگی متغیرهای مثال صنعت برق‬ ‫جدول ‪ .6-8‬نتایج رگرسیون متغیرهای صنعت برق پس از حذف متغیر قیمت پایه ‪...‬‬

‫‪ 185‬‬ ‫‪ 188‬‬ ‫‪ 191‬‬ ‫‪ 191‬‬ ‫‪ 196‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬ ‫جدول ‪ .7-1‬رگرسیون قیمت فروش خانه بر متغیر مجازی تهویه مطبوع‬ ‫جدول ‪ .7-2‬رگرسیون قیمت خانه روی دو متغیر مجازی‬ ‫جدول ‪ .7-3‬قیمت خانه در چهار حالت‬ ‫جدول ‪ .7-4‬قیمت خانه در چهار حالت‬

‫‪ 203‬‬ ‫‪ 211‬‬ ‫‪ 213‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬ ‫جدول ‪ .8-1‬نتایج برآمده از الگوی لوجیت‬ ‫جدول ‪8-2‬‬

‫‪ 221‬‬ ‫‪ 226‬‬ ‫‪ 229‬‬ ‫‪ 234‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬ ‫جدول ‪9-1‬‬ ‫جدول ‪ .9-2‬نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث‬ ‫جدول ‪ .9-3‬نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث‬

‫‪ 239‬‬ ‫‪2 42‬‬ ‫‪2 42‬‬ ‫‪ 246‬‬ ‫‪2 48‬‬ ‫‪2 48‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬ ‫نمودار ‪ .10-1‬درآمد خانوارهای آمریکایی‬ ‫نمودار ‪ .10-2‬تغییر درآمد خانوارهای آمریکایی‬ ‫جدول ‪ .10-1‬تابع خودهمبستگی‬ ‫نمودار ‪ .10-3‬تابع خودهمبستگی تغییرات درآمد خانوارها‬ ‫نمودار ‪ .10-4‬تابع خودهمبستگی تغییرات درآمد خانوارها‬

‫)‪ AR(1‬با‪ɸ=0‬‬

‫‪2 50‬‬ ‫‪2 51‬‬ ‫‪2 51‬‬ ‫‪2 57‬‬ ‫‪ 260‬‬ ‫‪ 264‬‬

‫نمودار ‪ .10-5‬سری‏زمانی‬ ‫نمودار ‪ .10-6‬سری‏زمانی )‪ AR(1‬با‬ ‫نمودار ‪ .10-7‬سری‏زمانی )‪ AR(1‬با ‪ɸ=1‬‬ ‫نمودار ‪ .10-8‬سري‏زماني با روند قطعی‬ ‫جدول ‪ .10-2‬الگوی )‪AR(4‬با روند قطعی‬ ‫جدول ‪ .10-3‬الگوی )‪AR(1‬‬

‫‪ 273‬‬ ‫‪ 279‬‬ ‫‪2 86‬‬ ‫‪ 290‬‬ ‫‪ 296‬‬

‫فصل ‪ :11‬رگرسیون با متغیرهای سری‏زمانی‬ ‫جدول ‪ .11-1‬الگوی )‪ ARDL(2.2‬با روند قطعی‬ ‫نمودار ‪ .11-1‬قيمت پرتقال‏هاي معمولي و ارگانيك‬ ‫جدول ‪ .11-2‬الگوی )‪(1‬ا‪ AR‬برای پسماندهای رگرسیون هم انباشتگی‬ ‫جدول ‪ .11-3‬یک الگوی ‪ ECM‬ساده‬

‫‪ɸ=0/8‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬ ‫‪ 301‬‬ ‫نمودار ‪ .12-1‬لگاریتم قیمت سهام‬ ‫‪3 06‬‬ ‫جدول ‪ .12-1‬الگوی )‪ AR(1‬نوسانات متغیر مورد بررسی‬ ‫‪ 308‬‬ ‫نمودار ‪ .12-2‬درصد تغييرات قیمت سهام‬ ‫‪3 09‬‬ ‫نمودار ‪ .12-3‬نوسانات قيمت سهام‬ ‫‪3 09‬‬ ‫جدول ‪ .12-2‬الگوی )‪ ARCH(1‬بازدهی سهام‬ ‫‪ 312‬‬ ‫جدول ‪ .12-3‬الگوی )‪ ARCH(2‬بازدهی سهام‬ ‫‪ 313‬‬ ‫جدول ‪ .12-1‬الگوی )‪ GARCH(1.1‬بازدهی سهام‬ ‫‪ 316‬‬ ‫جدول ‪ 12-5‬الگوی ‪ ARDL‬که تورم قیمت متغیر وابسته است‬ ‫‪ 321‬‬ ‫جدول ‪ .12-6‬الگوی ‪ ARDL‬که تورم دستمزد متغیر وابسته است‬ ‫‪ 323‬‬ ‫جدول ‪ .12-7‬نتایج برآورد الگوی ‪ VAR‬برای ‪RMPY‬‬ ‫‪ 333‬‬ ‫جدول ‪ .12-7‬نتایج برآورد الگوی ‪ VAR‬برای ‪RMPY‬‬ ‫‪ 335‬‬ ‫جدول ‪ .12-9‬پیش‏بینی تورم و رشد ‪ GDP‬برای سال ‪ 1992‬با الگوی ‪ VAR(2) 346‬‬ ‫‪ 340‬‬ ‫جدول ‪ .12-10‬آزمون جوهانسن برای بررسی هم‏انباشتگی داده‏های ‪CAY.XLS‬‬ ‫جدول ‪ .12-11‬مقادیر بحرانی آماره ‪ F‬وقتی ‪T-k>100‬‬ ‫‪ 350‬‬ ‫جدول ‪ .12-12‬مقادیر بحرانی آماره ‪ F‬وقتی ‪T-k=40‬‬ ‫‪ 350‬‬ ‫‪ 355‬‬ ‫‪3 62‬‬ ‫‪3 68‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬ ‫نمودار ‪13-1‬‬ ‫نمودار ‪13-2‬‬

Koop, Gary. (2013), «Analysis of Economic Data», John Wiely and Sons Ltd. Forth Edition

:‫این کتاب ترجمه‏ای است از‬

‫پیش‏گفتار مرتجامن‬

‫‪13‬‬

‫پیش‏گفتار مترجمان‬

‫کتابی را که پیش رو دارید نمی‏توان یک کتاب آموزش اقتصادسنجی به شکل‬ ‫کالســیک آن دانست‪ .‬با مرور کتاب خواهید دید که روابط ریاضی استفاده‏شده‬ ‫در آن ناچیز اســت؛ در حالی‏که کتاب‏های اقتصادسنجی معموال لبریز از روابط‬ ‫و اثبات‏های ریاضی اســت‪ .‬شاید این مهم‏ترین نقطه قوت کتاب است‪ .‬تجربه‬ ‫تدریس مترجمین نشان داده است که در فرایند آموزش اقتصادسنجی‪ ،‬معموال‬ ‫انتقال مفاهیم فدای بررســی اثبات‏های ریاضی می‏شــود‪ .‬چنانچه مایل هستید‬ ‫مفاهیمــی نظیــر ‪ ،Logit، ARDL، VECM، GARCH‬را بدون نیاز به معادالت‬ ‫ریاضی یاد بگیرید‪ ،‬مطالعه این کتاب برای شما جذاب خواهد بود‪.‬‬ ‫امروزه تکنیک‏های پیشــرفته آمار و اقتصادســنجی در رشته‏های مختلفی‬ ‫نظیر ‪ ،MBA‬حســابداری و علوم سیاسی مورد استفاده قرار می‏گیرد‪ .‬بسیاری از‬ ‫پژوهشــگران در این رشته‏ها به دلیل عدم برخورداری از پیشینه ریاضی و آمار‪،‬‬ ‫قادر به فراگیری الگوهای پیچیده اقتصادســنجی نیســتند‪ .‬طرفه آن‏که به عقیده‬ ‫مترجمین‪ ،‬یکی از دالیل گســترش بازار پایان‏نامه‏نویســی در کشورمان‪ ،‬عدم‬ ‫تسلط دانشجویان تحصیالت تکمیلی در رشته‏های علوم انسانی به تکنیک‏های‬ ‫آماری است‪ .‬چنانچه پیشینه آموزشــی شما در برگیرنده ریاضیات نبوده است‬ ‫و در عین‏حال مایل هســتید تا قادر به فهم و اجرای الگوهای اقتصادسنجی در‬ ‫نرم‏افزارهای آماری باشید‪ ،‬این کتاب برای شما مناسب است‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪14‬‬

‫در این کتاب مهم‏ترین الگوهای اقتصادســنجی مدرن پوشش داده می‏شود‪.‬‬ ‫سعی کتاب بر آن اســت تا با استفاده از نمودارها و مثال‏های کاربردی فراوان‪،‬‬ ‫مفاهیم پیچیــده آماری را منتقل نماید‪ .‬نرم‏افزار پایه‏ای که مثال‏های کتاب با آن‬ ‫حل می‏شوند‪ ،‬نرم‏افزار اِکسل است‪.‬‬ ‫می‏توان ادعا کرد که نرم‏افزار اِکســل آن‏قدر فراگیر شــده اســت که اغلب‬ ‫دانشــجویان می‏توانند با آن کار کنند‪ .‬بنابراین استفاده از اِکسل برای برآوردها‪،‬‬ ‫می‏تواند دایره مخاطبین کتاب را گســترده‏تر نماید‪ .‬البته در کنار اِکسل و برای‬ ‫خوانندگان حرفه‏ای‏تر‪ ،‬حل مســائل با نرم‏افزارهایی نظیر ‪ EViews‬و ‪ Stata‬نیز‬ ‫توضیح داده شده اســت‪ .‬تمامی الگوهایی که در کتاب آموزش داده می‏شود با‬ ‫فایل اکســلی همراه است که خوانندگان می‏توانند این فایل را از ‪https://t.me/‬‬ ‫‪ ecdata‬یا کانال تلگرامی ‪ @ecdata‬دریافت نمایند‪.‬‬ ‫پنــج فصل اول کتاب به مفاهیم همبســتگی و رگرســیون اختصاص یافته‬ ‫اســت‪ .‬درک این مفاهیم بنیان درک سایر مفاهیم اقتصادسنجی است‪ .‬از این‏رو‬ ‫کتاب تاکید زیادی بر این دو مفهوم دارد‪ .‬رگرســیون چندگانه در فصل ششم و‬ ‫متغیرهای مجازی در فصل هفتم مورد بررســی قرار گرفته‏اند‪ .‬در فصل هشتم‬ ‫الگوهای انتخاب کیفی نظیر الجیت معرفی می‏شود‪ .‬فصل‏های نهم تا دوازدهم‬ ‫به الگوهای سری‏زمانی اختصاص دارد‪ .‬در این فصل‏ها با مفاهیمی نظیر ریشه‬ ‫واحد‪ ،‬هم‏انباشــتگی‪ ،‬علیت گرنجر و تصحیح خطا آشنا می‏شوید‪ .‬فصل سیزده‬ ‫به برخی محدودیت‏ها نظیر داده‏های سانسورشــده می‏پردازد‪ .‬کتاب با پیوستی‬ ‫پیرامون نحوه نوشتن یک مقاله پایان می‏یابد‪.‬‬ ‫از انیشتین نقل شده است که «اگر نتوانید چیزی را به‏سادگی توضیح بدهید‬ ‫یعنی آ ‏ن را به‏خوبی نفهمیده‏اید»‪ .‬مترجمین امیدوارند که بیان ساده کتاب به فهم‬ ‫بهتر الگوهای آماری در بین دانشجویان رشته‏های اقتصادی یاری رساند‪.‬‬ ‫آبان ‪1396‬‬

‫پیش‏گفتار چاپ چهارم‬

‫‪15‬‬

‫پیش‏گفتار چاپ چهارم‬

‫در چاپ جدید کتاب‪ ،‬کوشــش شده است تا ضمن حفظ مولفه‏های مورد‬ ‫توجه مخاطبین در چاپ‏های قبلی‪ ،‬دو موضوع مهم به کتاب افزوده شــود که‬ ‫اولی به بسته‏های نرم‏افزاری و دومی اضافه شدن یک فصل به کتاب است‪.‬‬ ‫در چاپ‏های قبلی‪ ،‬مطالب با این فرض توضیح داده می‏شد که خوانندگان کتاب‬ ‫تنها از اکسل استفاده می‏نمایند اما در چاپ چهارم‪ ،‬مخاطبینی که از بسته‏های نرم‏افزاری‬ ‫اقتصادسنجی استفاده می‏نمایند نیز مورد توجه قرار گرفته و مطالب به‏گونه‏ای مطرح‬ ‫شــده است که هم با اکسل و هم با بسته‏های نرم‏افزاری قابل استفاده باشد‪ .‬مزیت‬ ‫اکسل این است که به‏صورت عام توسط دانشجویان و به‏ویژه دانشجویان کارشناسی‬ ‫برای موضوعات مختلف مورد استفاده قرار می‏گیرد و با کارکرد آن آشنا هستند‪ .‬اما‬ ‫نرم‏افزارهایی نظیر اکسل‪ ،‬قابلیت بسیار محدودی در مدل‏های اقتصادسنجی دارند‪.‬‬ ‫شــاید بتوان از آن‌ها در رگرسیون‏های ساده بهره برد ولی کاربرد آن‌ها در الگوهای‬ ‫پیشــرفته اقتصادسنجی نظیر سری‏های زمانی بسیار دشــوار و خسته‏کننده است‪.‬‬ ‫جایگزین اکســل‪ ،‬استفاده از بسته‏های نرم‏افزاری ویژه اقتصادسنجی (نظیر ‪Stata،‬‬ ‫‪ )Eviews، PCGive، Gretl‬است‪ .‬با توجه به بازخوردی که از مدرسین دانشگاهی‬ ‫داشته‏ام‪ ،‬استفاده از این بسته‏های نرم‏افزاری به شکل فزاینده‏ای در دروس مقدماتی‬ ‫تحلیل داده‏ها مورد اســتفاده قرار می‏گیرد‪ .‬ممکن اســت دانشجویان با آن آشنایی‬ ‫اندکی داشــته باشند ولی فراگیری کار کردن با آن‌ها چندان دشوار نیست و پس از‬ ‫آن دانشجویان می‏توانند به‏سادگی طیف وسیعی از الگوهای اقتصادسنجی را استفاده‬

‫تحلیل داده‌های اقتصادی‬

‫‪16‬‬

‫نمایند‪ .‬در نسخه‏های قبلی به دو دلیل از وارد کردن مطالبی که بسته‏های نرم‏افزاری‬ ‫مرتبط بود خودداری می‏نمودم‪ .‬نخست این‌که تعداد بسته‏های نرم‏افزاری زیاد و متنوع‬ ‫اســت‪ .‬بیم آن را داشتم که اگر از یک بسته‏نرم‏افزاری مثل ‪ Stata‬استفاده می‏کردم‪،‬‬ ‫آن‌گاه کاربران نرم‏افزاری نظیر ‪ Eviews‬نســبت به مطالب کتاب بیگانه می‏شدند‪.‬‬ ‫به‌همین دلیل در چاپ جدید کتاب‪ ،‬کوشش شده است تا مطالب به‏نحوی بیان شود‬ ‫که برای کاربران عموم بســته‏های نرم‏افزاری قابل استفاده باشد‪ .‬مشکل دوم‪ ،‬هزینه‬ ‫بسته‏های نرم‏افزاری است‪ .‬عموم بسته‏های نرم‏افزاری اینچنینی بسیار گران هستند‪.‬‬ ‫به‌همین دلیل ممکن است دانشجویان نتوانند برای تمرین‏ها از کامپیوتر خانگی خود‬ ‫استفاده نمایند و همچنین برای مدرسین رشته‏های غیر اقتصادی (که احتماال دانشکده‬ ‫آن‌ها امتیاز اســتفاده از این نرم‏افزارها را نمی‏خرد) اســتفاده از این نرم‏افزار دشوار‬ ‫خواهد بود‪ .‬خوشبختانه توسعه نرم‏افزار خوب و رایگان ‪ Gretl‬که از طریق سایت‬ ‫(‪ )http://gretl.sourceforge.net‬قابل دسترسی است این نگرانی را کمرنگ ساخته‬ ‫است‪.‬اســتفاده از امکانات بسته‏های نرم‏افزاری این امکان را برایم فراهم ساخت تا‬ ‫سطح پوشش این کتاب را اضافه نمایم و فصلی را با عنوان الگوهای انتخاب کیفی‬ ‫به کتاب بیافزایم‪ .‬این الگوها به شــکل وســیعی در مطالعات تجربی مختلف‪ ،‬در‬ ‫پروژه‏های کالسی یا پایان‏نامه‏ها به‏کار گرفته می‏شود‪ .‬همواره برایم مایه شرمندگی‬ ‫بود که این موضوع مهم را در چاپ‏های قبلی نادیده گرفته بودم؛ اما در واقع استفاده‬ ‫از این الگوها با اکسل بسیار دشوار است‪ .‬با بسته‏های نرم‏افزاری‪ ،‬برآورد الگوهایی‬ ‫نظیر لوجیت یا پروبیت دیگر دشــوارتر از برآورد یک رگرســیون ساده نیست‪ .‬با‬ ‫افزودن این فصل به کتاب‪ ،‬تالش نمودم تا سطح وسیع‏تری از مسائل دانشجویان در‬ ‫به‏کارگیری الگوهای مختلف را مورد پوشش قرار دهم‪.‬‬ ‫مایلم از همه دانشجویان و مدرسینی که از این کتاب استفاده می‏کنند سپاسگزاری‬ ‫کنم‪ .‬همچنین الزم است از مورات جنس‪ ،‬پیتر تن هاکن‪ ،‬نیک ویور و خوانندگان‬ ‫ناشناسی که با نقدهای موثر خود به تصحیح کتاب در چاپ چهارم یاری رساندند‪،‬‬ ‫تشکر نمایم‪ .‬مانند همیشه می‏باید از گروهی که در انتشارات وایلی‪ ،‬به سرپرستی‬ ‫استیو هاردمن‪ ،‬به من یاری رسانده‏اند‪ ،‬قدردانی نمایم‪.‬‬

‫پیش‏گفتار چاپ سوم‬

‫‪17‬‬

‫پیش‏گفتار چاپ سوم‬

‫برایم مایه خوشحالی است که طی تمامی سال‏هایی که از چاپ دوم کتاب تحلیل‬ ‫داده‏های اقتصادی می‏گذرد‪ ،‬این کتاب همچنان موفق بوده است‪ .‬در چاپ سوم این‬ ‫کتاب تالش نموده‏ام تا این موفقیت را تداوم بخشم‪ .‬در چاپ سوم کتاب هیچ تغییر‬ ‫عمده‏ای در محتوا یا فرم کتاب ایجاد نشده است‪ .‬این کتاب همچنان قصد دارد تا‬ ‫ابزارهای اساسی که مورد اســتفاده اقتصاددانان است را بدون ورود به تئوری‏های‬ ‫پیچیده اقتصادسنجی بیان نماید‪ .‬با این وجود تعداد زیادی تغییرات کوچک در کتاب‬ ‫ایجاد نموده‏ام‪ .‬تعداد بیشــتری از مثال‏های کاربردی به کتاب افزوده شده است (که‬ ‫شامل پروژه‏های تجربی معروف است) و چند روش مهم به برخی فصل‏ها اضافه‬ ‫شــده است (برای مثال آزمون جوهانسن در هم‏انباشتگی به فصل ‪ 11‬افزوده شده‬ ‫است)‪ .‬بیشتر تغییرات اعمال شده بر مبنای این دیدگاه شکل گرفته است که هرچند‬ ‫این کتاب برای آموزش مقدماتی رشته اقتصاد تالیف گشته است‪ ،‬اما هر روزه تعداد‬ ‫بیشتری از رشــته‏ها نظیر مدیریت بازرگانی و مدیریت مالی از مطالب این کتاب‬ ‫اســتفاده می‏نمایند‪ .‬این موضوع انگیزه‏ای برای بسیاری از تغییرات و به‏ویژه اضافه‬ ‫کردن چند موضوع خاص مورد استفاده در مبحث نوسانات مالی (شامل الگوهای‬ ‫‪ ARCH‬و ‪ )GARCH‬بوده اســت‪ .‬در پیشگفتار چاپ قبلی از افراد بسیاری (شامل‬ ‫دانشــجویان‪ ،‬همکاران‪ ،‬منتقدین و گروه انتشارات وایلی) سپاسگزاری نمودم‪ .‬در‬ ‫این‌جا مایلم تا دوباره از کمک همه آن‌ها قدردانی نمایم‪.‬‬

‫پیش‏گفتار چاپ دوم‬

‫‪19‬‬

‫پیش‏گفتار چاپ دوم‬

‫هنگام نوشتار چاپ جدید کتاب‪ ،‬تالش نمودم تا نقدهای همکاران بسیاری‬ ‫که از چاپ اول کتاب اســتفاده نمودند را مورد توجه قرار دهم‪ .‬در کنار تجربه‬ ‫شخصی خودم از دیدگاه منتقدینی (برخی از آن‌ها ناشناس هستند) که انتشارات‬ ‫وایلی بــرای بهبود طرح چاپ دوم کتاب بهره بــردم‪ .‬از چاپ اول این کتاب‬ ‫برای تدریس در سه دانشــگاه مختلف (ادینبورگ‪ ،‬گالسکو و لیسزتر) و برای‬ ‫تدریس در سه مقطع مختلف استفاده نمودم‪ .‬نخست برای دانشجویان سال سوم‬ ‫(دانشجویانی که تخصصی در اقتصاد نداشــته‏اند و پیشینه مناسبی نیز در آمار‬ ‫نداشته‏اند)‪ ،‬دوم برای دانشــجویان سال دوم (دانشجویانی که آموزش‏هایی در‬ ‫زمینه اقتصاد داشــته‏اند اما مطالب اندکی در زمینه آمار آموخته‏اند) و سوم برای‬ ‫دانشجویان سال اول (دانشجویانی که با داده‏های اقتصادی برای اولین‏بار مواجه‬ ‫می‏شوند)‪ .‬بر اساس عملکرد دانشجویان و بازخورد آن‌ها‪ ،‬این کتاب می‏تواند به‬ ‫شکل موفقی در هر سه سطح مورد استفاده قرار گیرد‪ .‬همکارانم به من گفته‏اند‬ ‫که این کتاب به شکل موفقی در رشته مدیریت بازرگانی و ‪ MBA‬مورد استفاده‬ ‫قرار گرفته است‪.‬‬ ‫در چاپ دوم چیزی از چاپ اول کاسته نشده است (به‏جز برخی اصالحات‬ ‫جزئی تایپی یا ویراســتاری)‪ .‬اما مطالب و موضوعاتی به آن افزوده شده است‪.‬‬ ‫برخی از آن‌ها تا حدودی به ســاخت پیشــینه ریاضی (در حد بسیار کم) مورد‬

‫تحلیل داده‌های اقتصادی‬

‫نیاز کتاب مربوط اســت‪ .‬برخی از آن‌ها به توضیحات بیشــتر در مورد برخی‬ ‫مفاهیم کلیدی نظیر شاخص‏ها و برخی از آن‌ها به توصیف دقیق‏تر منابع داده‏ها‬ ‫اختصاص یافته اســت‪ .‬در مجموع تالش نموده‏ام تا با توضیحات اضافه‪ ،‬درک‬ ‫مفاهیم مربوط به تحلیل داده‏های اقتصادی را آسان نمایم‪ .‬از آن‌جاکه این کتاب‬ ‫به‏شــکل گسترده‏ای در رشــته‏های مدیریتی مورد استفاده قرار می‏گیرد‪ ،‬تالش‬ ‫نمودم تــا مطالبی مرتبط با آن‌ها و به‏ویژه برای دانشــجویان مدیریت مالی در‬ ‫کتاب اضافه نمایم‪.‬‬ ‫همچنان به نکات ذکر‏شــده در پیش‏گفتار چاپ اول معتقد هســتم‪ ،‬به‏ویژه‬ ‫نقش برجسته کسانی که با دیدگاه و نکات خود مرا یاری رسانده‏اند‪ .‬به فهرست‬ ‫کسانی که در آن پیش‏گفتار از آن‌ها تشکر نمودم مایلم تا اسامی جولیان داربی‪،‬‬ ‫کریستیان اسکرد گلدیش و هیالری الماژیون و همه دانشجویانم در دانشگاه‏های‬ ‫ادینبورگ‪ ،‬گالسکو و لیسزتر را اضافه نمایم‪.‬‬ ‫‪20‬‬

‫پیش‏گفتار چاپ اول‬

‫‪21‬‬

‫یش‏گفتار چاپ اول‬

‫هدف اصلی این کتاب‪ ،‬آموزش اقتصادســنجی به دانشــجویانی است که‬ ‫گرایش اصلی آن‌ها اقتصادسنجی نیست‪ .‬این دسته از دانشجویان شامل کسانی‬ ‫می‏شــوند که قصد دارند از الگوهای اقتصادسنجی برای تحلیل مسائل واقعی‪-‬‬ ‫تجربی اســتفاده نمایند‪ .‬این کتاب می‏تواند به شــکل گسترده‏ای مورد استفاده‬ ‫دانشــجویان دوره کارشناسی قرار گیرد‪ .‬آن‌ها می‏توانند این کتاب را جایگزین‬ ‫کتاب‏های اقتصادســنجی اســتاندارد نمایند و یا از آن برای دوره‏های کاربردی‬ ‫تحلیل داده‏ها استفاده نمایند‪ .‬همچنین دانشجویان دوره‏های تحصیالت تکمیلی‬ ‫اقتصاد و ‪ MBA‬که دچار خالءهایی در آموزش اقتصادسنجی هستند‪ ،‬می‏توانند‬ ‫از بیان ساده این کتاب برای کسب بینش عمیق‏تر بهره ببرند‪.‬‬ ‫این کتاب برآمده از دوره‏ای دانشــگاهی اســت که در دانشگاه ادینبورگ با‬ ‫عنوان «تحلیل داده‏های اقتصادی» تدریس نموده‏ام‪ .‬پیش از آن‌که این دوره شکل‬ ‫بگیرد‪ ،‬همه دانشجویان ناچار بودند تا درس آمار و احتماالت را در سال اول و‬ ‫دوم به‏صورت پیش‏نیاز بگذرانند‪ .‬دانشجویان با گرایش اقتصاد می‏بایست درس‬ ‫اقتصادســنجی را در سال سوم و چهارم بگذرانند‪ .‬با این وجود دانشجویانی که‬ ‫گرایش تخصصی در این زمینه نداشــتند (مانند دانشــجویان اقتصاد با گرایش‬ ‫توســعه و اقتصاد بازرگانی) نیازی به برداشتن واحد اقتصادسنجی نداشتند‪ .‬با‬ ‫وجود نیازی که در بازار کار شــکل گرفته اســت‪ ،‬این دسته از دانشجویان طی‬

‫تحلیل داده‌های اقتصادی‬

‫‪22‬‬

‫دوره کارشناسی آموزش مناســبی در این زمینه ندیده و تنها دوره‏ای مقدماتی‬ ‫در زمینــه آمار و احتماالت گذرانده‏انــد و به‌همین دلیل معموال توانایی اندکی‬ ‫در تحلیــل داده‏های واقعی اقتصاد دارنــد‪ .‬از آن‌جاکه مهارت در تحلیل داده‏ها‬ ‫یکــی از موضوعات مهم در پروژه‏های دانشــجویی‪ ،‬ورود به دوره تحصیالت‬ ‫تکمیلی و همچنین امکانات شغلی برای اقتصاددانان می‏باشد؛ نیاز به وجود یک‬ ‫دوره جدید برای این دســته از دانشجویان احساس می‏شد تا مبانی استفاده از‬ ‫ابزارهای کاربردی تحلیل داده‏های اقتصادی را فرا بگیرند‪ .‬در آن زمان دانشکده‬ ‫مالحظاتی را در این زمینه ابراز داشــت و سرفصلی را برای طرح این دوره به‬ ‫شکل زیر ارائه نمود‪:‬‬ ‫‪ -1‬این دوره می‏باید عموم الگوهای مورد استفاده در اقتصادسنجی مدرن را‬ ‫پوشش دهد (برای مثال‪ ،‬همبستگی‪ ،‬رگرسیون و اضافات الزم در اقتصادسنجی‬ ‫سری‏زمانی)‬ ‫‪ -2‬این دوره می‏باید تا حد ممکن بر پایه ریاضیات نباشــد و بیشتر به شیوه‬ ‫گفتاری و نموداری تکیه داشته باشد‪.‬‬ ‫‪ -3‬این دوره می‏باید شــامل مثال‏های باشــد که از داده‏های واقعی اقتصاد‬ ‫برگرفته باشد و دانشجویان بتوانند با رایانه‏های خود این مثال‏ها را مورد بررسی‬ ‫قرار دهند‪.‬‬ ‫‪ -4‬دوره می‏باید کوتاه باشد‪ .‬در پایان همه دانشجویان و به‏ویژه آن دسته از‬ ‫دانشجویانی که دارای گرایش اقتصاد توسعه یا اقتصاد بازرگانی هستند و به‏طور‬ ‫کلی آن دسته از دانشجویانی که فرصت کافی برای آموزش عمیق اقتصادسنجی‬ ‫را نداشته‏اند‪ ،‬می‏باید مهارت الزم در این زمینه را به‏دست آورند‪.‬‬ ‫ایــن کتاب از مبانی فوق پیروی می‏نماید‪ .‬تالش بر این اســت تا ابزارهای‬ ‫پیچیده اقتصادســنجی با بیان ساده و بدون ریاضی مورد بررسی و تمرین قرار‬ ‫گیرد‪ .‬مفاهیمی نظیر همبســتگی و رگرسیون که به هم مرتبط هستند به‏صورت‬ ‫یک‏پارچه و با اســتفاده از نمودار و با شــرح بدون ریاضی توضیح داده شــده‬ ‫است‪ .‬این مفاهیم ساده مبنای بسیاری از الگوهای پیچیده (نظیر هم‏انباشتگی و‬

‫‪23‬‬

‫یش‏گفتار چاپ اول‬

‫ریشــه واحد) هستند که در پژوهش‏های اقتصادی امروز کاربرد فراوانی دارند‪.‬‬ ‫چنانچه دانشــجویی مفاهیم همبستگی و رگرســیون را به‏درستی درک نماید‪،‬‬ ‫آن‌گاه به‏راحتی می‏تواند ابزارهای پیشرفته اقتصادسنجی و آمار را یاد بگیرد‪.‬‬ ‫طراحی کتاب به‏گونه‏ای اســت که محتوای آن به رایانه گره خورده است‪.‬‬ ‫متقاعد شده‏ام که بهترین راه برای فراگیری مهارت تحلیل داده‏ها‪ ،‬تجربه عملی‬ ‫در اســتفاده از رایانه اســت که با کالس‏های درسی توامان شده باشد‪ .‬کوشش‬ ‫نموده‏ایــم تا مجموعه متنوعی از داده‏ها را برای مســائل مختلفی که در کتاب‬ ‫مطرح می‏شــود گردآوری نماییم‪ .‬به این نحو که برای هر موضوع‪ ،‬دانشجویان‬ ‫می‏تواننــد داده‏های دنیای واقعی را برای تحلیل در رایانه اســتفاده کنند‪ .‬اعتقاد‬ ‫راسخ دارم که هر ســاعتی که دانشجویان در مقابل رایانه صرف می‏کنند‪ ،‬چند‬ ‫برابر ساعاتی که در کالس درس صرف می‏نمایند ارزش خواهد داشت‪.‬‬ ‫این کتاب با پیش‏نیازهای حداقلی ریاضیات‪ ،‬به‏گونه‏ای طراحی شده است که‬ ‫برای طیف گسترده‏ای از دانشجویان قابل استفاده باشد‪ .‬به‏جز برخی موضوعات‬ ‫خاص‪ ،‬در اغلب مطالب به ریاضیات فراتر از ســطح دبیرستان نیازی نخواهد‬ ‫بود‪ .‬برای دانشــجویانی که با موضوعاتی از این دست آشنا نیستند (برای مثال‬ ‫معادالت یک خط صاف‪ ،‬عملگرهای جمع‪ ،‬لگاریتم)‪ ،‬بخش عمده‏ای از کتاب‬ ‫به ایجاد پیشینه مناسب برای آن‌ها اختصاص یافته است‪.‬‬ ‫در این‌جا مایلم تا از دانشجویان و همکارانم در دانشگاه ادینبورگ قدردانی‬ ‫نمایم‪ .‬آن‌ها نکات و بازخوردهای ارزشمندی ابراز داشته‏اند که در شکل‏گیری‬ ‫این کتاب موثر بوده است‪ .‬داوران و منتقدین‪ ،‬نکات بسیاری را پیشنهاد نمودند‬ ‫که بســیار موثر بود‏ه اســت‪ .‬اغلب این داوران ناشــناس بوده‏اند اما در آن بین‬ ‫می‏توانــم از دنیس یونگ‪ ،‬کریگ هینیک‪ ،‬جان هوتون‪ ،‬کای لی و جین ســاپر‬ ‫نام ببرم‪ .‬همچنین از استیو هاردمن در انتشارات وایلی برای اشتیاق فراوانش و‬ ‫پیشنهادات ویراستاری‏اش در تمامی مراحل این پروژه تشکر می‏کنم‪ .‬همچنین‬ ‫نهایت قدردانی را از همســرم‪ ،‬لیز‪ ،‬برای حمایت و تشویقش در تمامی مراحل‬ ‫آماده‏سازی این کتاب ابراز می‏دارم‪.‬‬

‫فصل ‪1‬‬ ‫مقدمه‬

‫‪25‬‬

‫فصل ‪ :1‬مقدمه‬

‫گروه‏های مختلفی از اقتصاددانان حرفه‏ای در دنیا وجود دارند‪ .‬اقتصاددانان‬ ‫دانشگاهی که اغلب الگوهای تئوریک مختلفی را برای مقاصد مختلف اقتصادی‬ ‫اجرا و آزمون می‏نمایند‪ .‬اقتصاددانانی که در خدمات دولتی شاغل هستند به دنبال‬ ‫تشخیص سیاست‏های مناسب یا نامناسب دولت در اقتصاد هستند‪ .‬اقتصاددانانی‬ ‫که توسط بانک مرکزی استخدام می‏شوند اغلب متمرکز به موضوعات مرتبط به‬ ‫سیاســت‏های پولی هستند و در بخش خصوصی‪ ،‬اقتصاددانان اغلب مولفه‏های‬ ‫موثر بر سود بنگاه را مورد مطالعه قرار می‏دهند‪.‬‬ ‫برای همه این اقتصاددانــان توانایی کار با داده‏های اقتصادی مهارت مهمی‬ ‫به‌شــمار می‏آید‪ .‬برای انتخاب بین تئوری‏هــای رقیب‪ ،‬برای پیش‏بینی اثر تغییر‬ ‫سیاســت‏ها‪ ،‬یا پیش‏بینی اتفاقاتی که در آینده رخ خواهد داد‪ ،‬الزم است که بر‬ ‫واقعیت‏هایی تکیه کرد‪ .‬خوشــبختانه در دانش اقتصاد‪ ،‬ذخیره بزرگی از وقایع‬ ‫به شــکل داده وجود دارد که ما می‏توانیم بــا روش‏های مختلفی آن‏ها را مورد‬ ‫تحلیل و تحلیل قرار دهیم و بر این اســاس بسیاری از موضوعات اقتصادی را‬ ‫روشن نماییم‪.‬‬ ‫هدف اصلی این کتاب ارائه مبانی الزم برای تحلیل داده‏ها با روشــی ساده‪،‬‬ ‫بدون نیاز به ریاضی‪ ،‬با اســتفاده از نمودارها و توضیحات کالمی است‪ .‬بیشتر‬

‫تحلیل داده‌های اقتصادی‬

‫‪26‬‬

‫تمرکز بر روش‏هایی اســت که در عمل اقتصاددانان از آن اســتفاده می‏کنند و‬ ‫همچنین بر مهارت‏های رایانه‏ای دانشجویان تاکید شده است به‏نحوی که بتوانند‬ ‫از آموخته‏های این کتاب در مسیر شغلی خود بهره‏برداری نمایند‪.‬‬ ‫برای توضیح بیشتر پیرامون این‌که این کتاب چه کاری انجام می‏دهد‪ ،‬شاید‬ ‫بهتر باشــد بحث را با این موضوع شــروع کنیم که این کتاب چه کاری انجام‬ ‫نمی‏دهــد‪ .‬مطالعات مربوط بــه ابزارهای کمی در تحلیــل داده‏های اقتصادی‪،‬‬ ‫اقتصادســنجی نامیده می‏شود‪ .‬محتوای دانش اقتصادسنجی بر پایه احتماالت و‬ ‫آمار بنا شــده است و این دانش را می‏توان تا حدودی در حوزه ریاضیات قرار‬ ‫داد‪ .‬این کتاب قصد ندارد تا به شما تئوری‏های احتماالت و آمار را یاد بدهد و‬ ‫به‏طور کل مفاهیم ریاضی زیادی در کتاب وجود ندارد‪ .‬به‌همین دالیل‪ ،‬شکافی‬ ‫واضح بین این کتاب و کتاب‏های سنتی اقتصادسنجی وجود دارد‪ .‬با این وجود‬ ‫سعی می‏کند تا عموم ابزارهای کاربردی را که امروزه توسط اقتصادسنجان مورد‬ ‫استفاده قرار می‏گیرد را به دانشجویان آموزش دهد‪.‬‬ ‫کتاب‏های آموزشی که بدون پرداختن به نحوه کارکرد الگو تنها به نحوه استفاده‬ ‫از دکمه‏های رایانه می‏پردازند به‏طور عام به «کتاب‏های آشــپزی»‪ 1‬معروف شده‏اند‪.‬‬ ‫کتابی که در دست شماست‪ ،‬یک کتاب آشپزی نیست‪ .‬اما شاید برخی اقتصادسنجان‬ ‫این سوال را مطرح نمایند که‪« :‬چطور ممکن است یک کتاب به دانشجویان نحوه‬ ‫استفاده از ابزارهای اقتصادسنجی را یاد بدهد‪ ،‬بدون آن‌که از مبانی احتماالت و آمار‬ ‫استفاده نماید؟» پاسخ من این خواهد بود بسیاری از کارهایی که اقتصادسنجان انجام‬ ‫می‏دهند را می‏توان به‏صورت شهودی درک نمود‪ ،‬بدون آن‌که نیازی به تئوری‏های‬ ‫آمار و احتماالت باشــد‪ .‬در محتوای این کتاب‪ ،‬بسیاری از ابزارهای مورد استفاده‬ ‫اقتصادسنجان بر اساس مفهوم همبســتگی توضیح داده می‏شود به‏گونه‏ای که اگر‬ ‫دانشجویی مفهوم همبستگی و رگرســیون را به‏درستی درک نماید‪ ،‬آن‌گاه خواهد‬ ‫توانســت اغلب روش‏های مورد استفاده در اقتصادسنجی را درک نماید‪ .‬در اغلب‬ ‫‪1- Cookbooks‬‬

‫‪27‬‬

‫فصل ‪ :1‬مقدمه‬

‫حالت‏ها‪ ،‬بیشــتر اطالعات در یک مجموعه از داده‏ها به وســیله رگرسیون آشکار‬ ‫می‏گردد‪ .‬از سوی دیگر‪ ،‬همبستگی و رگرسیون مفاهیم ساده‏ای هستند که آن‌ها را‬ ‫می‏توان با نمودار و به‏صورت گفتاری انتقال داد‪ .‬درک این مفاهیم موجب شکل‏گیری‬ ‫زیربنایی می‏شــود که می‏توان بر اساس آن مفاهیم پیچیده‏تر برای تحلیل داده‏ها را‬ ‫آموزش داد‪ .‬این کتاب پیرامون تحلیل داده‏های اقتصادی نگاشــته شده است و‬ ‫واضح است که این کتاب ارتباطی به جمع‏آوری داده‏های اقتصادی ندارد‪ .‬به‏جز‬ ‫برخی اســتثنائات‪ ،‬در این کتاب داده‏ها به همان شکلی که هست مورد استفاده‬ ‫قرار می‏گیرد و ما توضیحی در مورد نحوه جمع‏آوری یا ســاختاربندی داده‏ها‬ ‫نخواهیم داد‪ .‬برای مثال‪ ،‬در این‌جا شرح نمی‏دهیم که حساب‏های ملی چگونه‬ ‫ســاخته می‏شود یا پرسشــنامه کارگران چگونه طراحی می‏گردد‪ .‬این کتاب به‬ ‫خوانندگانش آموزش می‏دهد که نسبت به داده‏هایی که از قبل گردآوری شده‪،‬‬ ‫درکی داشته باشند‪.‬‬ ‫به‏طور معمول در معرفی تئوری آماری‪ ،‬حالتی کلی در نظر گرفته می‏شــود‬ ‫و بعــد مباحثی مطرح می‏شــود که طی آن ارتباط تئــوری با یک مثال خاص‬ ‫توضیح داده می‏شــود‪ .‬کتاب حاضر تالش می‏نمایــد تا به‏طور کامل بر عکس‬ ‫عمل نماید به این نحو که ســعی می‏کند تا یــک مفهوم عمومی را با مثال‏های‬ ‫خاص به‏دست آورد‪ .‬حتی در برخی موارد‪ ،‬مفهوم آماری اصال به‏صورت رسمی‬ ‫تعریف نمی‏شــود‪ .‬برای مثال ‪ P-value‬و فاصله اطمینان از جمله مفاهیم مهم‬ ‫آماری هســتند که در مبحث رگرسیون (فصل ‪ )5‬مورد استفاده قرار می‏گیرند‪.‬‬ ‫در آن فصل با استفاده از نمودارها و مثال‏های مختلف کارکرد این مفاهیم را در‬ ‫عمل بیان می‌شود‪ .‬اما هیچ تعریف کالسیکی از ‪ P-value‬یا فاصله اطمینان ارائه‬ ‫نمی‏گــردد‪ ،‬چراکه برای بیان آن‌ها به مقدمــات احتماالت و تئوری‏های آماری‬ ‫نیاز خواهد بود که در عمل کاربردی از این تکنیک‏ها وجود نخواهد داشــت‪.‬‬ ‫خوانندگان مایل به یادگیری تئوری‏های آماری می‏توانند به کتاب‏های فراوانی که‬

‫تحلیل داده‌های اقتصادی‬

‫‪28‬‬

‫در دسترس قرار دارند مراجعه نمایند‪ ،‬برای مثال وناکوت و وناکوت‪)1990( 1‬‬ ‫از جملــه این کتاب‏ها اســت‪ .‬برای آن‌هایی که می‏خواهنــد نحوه به‏کارگیری‬ ‫تئوری‏های آماری در مدلسازی اقتصادسنجی را درک کنند‪ ،‬کتاب هیل‪ ،‬گرِفیتز‬ ‫و جاج‪ )1997( 2‬مناسب خواهد بود‪.‬‬ ‫این کتاب‪ ،‬انعکاس عقیده شخصی من است که استفاده از مثال‏های مناسب‪،‬‬ ‫بهتریــن روش برای آموزش تحلیل داده‏ها می‏باشــد‪ .‬از ایــن‏رو در هر فصل‬ ‫مثال‏های متعددی برای درک بهتر مفاهیم اصلی وجود خواهد داشــت‪ .‬یکی از‬ ‫ریسک‏های پیروی از چنین روشی این است که ممکن است برخی دانشجویان‬ ‫تصور نمایند برای تخصص یافتن در زمینه این کتاب باید تعداد بی‏شماری مثا ‏ل‬ ‫را برای تعداد زیادی مفهوم یاد بگیرند‪ .‬این تفکر درســت نیست‪ .‬در قلب این‬ ‫کتاب تنها تعداد معدودی مفهوم اصلی وجود دارد‪ .‬این مفاهیم مرتب در مسائل‬ ‫مختلف و با داده‏های گوناگون تکرار می‏شود‪ .‬به بیان دیگر‪ ،‬بهترین روش برای‬ ‫آموزش اقتصادسنجی مقدماتی‪ ،‬نشان دادن کارکرد مفاهیم خاص در زمینه‏های‬ ‫مختلف و تکرار این اقدام است‪.‬‬

‫سازمان‏دهی کتاب‬

‫در سازمان‏دهی کتاب‪ ،‬کوشش نمودم تا به فلسفه کلی ذکر‏شده در باال‪ ،‬پایبند باشم‪.‬‬ ‫هر فصلی یک موضوع را پوشش می‏دهد و البته بیشتر حجم یک فصل به مثال‏های‬ ‫تجربی اختصاص یافته است که بر اساس آن‌ها برخی مفاهیم مهم بازنمایی یا معرفی‬ ‫می‏شــوند‪ .‬سپس با تمرین‏هایی کوشش می‏شــود تا توضیحات بیشتری پیرامون‬ ‫آن مفاهیم داده شــود‪ .‬داده‏های مورد استفاده در مثال‏ها و تمرین‏های این کتاب را‬ ‫می‏توانید از طریق سایت پشتیبان بیابید‪ 3.‬با به‏کارگیری داده‏های واقعی امیدواریم تا‬ ‫دانشجویان تنها به تکرار مثال‏ها نپردازند بلکه توانایی الزم در تعمیم یافته‏های خود‬ ‫‪2- Hill, Griffiths and Judge‬‬

‫‪1- Wonnacott & Wonnacott‬‬

‫‪ -3‬خوانندگان مي‏توانند اين داده‏ها را از طريق وبالگ و يا كانال دريافت نمايند‪:‬‬

‫‪https://t.me/ecdata@ecdata‬‬

‫‪29‬‬

‫فصل ‪ :1‬مقدمه‬

‫به مسائل دیگر را داشته باشند‪ .‬چنانچه از دانشجویان انتظار داشته باشیم که نسبت به‬ ‫مفاهیم و تکنیک‏های ارائه‏شده در این کتاب تسلط داشته باشند‪ ،‬مواجهه با داده‏های‬ ‫دنیای واقعی یک ضرورت خواهد بود‪.‬‬ ‫مثال‏های تجربی کتاب عموما با اکســل قابل اجرا خواهند بود اما برخی از‬ ‫مثال‏های پیشــرفته با بســته نرم‏افزاری ‪ Stata‬اجرا شده است‪ .‬سایت پشتیبان‬ ‫این کتاب شــامل فایل‏های اکسل می‏باشد‪ .‬اکســل نرم‏افزاری ساده و عمومی‬ ‫اســت که هم مورد توجه دانشجویان است و هم در مشاغل حرفه‏ای بازار کار‬ ‫از آن‌ به‏صورت گســترده استفاده می‏شود‪ .‬از سوی دیگر دانشجویان می‏توانند‬ ‫داده‏های فایل اکسل را در انواع بسته‏های نرم‏افزاری اقتصادسنجی نظیر ‪Stata‬‬ ‫و ‪ Eviews‬وارد نمایند‪ .‬این بســته‏های نرم‏افزاری از قابلیت شناسایی فایل‏های‬ ‫اکسل برخوردارند‪ .‬پیوســت دوم کتاب جزئیات بیشتری را در مورد داده‏های‬ ‫کتاب در اختیار شما قرار می‏دهد‪.‬‬ ‫در ایــن کتاب‪ ،‬محتــوای ریاضیاتی در حداقل خود قــرار دارد‪ .‬در برخی‬ ‫حاالت‪ ،‬آگاهی اندکــی از موضوعات ریاضی موجب درک بســیار زیادتری‬ ‫می‏شود‪ .‬برای دانشجویان آشنا به ریاضی‪ ،‬پیوست‏هایی در پایان هر فصل قرار‬ ‫داده شــده است‪ .‬با این حال دانشجویان می‏توانند این پیوست‏ها را کال نادیده‬ ‫بگیرند و مطمئن باشــند که چیزی را در مورد درک مفاهیم پایه‏ای از دســت‬ ‫نخواهند داد‪.‬‬ ‫محتوای این کتاب به دو بخش کلی تقســیم می‏شــود‪ .‬فصل‏های ‪ 1‬تا ‪ 8‬به‬ ‫موضوعاتی نظیر نمودارها‪ ،‬همبستگی و رگرسیون می‏پردازد‪ .‬در یک دوره کوتاه‬ ‫آموزشــی می‏توان این هشت فصل را پوشش داد‪ .‬فصل ‪ 9‬تا ‪ 13‬به موضوعات‬ ‫ســری‏زمانی و تحلیل برخی از پیچیده‏ترین الگوهای اقتصادسنجی اختصاص‬ ‫یافته است که امروزه کاربرد فراوانی دارد‪ .‬اما برای درک این فصول دانشجویان‬ ‫می‏باید مفاهیم مرتبط به رگرســیون را در فصل‏های قبلی به‏درســتی یاد گرفته‬ ‫باشند‪ .‬در هر صورت‪ ،‬دانشجویان درخواهند یافت که فصول پایانی از فصل‏های‬ ‫‪ 1‬تا ‪ 8‬به مراتب دشوارتر است‪.‬‬

‫پیشینه مورد نیاز‬

‫تحلیل داده‌های اقتصادی‬

‫‪30‬‬

‫همان‏طور که پیش از این اشاره شد‪ ،‬این کتاب به پیشینه ریاضی اندکی از دوره‬ ‫دبیرستان نیاز دارد‪ .‬از جمله مواردی که به‏صورت ویژه مورد نیاز است‪:‬‬ ‫ درک یک معادله ساده‪ ،‬برای مثال‪ ،‬معادله یک خط صاف که بارها در این‬‫کتاب مورد استفاده قرار گرفته است‪.‬‬ ‫ دانش رســم نمودارهای ســاده‪ ،‬بــرای مثال‪ ،‬این کتاب پر اســت از‬‫نمودارهایــی که یک متغیر را در مقابل متغیری دیگر نمایش می‏دهد (همان‬ ‫نمودار ساده ‪.)XY‬‬ ‫ آشنایی با عملگرهای جمع‪.‬‬‫ لگاریتم و توابع نمایی‪ ،‬در برخی حالت‏های معدود‪.‬‬‫برای خوانندگانی که با موارد فوق آشنا نیستند‪ ،‬پیوست این فصل مقدماتی‬ ‫را فراهم نموده است‪ .‬غیر از این‪ ،‬موضوعات فوق در همه جا‪ ،‬و به‏طور اخص‬ ‫در کتاب‏های مقدماتی ریاضی تشریح می‏شود‪.‬‬ ‫قسمت‏های زیادی از این کتاب به رایانه اختصاص دارد‪ .‬محتوای مورد نیاز‬ ‫در متن کتاب توضیح داده شده است‪ .‬بسته‏های نرم‏افزاری متعددی وجود دارد‬ ‫که می‏توانند روش‏های مورد استفاده در این کتاب را اجرا نمایند‪.‬‬ ‫در جایی که به‏صورت مســتقیم صحبت از برنامه‏های رایانه‏ای می‏شــود‪،‬‬ ‫به‏صورت کامل به زبان اکســل پرداخته خواهد شد‪ .‬دلیل تاکید زیاد کتاب بر‬ ‫روی اکسل این اســت که عموم دانشجویان مایل هستند تا به جای آشنایی با‬ ‫بسته‏های نرم‏افزاری اقتصادســنجی نظیر ‪ Eviews، Microfit‬و ‪ Stata‬با اکسل‬ ‫به‏صورت کامل آشنا شوند‪ .‬البته من فرض می‏کنم که دانشجویان با مبانی اکسل‬ ‫(و یا بسته نرم‏افزاری مورد استفاده) آشنایی دارند‪ .‬به بیان دیگر دانشجویان باید‬ ‫با مبانی گشودن داده‏ها‪ ،‬انتقال داده‏ها و نظایر اینها آشنا باشند‪ .‬اگر دانشجویان‬ ‫با این موضوعات ناآشــنا هســتند می‏باید به مطالب برخط این نرم‏افزارها در‬ ‫اینترنت مراجعه نمایند‪.‬‬

‫پیوست ‪ :1-1‬مفاهیم ریاضی مورد استفاده در این کتاب‬

‫در این کتاب از ریاضیات اندکی اســتفاده می‏شــود‪ .‬برای اغلب دانشجویان‪،‬‬ ‫آموزش‏های قبلی در دوران دبیرستان پیشینه مناسب جهت مطالعه این کتاب را‬ ‫فراهم نموده است‪ .‬با این‏حال در ادامه مفاهیمی که کاربرد زیادی در این کتاب‬ ‫دارند را به‏صورت مختصر شرح خواهیم داد‪.‬‬

‫معادله یک خط صاف‬

‫)‪Y=f(X‬‬

‫این نوشــتار به این شکل خوانده می‏شــود که « ‪ Y‬تابعی از ‪ »X‬است و‬ ‫‪ X‬اســت‪ .‬توابع‬ ‫این ایده را نمایان می‏نماید که ارزش ‪Y‬‏ وابســته به ارزش ‏‬ ‫بسیاری برای اســتفاده وجود دارد‪ ،‬اما در این کتاب معموال از توابع خطی‬ ‫استفاده می‏شود‪.‬‬

‫‪31‬‬

‫فصل ‪ :1‬مقدمه‬

‫اقتصاددانان عموما مایل هستند تا رابطه بین دو (یا چند) متغیر را مورد بررسی‬ ‫قرار دهند‪ .‬مثال‏هایی از این متغیرها عبارت‏است از قیمت خانه‪ ،‬تولید ناخالص‬ ‫داخلی (‪ ،)GDP‬نرخ بهــره و نظایر این‏ها‪ .‬در مطالب کتاب‪ ،‬یک متغیر چیزی‬ ‫است که هم اقتصاددانان مایل به بررسی آن هستند و هم امکان گردآوری داده‬ ‫برای آن وجود دارد‪ .‬من از حروف بزرگ (برای مثال ‪ X‬و ‪ )Y‬برای نشان دادن‬ ‫متغیرها اســتفاده می‏کنم‪ .‬روش عمومی برای نشــان دادن رابطه بین دو متغیر‬ ‫استفاده از مفهوم تابع است‪.‬‬ ‫روش معمول نوشتار یک تابع از متغیر ‪ X‬به شکل )‪ f(X‬می‏باشد‪ .‬حال برای‬ ‫مثال‪ ،‬اقتصاددانی مایل اســت تا دالیلی که یک خانه ارزش بیشــتری نسبت به‬ ‫خانه دیگر دارد را بیابد‪ .‬او شــاید فکر کند که قیمت خانه وابســته به اندازه آن‬ ‫خانه است‪ .‬به بیان ریاضی‪ ،‬اقتصاددان متغیر «قیمت خانه» را با ‪Y‬‏ و متغیر «اندازه‬ ‫خانه» را با ‪ X‬مشخص می‏نماید‪ .‬بر اساس این واقعیت که ‪ Y‬وابسته به ‪ X‬است‬ ‫در نوشتن از روش زیر استفاده می‏شود‪:‬‬

‫با این وجود معموال از نوشــتار معمول )‪ f(X‬در این کتاب استفاده نخواهد‬ ‫شــد‪ .‬معادله یک خط مستقیم (یک تابع خطی) در این کتاب استفاده می‏شود‪.‬‬ ‫هر خط صافی می‏تواند به شکل معادله زیر نوشته شود‪:‬‬ ‫‪Y = α + βX‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪32‬‬

‫که در آن ‪ α‬و ‪ β‬ضرایبی هستند که خط را معین می‏کنند‪ .‬حال برای مثال‬ ‫اگر ‪ α =1‬و ‪ β =2‬باشــد‪ ،‬یک خط خاص مشخص می‏شود و اگر مثال اگر‬ ‫‪ α =4‬و ‪ β = −5‬باشد‪ ،‬خط متفاوتی مشخص خواهد شد‪ .‬احتماال برای شما‬ ‫ســاده‏تر خواهد بود تا معادله یک خط صاف را از طریق نمودار یاد بگیرید (و‬ ‫شاید ارزشمند باشد که این کار را در همین مرحله انجام دهید)‪ .‬در بیان نمودار‬ ‫‪XY‬‏ (که محور عمودی ‪ Y‬را اندازه می‏گیرد و محور افقی به اندازه ‪ X‬اختصاص‬ ‫دارد) هر خطی با عرض از مبدا و شیب آن قابل تعریف است‪ .‬در بیان معادله‬ ‫خط صاف‪ α ،‬همان عرض از مبدا و ‪ β‬شیب خط است‪ .‬عرض از مبدا‪ ،‬مقدار‬ ‫‪ Y‬را قطع‬ ‫‪ Y‬است در حالتی که ‪ X=0‬باشد (یعنی همان نقطه‏ای که خط محور ‏‬ ‫‏‬ ‫‪ Y‬تغییر خواهد‬ ‫می‏نماید)‪ .‬شــیب خط‪ ،‬معیار اندازه‏گیری این است که چقدر ‏‬ ‫کرد اگر ‪X‬‏ تغییر نماید‪ .‬به بیان مرســوم‪ ،‬شیب خط نشان‏دهنده مقدار تغییر ‪Y‬‏‬ ‫‪ X‬است‪ .‬برای دانشجویان دارای پیشینه ریاضی‪ ،‬شیب‬ ‫ناشی از یک واحد تغییر ‏‬ ‫‪dY‬‬ ‫همان مشتق مرتبه اول ) ( است‪.‬‬ ‫‪dX‬‬

‫نشانه‏گذاری عملیات جمع‬

‫در موضوعات مختلفی از کتاب‪ ،‬نشانه‏های زیر متغیر برای تشخیص مشاهدات‬ ‫گوناگون مورد استفاده قرار گرفته‏اند‪ .‬برای مثال یک اقتصاددان بازار کار‪ ،‬مایل‬ ‫اســت تا دســتمزد هر یک از کارگران صنعتی که در آن ‪ 100‬کارگر مشغول‬ ‫‪ Y‬برای نشان دادن‬ ‫هســتند را به تفکیک داشته باشد‪ .‬اگر اقتصاددان از عالمت ‏‬ ‫متغیر دستمزد اســتفاده نماید‪ ،‬آن‌گاه او مقدار ‪Y‬‏را برای کارگر اول و مقدار ‪Y‬‏‬ ‫را برای کارگر دوم و الی آخر خواهد داشت‪ .‬نوشتار فشرده برای این موضوع‬ ‫به کمک نشانه زیر متغیر این‏گونه خواهد بود که ‪ Y1‬همان دستمزد کارگر اول‬

‫اســت‪ Y2 ،‬دستمزد کارگر دوم اســت و الخ‪ .‬در برخی حاالت کافی است که‬ ‫به زبان ریاضی ســخن بگوییم و به‏طور عمومی هر فرد را شخص ‪i‬ام بدانیم‪.‬‬ ‫آن‌گاه می‏توانیم بنویسیم ‪ Yi‬برای ‪ i=1,…,100‬نشان‏دهنده مجموعه دستمزدها‬ ‫برای افراد است‪.‬‬ ‫با معرفی این شــیوه نوشتار‪ ،‬عملگرهای جمع را می‏توان شرح داد‪ .‬در بسیاری‬ ‫از حاالت‪ ،‬قصد داریم تا مشــاهدات را جمع (برای مثال برای به‏دست آوردن‬ ‫میانگین باید همه مشــاهدات را جمع نموده و بعد تقسیم بر تعداد مشاهدات‬ ‫کنید)‪ .‬عالمت یونانی ∑ برای نشان دادن عملیات جمع است‪ .‬زیرنوشت‏های‬ ‫این عالمت بیانگر مشــاهداتی است که باید در عملیات جمع از آن‌ها استفاده‬ ‫نمود‪ .‬برای مثال‪:‬‬ ‫‪Y1 + Y2 + … + Y100‬‬

‫‪100‬‬

‫=‪∑Y‬‬ ‫‪i‬‬

‫‪i =1‬‬

‫‪3‬‬

‫عملیات جمع برای دستمزد افراد اول تا سوم صورت می‏گیرد‪.‬‬

‫‪∑Y‬‬

‫‪i‬‬

‫‪i =1‬‬ ‫‪48‬‬

‫‪∑Y‬‬

‫‪i‬‬

‫و در مثال باال‪ ،‬دستمزد فرد ‪47‬ام با فرد ‪48‬ام جمع شده است‪.‬‬ ‫گاهی اوقــات‪ ،‬از آن‌جاکه موضوع در متن واضح اســت (عموما وقتی که‬ ‫قرار است همه مشــاهدات با هم جمع شوند)‪ ،‬زیرنوشت‏ها را کنار گذاشته و‬ ‫به‏صورت ساده به این شکل می‏نویسیم‪:‬‬

‫لگاریتم‬

‫‪i = 47‬‬

‫‪∑ Yi‬‬

‫بــه دالیل مختلفی (کــه در ادامه توضیح داده خواهد شــد) در برخی حاالت‪،‬‬ ‫پژوهشگر به‏صورت مستقیم با یک متغیر کار نمی‏کند بلکه از حالت تبدیل یافته‬ ‫آن استفاده می‏نماید‪ .‬بسیاری از این تبدیل‏ها را در آینده خواهید دید‪ .‬برای مثال‪،‬‬

‫‪33‬‬

‫فصل ‪ :1‬مقدمه‬

‫عملیات جمع برای مشاهدات ‪ 1‬تا ‪ 100‬انجام می‏شود‪ .‬یا در مثالی دیگر‪:‬‬

‫در مقایسه درآمد بین کشــورها از ‪ GDP‬سرانه استفاده می‏شود‪ .‬در این حالت‬ ‫متغیر ‪ GDP‬به متغیر ‪ GDP‬تقسیم بر جمعیت کشور‪ ،‬تبدیل شده است‪.‬‬ ‫‪ B‬برای‬ ‫یکی از تبدیل‏های ویژه و عمومی لگاریتم اســت‪ .‬لگاریتم بر مبنای ‏‬ ‫عدد ‪A‬‏ عبارت است از توانی که ‪ B‬را به ‪ A‬می‏رساند‪ .‬شیوه نوشتار این عبارت‬ ‫این‏گونه است‪:‬‬ ‫) ‪logB ( A‬‬

‫حال برای مثال اگر ‪ A=100‬و ‪ B=10‬باشــد آن‌گاه لگاریتم برابر با ‪ 2‬خواهد‬ ‫بود و می‏نویسیم‪:‬‬ ‫‪log10 (100 ) = 2‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪34‬‬

‫مقدار باال بر این اساس به‏دست آمده است که ‪ 102 = 100‬است‪ .‬در دانش‬ ‫اقتصاد مرسوم اســت که از لگاریتم طبیعی استفاده شود که در آن ‪ B=e‬است‪.‬‬ ‫مقدار ‪e‬‏ به‏صورت تقریبی برابر با ‪ 2/71828‬است‪ .‬در این‌جا توضیح نمی‏دهیم‬ ‫که ‏‪ e‬از کجا آمده است و چرا از این لگاریتم غیرعادی استفاده می‏شود‪ .‬لگاریتم‬ ‫طبیعی با شیوه نوشتار زیر مشخص می‏شود‪:‬‬ ‫) ‪ln ( A ) = loge ( A‬‬

‫در این کتاب الزم نیســت که مطالب پاراگراف قبلی را به‏طور عمیق بدانید‪.‬‬ ‫اما به‌خاطر داشته باشــید که لگاریتم طبیعی یک عملگر مرسوم (به دالیلی که‬ ‫بعدها ذکر می‏شود) است و آن را به‏صورت )‪ ln(A‬می‏نویسند‪ .‬در عمل می‏توانید‬ ‫مقدار آن را با یک ماشین حساب یا با رایانه به‏دست آورید‪.‬‬

‫منابع‬

‫ مقدمه‬:1 ‫فصل‬

Hill, C., Griffiths, W. and Judge, G. (1997) Undergraduate Econometrics, John Wiley and Sons, Chichester. Wonnacott, T. and Wonnacott R. (1990) Introductory Statistics for Business and Economics, Fourth edition. John Wiley and Sons, Chichester.

35

‫فصل ‪2‬‬ ‫مبانی کار با داده‏ها‬

‫انواع داده‏های اقتصادی‬

‫این بخش انواع معمول داده‏ها و واژه‏شناســی‪ 1‬مرتبط با اســتفاده هر یک را‬ ‫معرفی می‏کند‪.‬‬ ‫‪1- Terminology‬‬

‫‪37‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫در این فصل مبانی کار با داده‏های اقتصادی معرفی می‏شود‪ .‬موضوعات این‬ ‫فصل بر ‪ 4‬موضوع مهم تمرکز دارند‪:‬‬ ‫ نوع داده‏هایی که اقتصاددانان استفاده می‏نمایند؛‬‫ بحثی مختصر پیرامون منابعی که اقتصاددانان داده‏های مورد استفاده خود را از‬‫آن‏ها گردآوری می‏نمایند؛ هرچند این کتاب در مورد جمع‏آوری داده‏ها نیست اما به‬ ‫نکاتی مختصر و مفید در مورد چگونگی جستجوی داده‏ها اشاره خواهد شد‪.‬‬ ‫ انــواع نمودارهایی که اغلب اوقات بــرای ارائه اطالعات موجود در یک‬‫مجموعه داده استفاده می‏شوند؛‬ ‫ بحثی در مورد مقیاس‏های ساده عددی‪ ،‬یا همان آمار توصیفی که معموال‬‫برای تلخیص و ساده‏سازی ویژگی‏های مهم یک مجموعه داده ارائه می‏شوند‪.‬‬

‫داده‏های رسی‏زمانی‬

‫‪1‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪38‬‬

‫داده‏هــای اقتصاد کالن پدیده‏هایی مانند تولید ناخالــص داخلی واقعی (یا همان‬ ‫‪ ،)GDP‬نرخ‏هــای بهره‪ ،‬عرضه پول و نظایر این‏هــا را اندازه می‏گیرند‪ .‬این داده‏ها‬ ‫برای یک دوره زمانی مشــخص‪ ،‬مثال ساالنه‪ ،‬جمع‏آوری شده‏اند‪ .‬در سوی دیگر‪،‬‬ ‫داده‏های مالی پدیده‏هایی مانند تغییر در قیمت سهام را اندازه می‏گیرند‪ .‬در مقایسه‬ ‫داده‏های قبلی‪ ،‬این داده‏ها برای دوره‏های زمانی کوتاه‏تری جمع‏آوری می‏شوند مثال‬ ‫با تواتر زمانی روزانه یا حتی هر یک ساعت یک‏بار‪ .‬در تمام این مثال‏ها‪ ،‬داده‏ها بر‬ ‫حسب زمان مرتب شده‏اند و همگی به نام داده‏های سری‏زمانی خوانده می‏شوند‪.‬‬ ‫پدیده اصلی که می‏خواهیم آن را اندازه‏گیری کنیم (مثال ‪ GDP‬یا نرخ دستمزدها یا‬ ‫نرخ‏های بهره یا نظایر این‏ها) متغیر نامیده می‏شود‪ .‬داده‏های سری‏زمانی را می‏توان‬ ‫در تواترهای متفاوتی مشــاهده کرد و اندازه گرفت‪ .‬تواترهای معمول عبارتند از‪:‬‬ ‫ساالنه (یعنی متغیر‪ ،‬سالی یک بار مشاهده و اندازه‏گیری می‏شود)‪ ،‬فصلی (چهار با‬ ‫در سال)‪ ،‬ماهانه‪ ،‬هفتگی و روزانه‪ .‬در این کتاب‪ ،‬از نماد ‪ Yt‬برای اشاره به مشاهده‬ ‫‪ GDP( Y‬واقعی) در زمان ‏‪ t‬استفاده می‏شود‪ .‬یک مجموعه داده‬ ‫مربوط به متغیر ‏‬ ‫از دوره ‪ t = 1‬تا ‪ t = T‬را شــامل می‏شــود‪ .‬از نماد ‪T‬‏ برای اشاره به کل تعداد‬ ‫دوره‏های زمانی موجود در یک مجموعه داده استفاده می‏شود‪ .‬مثال اگر بخواهیم‬ ‫از داده‏های مربوط به ‪ GDP‬واقعی دوران پس از جنگ جهانی از سال ‪ 1946‬تا‬ ‫‪- 1998‬دوره زمانی شــامل ‪ 53‬سال‪ -‬استفاده کنیم‪ ،‬آن‌گاه ‪ t = 1‬اشاره به سال‬ ‫‪ 1946‬دارد و ‪ t = 53‬مربوط به ســال ‪ 1998‬اســت و ‪ T = 53‬نیز تعداد کل‬ ‫ســال‏ها اســت‪ .‬از این رو ‪ Y1‬معادل ‪ GDP‬واقعی در سال ‪ Y2 ،1946‬معادل‬ ‫‪ GDP‬واقعی در ســال ‪ 1947‬اســت و به‏همین ترتیب تا ‪ Y53‬که ‪ GDP‬واقعی‬ ‫در ســال ‪ 1998‬است‪ .‬داده‏های ســری‏زمانی معموال به‏ترتیب زمان وقوع ارائه‬ ‫می‏شوند‪ .‬کار کردن با داده‏های سری‏زمانی اغلب نیاز به استفاده از ابزار ویژه‏ای‬ ‫دارد که در فصل‏های ‪ 9‬تا ‪ 12‬مورد بررسی قرار خواهد گرفت‪.‬‬ ‫‪1- Time series data‬‬

‫داده‏های مقطعی‬

‫‪1‬‬

‫تفاوت بین داده‏های کیفی و کمی‬

‫داده‏های مورد استفاده توسط اقتصاددانان خرد در مورد میزان فروش‪ ،‬شامل یک‬ ‫عدد اســت که متناظر با هر بنگاه مشاهده شده است (مثال فروش شرکت اول‬ ‫برابر ‪ 20000‬پوند بود)‪ .‬این نوع داده را داده کمی می‏نامند‪.‬‬ ‫‪1- Cross-sectional data‬‬

‫‪39‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫برخالف بخش قبل‪ ،‬اقتصاددانان حوزه اقتصــاد خرد و اقتصاد بازار کار‪ ،‬اغلب با‬ ‫داده‏هایی ســر و کار دارند که به‏صورت واحدهای تک و جدا مشــخص شده‏اند‪.‬‬ ‫این واحدها ممکن اســت به افراد‪ ،‬شرکت‏ها یا کشورها اشاره داشته باشند‪ .‬مثالی‬ ‫معمول در این مورد‪ ،‬داده‏های مربوط به افراد مختلف درون یک گروه است مانند‬ ‫دستمزد تمام کارکنان فالن شرکت یا صنعت‪ .‬در مورد داده‏های مقطعی‪ ،‬بر خالف‬ ‫داده‏های ســری‏زمانی‪ ،‬ترتیب داده‏ها معموال اهمیت ندارد‪ .‬در این کتاب‪ ،‬ما از نماد‬ ‫‪ Yi‬برای اشاره به مشاهده مربوط به متغیر ‪Y‬‏ برای فرد ‏‪ i‬استفاده می‏کنیم‪ .‬مشاهده‏ها‬ ‫‪ N‬را شامل می‏شود‪ .‬به‏شکل قراردادی‪،‬‬ ‫در یک مجموعه داده مقطعی‪ ،‬از فرد ‪ i = 1‬تا ‏‬ ‫‪ N‬نشــان‏دهنده تعداد کل واحدها یا مقطع‏ها است (مثال تعداد افراد بررسی‏شده)‪.‬‬ ‫‏‬ ‫مثال یک اقتصاددان بازار کار ممکن است بخواهد ‪ N=1000‬نفر نیروی کار شاغل‬ ‫در صنعت فوالد را بررســی کند و از هر یک از افراد ســواالتی نظیر این‌که چقدر‬ ‫درآمد دارند یا آیا در اتحادیه‏ای عضو هســتند‪ ،‬بپرسد‪ .‬در این مورد‪ Y1 ،‬مساوی با‬ ‫دستمزد (یا عضویت در اتحادیه) گزارش‏شده توسط کارگر اول است‪ Y2 ،‬دستمزد‬ ‫(یا عضویت در اتحادیه) گزارش‏شده توسط کارگر دوم است و به‌همین ترتیب تا‬ ‫آخر‪ .‬به‏طور مشابه‪ ،‬یک اقتصاددان خرد ممکن است از ‪ N=100‬نماینده شرکت‏های‬ ‫تولیدی در مورد آمار و ارقام سود شرکتشان در ماه گذشته سوال کند‪ .‬در این مورد‪،‬‬ ‫‪ Y1‬نشان‏دهنده سود گزارش‏شده توسط شرکت اول‪ Y2 ،‬سود گزارش‏شده توسط‬ ‫شرکت دوم و ‪ Y100‬سود گزارش‏شده توسط شرکت صدم است‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫اقتصاددانان بازار کار‪ ،‬که از هر کارگر پرسیده بود آیا عضو یک اتحادیه کارگری‬ ‫هست یا خیر‪ ،‬پاســخ بله یا خیر دریافت می‏کند‪ .‬به این نوع داده‪ ،‬داده کیفی گفته‬ ‫می‏شود‪ .‬داده‏های کیفی در اقتصاد اغلب مربوط به انتخاب یا تصمیم‏های افراد هستند‬ ‫(مثال تصمیم در مورد خریدن یا نخریدن یک محصول‪ ،‬استفاده از حمل‏ونقل عمومی‬ ‫یا ماشین شخصی‪ ،‬عضو شدن یا عضو نشدن در یک باشگاه)‪.‬‬ ‫در بیشتر موارد‪ ،‬اقتصاددانان این پاسخ‏های کیفی را به داده‏های عددی تبدیل‬ ‫می‏کنند‪ .‬مثال اقتصاددان بازار کار ممکن اســت پاســخ بله را مساوی ‪ 1‬و نه را‬ ‫مساوی ‪ 0‬در نظر بگیرد‪ .‬با این حساب‪ Y1=1 ،‬به این معناست که اولین کارگر‬ ‫بررسی‏شده عضو یک اتحادیه کارگری است‪ Y2 = 0 ،‬یعنی کارگر دوم عضو‬ ‫هیچ اتحادیه‏ای نیســت‪ .‬زمانی‏که متغیرها فقط مقادیر ‪ 0‬یا ‪ 1‬اختیار کنند‪ ،‬آن‏ها‬ ‫را متغیرهای مجازی‪( 1‬یا دودویــی‪ )2‬می‏نامیم‪ .‬کار کردن با چنین متغیرهایی با‬ ‫جزییات در فصل ‪ 7‬و ‪ 8‬مورد بررسی قرار می‏گیرد‪.‬‬ ‫‪40‬‬

‫َپ ِنل دیتا‪ 3‬یا داده‏های پنلی‬

‫برخی مجموعه داده‏ها‪ ،‬همزمان از هر دو ویژگی ســری‏های زمانی و داده‏های‬ ‫مقطعــی برخوردارنــد‪ .‬ایــن مجموعه داده‏هــا را معموال پنل دیتــا می‏نامند‪.‬‬ ‫اقتصاددانانی که روی موضوع رشــد اقتصادی کار می‏کنــد اغلب از داده‏های‬ ‫پنل استفاده می‏کنند‪ .‬مثال ‪ GDP‬بسیاری از کشورها از سال ‪ 1950‬تا زمان حال‬ ‫موجود است‪ .‬یک مجموعه داده پنل از ‪Y=GDP‬‏ برای ‪ 12‬کشور اروپایی ممکن‬ ‫است شامل مقدار ‪ GDP‬برای هر کشور در سال ‪ N=12( 1950‬مشاهده)‪ ،‬مقدار‬ ‫‪ GDP‬برای هر کشور در سال ‪ N=12 ( 1951‬مشاهده دیگر) و به‌همین ترتیب تا‬ ‫‪1- Dummy‬‬ ‫‪2- Binary‬‬ ‫‪3- Panel data:‬‬

‫مترجمان واژه مناســبی که مفهوم پنل دیتا را به فارسی سره بیان کند نیافته‏اند‪ .‬البته برخی جایگزین‏ها‬ ‫وجــود دارند مانند داده‏های تابلویی یا داده‏های مخلوط یــا داده‏های تلفیقی که هر یک به دلیلی ‪-‬که از‬ ‫حوصله این پانویس خارج است‪ -‬مناسب به‏نظر نمی‏رسند‪ .‬بنابراین مترجمان ترجیح دادند از همان واژه‬ ‫اصلی در زبان انگلیسی‪ ،‬البته با تلفظ فارسی‪ ،‬استفاده کنند‪.‬‬

‫آخر باشد‪ .‬در طول دوره زمانی شامل ‪ T‬سال‪ ،‬تعداد ‪ T × N‬مشاهده برای متغیر‬ ‫‪ Y‬وجود خواهد داشــت‪ .‬در مقابل‪ ،‬اقتصاددانان بازار کار اغلب با مجموعه پنل‬ ‫دیتاهای بزرگی سر و کار دارند که با پرسیدن سوال‏هایی از افراد ایجاد می‏شود؛‬ ‫ســوال‏هایی مانند این‌که در طی سال‏های گذشته‪ ،‬درآمد ساالنه ایشان برای هر‬ ‫سال چقدر بوده است‪.‬‬ ‫ما از نماد ‪ Yit‬برای اشــاره به یک مشاهده از متغیر ‪ Y‬برای واحد ‪ i‬در زمان‬ ‫‪ t‬اســتفاده می‏کنیم‪ .‬در مثال رشد اقتصادی‪ Y11 ،‬نشان‏دهنده مقدار ‪ GDP‬کشور‬ ‫‪ 1‬و ســال ‪ Y12 ،1‬نشان‏دهنده ‪ GDP‬کشــور ‪ 1‬در سال ‪ 2‬و ب ‏ه همین ترتیب تا‬ ‫آخر اســت‪ .‬در مثال بازار کار‪ Y11 ،‬نشان‏دهنده دستمزد فرد اول در سال اول‪،‬‬ ‫‪ Y12‬نشان‏دهنده دستمزد فرد اول در سال دوم و ب ‏ه همین ترتیب تا آخر است‪.‬‬

‫در این کتاب‪ ،‬فرض اساســی ما این اســت که داده‏های مورد نظرمان‪ ،‬مثال ‪،Y‬‬ ‫به‏طور مستقیم در دسترس است‪ .‬به‏هر حال‪ ،‬در عمل ممکن است گاهی مجبور‬ ‫شوید داده‏های خام را از منبعی دریافت کنید‪ ،‬و سپس آن‏ها را برای استفاده در‬ ‫تحلیل تجربی خود به شکل متفاوتی تغییر دهید‪ .‬مثال ممکن است شما داده‏های‬ ‫خام سری‏زمانی دو متغیر ‪( W‬مخارج مصرفی کل) و ‪( X‬مخارج غذا) را دریافت‬ ‫کنید و متغیر جدید ‪ Y‬را بسازید که نشان‏دهنده نسبت هزینه اختصاص داده شده‬ ‫به غذا است‪ .‬در این مثال متغیر ‪ Y‬از طریق تبدیل ‪ Y = X / W‬ایجاد شده است‪.‬‬ ‫تبدیل داده‏ها‪ ،‬وابسته به نیاز اقتصاددان است و در هر مورد به مساله‏ای که وی‬ ‫با آن سر و کار دارد بســتگی دارد؛ بنابراین نمی‏توان راه‏حلی عمومی برای آن‬ ‫پیشــنهاد کرد‪ .‬برخی موارد خاص در بخش‏های بعدی بررسی شده‏اند‪ .‬در این‬ ‫بخش یک تبدیل پرکاربرد در داده‏های سری‏زمانی معرفی می‏شود‪.‬‬ ‫برای شــروع تبدیل‪ ،‬فرض کنید داده‏های ســاالنه ‪ GDP‬واقعی برای دوره‬ ‫‪( 1950-1998‬یعنی داده‏های ‪ 49‬سال) را در اختیار داریم که با ‪ Yt‬برای‪t = 1‬‬ ‫تا ‪ 49‬مشــخص شده‏اند‪ .‬این سری‏زمانی ممکن اســت در بسیاری از کارهای‬

‫‪41‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫تبدیل داده‏ها‪ :‬سطوح در مقابل نرخ‏های رشد‬

‫تجربی به‏کار رود‪ .‬سری‏های زمانی مانند این را سطح ‪ GDP‬واقعی می‏نامیم‪ .‬با‬ ‫وجود این‪ ،‬اغلب افراد عالقه‏مند به دانستن چگونگی رشد اقتصاد در طی زمان‬ ‫یا همان رشد ‪ GDP‬واقعی هستند‪ .‬یک راه آسان برای اندازه‏گیری رشد‪ ،‬محاسبه‬ ‫درصد تغییر سری ‪ GDP‬واقعی در هر سال است‪ .‬درصد تغییر ‪ GDP‬واقعی بین‬ ‫دوره ‪ t‬و ‪ t + 1‬با استفاده از فرمول زیر محاسبه می‏شود [‪:]2‬‬

‫‪( Yt +1 − Yt ) × 100‬‬ ‫‪Yt‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪42‬‬

‫‪%‬تغییر‬ ‫‪%‬‬ ‫=‬

‫همان‏طور که پیش‏تر نیز توضیح داده شد‪ ،‬گاهی مناسب است که از متغیرها‬ ‫لگاریتم طبیعی یا ‪ ln‬بگیریم‪ .‬تعریف و ویژگی‏های لگاریتم‏ها را تقریبا می‏توان در‬ ‫هر کتاب ریاضیات مقدماتی پیدا کرد‪ .‬با استفاده از ویژگی‏ها لگاریتم نیز می‏توان‬ ‫درصد تغییرات یک متغیر مثل ‪ Yt‬را حساب کرد که فرمول آن عبارت است از‬ ‫‪ 100 × ln ( Yt ) − ln ( Yt −1 ) ‬برای محاســبه رشد یک متغیر در عمل بیشتر از‬ ‫فرمول اخیر اســتفاده می‏شود‪ .‬این فرمول با مفاهیم موجود در سری‏زمانی‏های‬ ‫نامانا ارتباط دارد (فصل‏های ‪ 9‬و ‪ 10‬را ببینید)‪.‬‬ ‫درصد تغییر در ‪ GDP‬واقعی را معموال رشد ‪ GDP‬یا تغییر ‪ GDP‬می‏نامند‪.‬‬ ‫جزییات بیشــتر در مورد داده‏های ســری‏زمانی در فصل‏های ‪ 12-9‬ارائه شده‬ ‫اســت‪ .‬در این‌جا همین‏قدر کافی است که بدانیم گاهی اوقات بین سطح متغیر‬ ‫و نرخ رشــد آن تمایز قائل می‏شویم و معمول است که سطح داده‏ها را به نرخ‬ ‫رشد آن‏ها تبدیل کنیم‪.‬‬

‫اعداد شاخص‬

‫بسیاری از متغیرهایی که اقتصاددانان با آن‏ها کار می‏کنند به‏شکل اعداد شاخص‬ ‫هستند‪ .‬پیوست ‪ 1-2‬در انتهای این بخش‪ ،‬جزییات بیشتری در مورد این اعداد‬ ‫و چگونگی محاســبه آن‏ها ارائه می‏دهد‪ .‬به‏هر حال‪ ،‬اگر شــما فقط بخواهید‬ ‫از اعداد شــاخص در کار تجربی خود اســتفاده کنید‪ ،‬دانشــی عمیق در مورد‬

‫‪43‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫چگونگی محاسبه شاخص‏ها ضروری نخواهد بود‪ .‬تنها کافی است بدانید اعداد‬ ‫شاخص چگونه تفسیر می‏شــوند‪ .‬بر این مبنا‪ ،‬در ادامه فصل بحثی مختصر در‬ ‫مورد اعداد شاخص ارائه می‏شود‪.‬‬ ‫فرض کنید شما متمایل به مطالعه نرخ تورم یک کشور هستید که بر اساس‬ ‫چگونگــی تغییر قیمت‏ها طی زمان اندازه‏گیری می‏شــود‪ .‬ســوالی که به ذهن‬ ‫می‏رسد این است که چگونه می‏توان «قیمت‏ها» را در یک کشور اندازه گرفت‪.‬‬ ‫قیمت یک کاالی خاص (مثال شیر‪ ،‬پرتقال‪ ،‬برق‪ ،‬مدلی خاص از یک اتوموبیل‪،‬‬ ‫یک جفت کفش و غیره) را می‏توان به سرعت اندازه گرفت‪ ،‬اما در اغلب موارد‬ ‫موضوع عالقه نه یک کاالی خاص‪ ،‬که سطح قیمت‏ها در کل یک کشور است‪.‬‬ ‫مفهوم اخیر معموال به‏عنوان قیمت «ســبدی» از کاالها تعریف می‏شود که یک‬ ‫مصرف‏کننده نوعی ممکن است بخرد‪ .‬برای تعیین چگونگی تغییر قیمت‏ها در‬ ‫کل کشــور‪ ،‬قیمت این ســبد در فواصل زمانی منظم طی زمان مشاهده و ثبت‬ ‫شده است‪ .‬اما قیمت این سبد معموال به‏طور مستقیم توسط نهاد دولتی مسئول‬ ‫جمع‏آوری این داده‏ها گزارش نمی‏شود‪ .‬بنابراین‪ ،‬اگر قیمت یک کاالی خاص‬ ‫به شما گفته شود (مثال قیمت هر عدد پرتقال ‪ 35‬پنی است)‪ ،‬اطالعات مفیدی‬ ‫خواهید داشت اما اگر به شما گفته شود که «قیمت یک سبد کاالی مثال» برابر‬ ‫‪ 10/45‬پوند اســت‪ ،‬اطالعات زیادی به شما داده نشده است‪ .‬برای تفسیر عدد‬ ‫اخیر‪ ،‬باید بدانید دقیقا چه کاالهایی در سبد وجود داشته است و مقدار هر یک‬ ‫چقدر بوده اســت‪ .‬با وجود میلیون‏ها کاالیی که در یک اقتصاد مدرن خرید و‬ ‫فروش می‏شوند‪ ،‬اطالعات بسیار زیادی مورد نیاز است‪.‬‬ ‫در سایه چنین مسائلی است که داده‏ها اغلب به‏شکل شاخص قیمت‏ها ارائه‬ ‫می‏شوند‪ .‬شــاخص‏ها به روش‏های زیادی محاسبه می‏شوند‪ ،‬و صحبت کردن‬ ‫در مورد جزییات نحوه ساخت آن‏ها ممکن است باعث شود از موضوع اصلی‬ ‫این فصل منحرف شویم (برای جزییات بیشتر ضمیمه ‪ 1-2‬را مالحظه کنید)‪.‬‬ ‫به هر حال‪ ،‬نکات زیر ارزش آن را دارند که در ابتدا ارائه شوند‪ .‬اول این‌که‪،‬‬ ‫شاخص‏ها تقریبا همواره به‏صورت داده‏های سری‏زمانی هستند‪ .‬دوم این‌که‪ ،‬یک‬

‫تحلیل داده‌های اقتصادی‬

‫‪44‬‬

‫دوره زمانی یا سال معموال به‌عنوان سال پایه انتخاب می‏شود و سطح قیمت در‬ ‫سال پایه برابر ‪ 100‬در نظر گرفته می‏شود (در برخی شاخص‏ها به‏جای ‪ 100‬از‬ ‫‪ 1/00‬اســتفاده می‏شود)‪ .‬سوم این‌که‪ ،‬سطح قیمت‏ها در سایر سال‏ها به‏صورت‬ ‫درصد‪ ،‬و نسبت به سال پایه اندازه‏گیری می‏شوند‪.‬‬ ‫با یک مثال به توضیح این موضوع می‏پردازیم‪ .‬فرض کنید که شاخص قیمتی‬ ‫برای ‪ 4‬سال وجود دارد که به‏این شکل است‪Y3 = 109 ، Y2 = 106 ، Y1 = 100 :‬‬ ‫و‪ . Y4 = 111‬این اعداد را می‏توان به‏شکل زیر تفسیر کرد‪ .‬سال اول به‏عنوان سال‬ ‫پایه در نظر گرفته شده است و بنابراین داریم که ‪ . Y1 = 100‬آمار و ارقام چهار سال‬ ‫دیگر همه نسبت به این سال پایه هستند و بنابراین می‏توان به‏سادگی محاسبه کرد که‬ ‫قیمت‏ها نسبت به سال پایه چقدر تغییر کرده‏اند‪ .‬مثال‪ Y2 = 106 ،‬به این معناست‬ ‫که قیمت‏ها از ‪ 100‬به ‪ 106‬افزایش یافته‏اند‪ 6 :‬درصد افزایش از سال پایه‪ .‬همچنین‬ ‫می‏توان دید که قیمت‏ها از سال ‪ 1‬تا سال ‪ 3‬به میزان ‪ 9‬درصد افزایش یافته‏اند و از‬ ‫سال ‪ 1‬تا سال ‪ 4‬نیز ‪ 11‬درصد بیشتر شده‏اند‪ .‬از آن‌جاکه درصد تغییرات در قیمت‏ها‬ ‫همان تعریف تورم است‪ ،‬مرور شاخص قیمت‏ها به افراد این امکان را می‏دهد که‬ ‫به‏ســادگی بفهمند که تورم چیست‪ .‬به عبارت دیگر‪ ،‬شاخص قیمت‏ها راهی ساده‬ ‫برای بیان‪ ،‬تفسیر و فهم داده‏های قیمتی است‪.‬‬ ‫هر شاخص قیمتی ابزاری عالی برای اندازه‏گیری تغییر در قیمت‏ها طی زمان‬ ‫اســت‪ ،‬اما نباید برای توضیح سطح قیمت‏ها به‏کار رود‪ .‬مثال‪ ،‬نباید به‌عنوان یک‬ ‫نشــانگر برای «باال» یا «پایین» بودن قیمت‏ها تفسیر شود‪ .‬یک مثال ساده نشان‬ ‫می‏دهد که چرا این‏گونه است‪.‬‬ ‫در هر دو کشور آمریکا و کانادا داده‏های قیمت مصرف‏کننده جمع‏آوری می‏شود‪.‬‬ ‫فرض کنید که هر دو کشور تصمیم بگیرند که سال ‪ 1988‬را به‏عنوان سال پایه برای‬ ‫شــاخص‏های قیمتی مربوطه خود در نظر بگیرند‪ .‬این بدان معناست که شاخص‬ ‫قیمت در ســال ‪ 1988‬برای هر دو کشور مساوی ‪ 100‬است‪ .‬این به معنای یکسان‬ ‫بودن قیمت‏ها در دو کشور در سال ‪ 1988‬نیست‪ .‬انتخاب سال ‪ 1988‬به‏عنوان سال‬ ‫پایه اختیاری است؛ اگر کانادا به هر دلیلی تصمیم به تغییر سال پایه به سال ‪1987‬‬

‫‪1- Dow Jones Industrial Average‬‬

‫‪45‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫بگیرد‪ ،‬در آن صورت دیگر شاخص‏های دو کشور در سال ‪ 1988‬برابر نخواهد بود‪.‬‬ ‫شاخص‏های قیمت دو کشور نمی‏تواند برای بیان جمالتی شبیه این به‏کار رود که‪:‬‬ ‫«قیمت‏ها در کانادا نسبت به آمریکا باالتر هستند»‪ .‬اما می‏توان از آن‏ها برای محاسبه‬ ‫نرخ‏های تورم استفاده کرد‪ .‬این کاربرد به ما امکان می‏دهد تا جمالتی چنین بیان کنیم‪:‬‬ ‫«تورم (همان تغییر قیمت‏ها) در کانادا بیشتر از آمریکا است»‪.‬‬ ‫بازار دارایی (فاینانس) حوزه دیگری برای اســتفاده از شاخص‏های قیمت‬ ‫اســت زیرا اطالعات مربوط به قیمت سهام اغلب به این شکل ارائه می‏شوند‪.‬‬ ‫یعنی‪ِ ،‬‬ ‫اغلب ابزارهای معمول گزارش فعالیت بازار سهام مانند میانگین صنعتی‬ ‫داو جونز‪ ،1‬شاخص ‪ FTSE‬و ‪ S&P500‬همگی شاخص‏های قیمت هستند‪.‬‬ ‫در بحث حاضر‪ ،‬ما بر شــاخص‏های قیمت تمرکز کرده‏ایم و این در واقع تا‬ ‫حد زیادی رایج‏ترین نوع از اعداد شــاخص است‪ .‬توجه داشته باشد که سایر‬ ‫انواع شاخص‏ها (مثال شــاخص‏های مقداری) نیز وجود دارند و باید به‏شکلی‬ ‫مشــابه شاخص‏های قیمت تفســیر شــوند‪ .‬یعنی‪ ،‬از آن‏ها باید به‏عنوان مبنای‬ ‫اندازه‏گیری چگونگی تغییر پدیده‏ها نسبت به یک سال پایه معلوم‪ ،‬استفاده کرد‪.‬‬ ‫این بحث در مورد اعداد شاخص‪ ،‬محلی مناسب برای اشاره به تبدیلی دیگر‬ ‫اســت که برای مقابله با اثرات تورم استفاده می‏شود‪ .‬به‏عنوان مثال‪ ،‬شایع‏ترین‬ ‫مقیاس اندازه‏گیری تولیدات یک اقتصاد را در نظر بگیرید‪ :‬تولید ناخالص داخلی‬ ‫یــا ‪ .GDP‬تولید ناخالص داخلی را می‏تــوان با جمع زدن ارزش تمام کاالهای‬ ‫تولیدشده در اقتصاد به‏دست آورد‪ .‬ب ‏ه هر حال‪ ،‬زمانی که تورم باالست‪ ،‬در نظر‬ ‫گرفتن چگونگی تغییر ‪ GDP‬طی زمان‪ ،‬به‏تنهایی کافی نیســت و ممکن است‬ ‫گمراه‏کننده باشــد‪ .‬اگر تورم باال باشد‪ ،‬قیمت کاالها افزایش خواهد یافت و در‬ ‫نتیجه ارزش آن‏ها طی زمان بیشــتر خواهد شد‪ ،‬حتی اگر مقدار واقعی کاالهای‬ ‫تولیدشده افزایش نیافته باشد‪ .‬از آن‌جا که ‪ GDP‬ارزش تمام کاالهای تولید‏شده‬ ‫را اندازه می‏گیرد‪ ،‬مادامی که تورم باال باشــد‪ ،‬حتی اگر تولید راکد باشد‪ ،‬مقدار‬

‫تحلیل داده‌های اقتصادی‬

‫‪46‬‬

‫آن (‪ )GDP‬افزایش خواهد یافت‪ .‬این موضوع محققان را بر آن داشــته اســت‬ ‫تا در پی تصحیح تاثیرات تورم باشــند‪ .‬این تصحیح با تقســیم عدد ‪ GDP‬بر‬ ‫شاخص قیمت انجام شده اســت (در مورد ‪ ،GDP‬نامی که بر شاخص قیمت‬ ‫گذاشــته شده است‪ ،‬شاخص تعدیل‏کننده ‪ 1 GDP‬است) و ‪ GDP‬تبدیل‏شده به‬ ‫این شــیوه را ‪ GDP‬واقعی می‏نامند‪ .‬متغیر ‪ GDP‬اصلی (پیش از انجام تصحیح)‬ ‫را ‪ GDP‬اســمی می‏خوانند‪ .‬تفاوت میان متغیرهای واقعی و اسمی در بسیاری‬ ‫از موضوعات علم اقتصاد مهم اســت‪ .‬نکات اصلی که باید به‏خاطر بســپارید‬ ‫این‏ها هستند که هر متغیر واقعی همان متغیر اسمی است که بر یک متغیر قیمتی‬ ‫(معموال یک شاخص قیمت) تقسیم شده است و این‌که آثار تورم از متغیرهای‬ ‫واقعی حذف شده است و در آن‏ها وجود ندارد‪.‬‬ ‫زمانی‏که بخواهید نرخ رشــد تورم را اصالح کنیــد‪ ،‬موضوع اندکی متفاوت‬ ‫می‏شود‪ .‬در این شرایط‪ ،‬با تفریق تغییر شاخص قیمت از متغیر اسمی‪ ،‬متغیر واقعی‬ ‫به‏دست می‏آید‪ .‬بنابراین‪ ،‬مثال‪ ،‬نرخ‏های بهره واقعی عبارتند از نرخ‏های بهره اسمی‬ ‫منهای تورم (که تورم به‏صورت تغییر در شاخص قیمت‏ها تعریف می‏شود)‪.‬‬

‫گردآوری داده‏ها‬

‫تمام داده‏های مورد نیاز برای درک مفاهیم اساسی و انجام دادن مثال‏های تحلیلی‬ ‫موجود در این کتاب را می‏توان از وب‏سایت اختصاصی این کتاب دانلود کرد‪.‬‬ ‫اما ممکن است الزم باشد که در آینده اطالعات مورد نیازتان برای نگارش یک‬ ‫مقاله‪ ،‬پایان‏نامه یا یک گزارش را شــخصا گردآوری نمایید‪ .‬داده‏های اقتصادی‬ ‫منابع بســیار متنوعی دارند و همین موضوع‪ ،‬پیشنهاد کردن یک رویه کلی برای‬ ‫جمع‏آوری داده را دشوار می‏کند‪ .‬در ادامه برخی نکات اساسی که باید در مورد‬ ‫داده‏های عمومی و محل یافتن آن‏ها بدانید آورده شده است‪.‬‬ ‫اغلب داده‏های اقتصاد کالن از طریق گزارش حساب‏های ملی قابل جمع‏آوری‬ ‫‪1- GDP deflator‬‬

‫‪2- Computing Skills for Economists‬‬ ‫‪4- Resource for Economists on the Internet‬‬

‫‪1- World Wide Web‬‬ ‫ ‬ ‫‪3- Guy Judge‬‬ ‫ ‬

‫‪47‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫هستند که در شکل پرینت‏شده و این اواخر‪ ،‬به‏طور فزاینده‏ای به‏شکل دیجیتال در‬ ‫کتاب‏خانه‏های دانشــگاهی و دولتی موجود هستند‪ .‬داده‏های اقتصاد خرد معموال‬ ‫به‏وسیله نظرسنجی از خانوارها‪ ،‬شاغلین و کارفرمایان در صنایع مختلف جمع‏آوری‬ ‫شده‏اند و در اغلب موارد در منابع یکسانی موجود هستند‪.‬‬ ‫در سال‏ها اخیر بین اقتصاددانان باب شده است که اطالعات مورد نیاز خود را از‬ ‫‪1‬‬ ‫اینترنت به‏دست آورند و اکنون تعداد زیادی سایت‏های مرتبط در شبکه جهانی وب‬ ‫(‪ )WWW‬وجود دارند که می‏توان داده‏ها را از آن‏ها دانلود کرد‪ .‬باید از این موضوع‬ ‫نیز آگاه باشــید که اینترنت به‏سرعت در حال رشد و تغییر است‪ ،‬پس اطالعات و‬ ‫آدرس‏هایی که در این کتاب ارائه شده‏اند ممکن است به‏زودی از رده خارج شوند‪.‬‬ ‫بجا است که تاکید کنیم که در این بخش از کتاب تنها به آن‏چه می‏توان از اینترنت‬ ‫به‏دست آورد اشار‏ه شده است و البته که این توضیحات جامع و مانع نیست‪ .‬برای‬ ‫توضیحات بیشتر در مورد این‌که چه داده‏هایی در اینترنت وجود دارد و چگونه قابل‬ ‫‪2‬‬ ‫دسترس خواهد بود‪ ،‬شاید مراجعه به کتاب مهارت‏های محاسباتی برای اقتصاددانان‬ ‫نوشته گای جاج‪ 3‬مفید باشد‪.‬‬ ‫پیش از آن‏که شــروع به گشتن در اینترنت کنید‪ ،‬الزم است بدانید که برخی‬ ‫سایت‏ها دسترسی مجانی به کل داده‏ها را برای کاربر فراهم می‏کنند در حالی‏که‬ ‫برخی سایت‏ها پولی هستند‪ .‬بسیاری سایت‏ها داده‏های مجانی را برای استفاده‬ ‫کاربران غیرتجاری (مثال دانشگاهی) فراهم می‏کنند‪ ،‬در چنین سایت‏هایی ابتدا‬ ‫باید ثبت‏نام کنید سپس اجازه دسترسی به داده‏ها به شما داده می‏شود‪.‬‬ ‫‪4‬‬ ‫یک سایت آمریکایی مفید در این حوزه‪« ،‬منابعی در اینترنت برای اقتصاددانان»‬ ‫(‪ )http://rfe.wustl.edu/EconFAQ.html‬اســت‪ .‬در این ســایت انواع مختلفی از‬ ‫داده‏های جالب توجه در طیف گســترده‏ای از موضوعــات اقتصادی وجود دارد‬ ‫که جســتجو و کاوش در آن‏ها زمان‏بر است‪ .‬همچنین در این سایت پیوندهایی به‬ ‫سایت‏های مختلف آماری دیگر وجود دارد‪ .‬یک سایت دیگر با پیوندهای مفید‪ ،‬اداره‬

‫تحلیل داده‌های اقتصادی‬

‫‪48‬‬

‫ملی تحقیقات اقتصادی‪ )http://www.nber.org( 1‬است‪ .‬یکی از منابع داده خوب‬ ‫موجود در این سایت‪ ،‬جدول جهانی پِن‪ )PWT( 2‬است‪ ،‬که داده‏های اقتصاد کالن‬ ‫بیش از ‪ 100‬کشــور را برای سال‏های زیادی در دسترس قرار می‏دهد‪ .‬در ادامه این‬ ‫فصل به ‪ PWT‬ارجاع خواهیم داشت‪ .‬در انگلستان‪( MIMAS ،‬اطالعات و خدمات‬ ‫مرتبط منچســتر‪ )3‬مدخلی مفید برای دسترسی به بسیاری از مجموعه داده‏هاست‬ ‫(‪ .)http://www.mimas.ac.uk‬استفاده از خدمات این سایت در حال حاضر نیازمند‬ ‫طی فرایند ثبت‏نام است‪ .‬الزم به ذکر است که داده‏های موجود در اینترنت در بیشتر‬ ‫اوقات روی صفحه مانیتور لیست می‏شوند‪ .‬البته همیشه می‏توان این داده‏ها را کپی‬ ‫کرد و ســپس در نرم‏افزار اکســل تایپ کرد‪ .‬اما کپی کردن این داده‏ها در یک فایل‬ ‫(با اســتفاده از مســیر ‪ ،)File/Save as‬یا انتخاب کردن‪ 4‬داده‏ها‪ ،‬کپی کردن‏شان در‬ ‫کلیپ‏بورد‪ 5‬و سرانجام الصاق کردن‪ 6‬آن‏ها به اکسل‪ ،‬به زمان کمتری احتیاج دارد‪.‬‬ ‫برای این‌که درکی از انواع مجموعه داده‏های موجود در اینترنت داشــته باشید‬ ‫و شمایل ظاهری چنین ســایت‏هایی را ببینید‪ ،‬بر یک سایت متداول آمریکایی و‬ ‫انگلیسی تمرکز خواهیم کرد‪ .‬بسیاری از مجموعه داده‏هایی که در باال تشریح شدند‬ ‫مجانی هستند‪ .‬به‏عالوه‪ ،‬بسیاری از کتابخانه‏های دانشگاهی یا مراکز کامپیوتری آبونه‬ ‫پایگاه داده‏های مختلفی هســتند و به دانشجویان اجازه استفاده از آن‏ها را می‏دهند‪.‬‬ ‫پیشنهاد می‏کنیم که کتابخانه یا مرکز کامپیوتر دانشگاه خودتان را چک کنید تا بفهمید‬ ‫که به کدام یک از مجموعه داده‏ها دسترســی دارید‪ .‬در زمینه بازارهای مالی‪ ،‬تعداد‬ ‫زیادی پایگاه داده عالی در مورد قیمت ســهام و اطالعات حسابداری شرکت‏های‬ ‫گوناگون در ســال‏های مختلف وجود دارد‪ .‬متاسفانه‪ ،‬این نوع داده‏ها اغلب گران‬ ‫هستند و بنابراین باید ببینید که آیا دانشــگاه‏تان مشترک این پایگاه‏های داده مالی‬ ‫هست یا خیر‪ .‬دو مورد از محبوب‏ترین این پایگاه‏های داده عبارتند از ‪Datastream‬‬ ‫متعلــق بــه )‪ Thomson Financial (http://www.datastream.com/‬و پژوهش‬ ‫‪1- National Bureau of Economic Research‬‬ ‫ ‬ ‫‪2- Penn World Table‬‬ ‫‪3- Manchester Information & Associated Services‬‬ ‫‪4- Highlight‬‬ ‫ ‬ ‫‪5- Clipboard‬‬ ‫ ‬ ‫‪6- Paste‬‬

‫کار با داده‏ها‪ :‬روش منوداری‬

‫یکی از موضوعات مهم پس از در اختیار گرفتن داده‏ها‪ ،‬خالص ‏ه کردن آن‏هاست‪.‬‬ ‫به‏طور کلی هیچ فردی که نتایج کار شما را می‏خواند تمایل ندارد که با انبوهی‬ ‫از ده‏ها‪ ،‬صدها یا بیشــتر از مشاهدات در سطرها و ستون‏های زیاد مواجه شود‪.‬‬ ‫در واقع‪ ،‬کل مفهوم اقتصادســنجی را می‏توان تالش برای توســعه روش‏های‬ ‫خالصه‏کردن مجموعه داده‏ها به شکلی آموزنده دانست‪ .‬استفاده از نمودارها و‬ ‫جدول‏ها روشی مفید برای ارائه داده‏هاست‪ .‬انواع گوناگونی از نمودارها وجود‬ ‫دارند (مثل نمودار میله‏ای‪ ،‬نمودار دایره‏ای و غیره)‪ .‬روشــی مفید برای افزایش‬ ‫معلومات در مورد‪ ،‬فراگیری نحوه رســم نمودارها در نرم‏افزار اکسل است‪ .‬در‬ ‫این بخش در مورد برخی از نمودارهای پرکاربرد توضیح می‏دهیم‪.‬‬ ‫از آن‌جا که بیشتر داده‏های اقتصادی در قالب سری‏زمانی یا داده‏های مقطعی‬ ‫هستند‪ ،‬تکنیک‏های ساده‏ای برای رسم نمودار چنین داده‏هایی را معرفی می‏کنیم‪.‬‬ ‫‪3- Yale University‬‬

‫‪2- Robert Shiller‬‬

‫‪1- Wharton Research Data Service‬‬

‫‪49‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫خدمات داده وارتون‪ .)/http://wrds.wharton.upenn.edu( 1‬تعداد محدودی پایگاه‬ ‫داده مالــی رایگان در درگاه‏های محبوب اینترنتی وجــود دارد مانند یاهو! (‪http://‬‬ ‫‪ .)finance.yahoo.com‬بانک فدرال رزرو سنت لوییس هم یک پایگاه داده رایگان‬ ‫دارد که شامل انواع گوناگونی از داده‏هاست‪ ،‬از جمله برخی سری‏زمانی‏های مالی‬ ‫(‪ .)/http://research.stlouisfed.org/fred2‬برخــی از اســاتید دانشــگاهی‪،‬‬ ‫مجموعه داده‏های مورد استفاده‏شــان را در سایت شــخصی خود نمایه می‏کنند‬ ‫که برای مثال می‏توان به رابرت شــیلر‪ 2‬در دانشــگاه یل‪ 3‬اشاره کرد که در سایت‬ ‫خــود‪ ،‬پیوندهای زیادی به بســیاری از داده‏های مالی جذاب فراهم کرده اســت‬ ‫(‪ .)http://aida.econ.yale.edu/~shiller‬اطالعاتی که در باال فهرســت شد‪ ،‬تکه‬ ‫کوچکی از دریای عظیم اطالعات موجود در اینترنت است‪ .‬توصیه عمومی من این‬ ‫است که صرف اندکی وقت برای جستجو در اینترنت اغلب اوقات مثمر ثمر است‪.‬‬

‫منودار رسی‏های زمانی‬

‫تحلیل داده‌های اقتصادی‬

‫‪50‬‬

‫در شــکل ‪ 2-1‬با استفاده از بخش نمودار خطی‪ 1‬چارت ویزارد اکسل‪ ،‬نمودار‬ ‫سری‏زمانی ماهانه داده‏های نرخ ارز پوند انگلستان‪/‬دالر آمریکا برای بازه زمانی‬ ‫ژانویه ‪ 1947‬تا اکتبر ‪ 1996‬ترســیم شده اســت (این داده‏ها در فایل اکسل به‬ ‫نام ‪ EXRUK.XLS‬قرار دارند)‪ .‬چنین نمودارهایی معموال به‏عنوان نمودارهای‬ ‫سری‏زمانی شناخته می‏شوند‪.‬‬ ‫برای رسم این نمودار از ‪ 598‬مشاهده استفاده شده است که بسی بیشتر از آن‬ ‫مقداری است که بتوان به‏صورت داده‏های خام به خوانندگان عرضه کرد‪ .‬به هر‬ ‫حال‪ ،‬هر خواننده‏ای می‏تواند با نگاه کردن به این نمودار‪ ،‬به‏‏آســانی ویژگی‏های‬ ‫اصلی داده‏ها را دریابد‪ .‬مثال‪ ،‬خواننده می‏تواند تالش‏های دولت انگلستان برای‬ ‫ثابت نگاه داشــتن نرخ ارز تا انتهای سال ‪( 1971‬به‏جز کاهش دستوری‪ 2‬شدید‬ ‫در سپتامبر ‪ 1949‬و نوامبر ‪ )1967‬و کاهش‪ 3‬تدریجی ارزش پوند در اواسط دهه‬ ‫‪ 70‬میالدی ب ‏ه دلیل شناور نزولی شدن ارزش پوند را درک کند‪.‬‬ ‫نمودار ‪ .2-1‬نمودار سری‏زمانی نرخ ارز پوند انگلستان‪/‬دالر آمریکا‬

‫‪3- Depreciation‬‬

‫‪2- devaluation‬‬

‫‪1- Line chart‬‬

‫مترین ‪2-1‬‬

‫(الف) شکل ‪ 1-2‬را مجدد رسم کنید‪.‬‬

‫(ب) فایل ‪ INCOME.XLS‬شــامل داده‏های لگاریتم طبیعی درآمد شــخصی و‬ ‫مصرف آمریکا از‪ 1954Q1‬تا ‪ 1994Q2‬اســت‪ .‬یک نمودار ســری‏زمانی رسم‬

‫کنید که شامل هر دو متغیر باشد‪( .‬به یاد داشته باشید که‪ 1954Q1‬به معنی فصل‬ ‫اول (یعنی ژانویه‪ ،‬فوریه و مارس) سال ‪ 1954‬است‪).‬‬

‫(ج) داده‏های لگاریتم درآمد شــخصی را به نرخ‏های رشــد تبدیل کنید‪ .‬فراموش‬ ‫نکنیــد که درصد تغییر درآمد شــخصی بین دوره ‪ t-1‬و ‪ t‬حدودا برابر اســت با‬

‫]) ‪ 100 × [In(Yt ) − In(Yt −1‬و از داده‏های موجــود در فایل ‪ INCOME.XLS‬از‬ ‫پیش لگاریتم گرفته شده است‪ .‬نمودار سری‏زمانی که ساخته‏اید را رسم کنید‪.‬‬

‫با داده‏های سری‏زمانی‪ ،‬مالحظه نموداری که شیوه تغییر متغیر را طی زمان نشان‬ ‫دهد‪ ،‬اغلب آموزنده اســت‪ .‬اما در مورد داده‏های مقطعی‪ ،‬چنین روشی مناسب‬ ‫نیست و برای خالصه کردن داده‏ها باید از روشی دیگر استفاده کنیم‪.‬‬ ‫فایل اکســل ‪ GDPPC.XLS‬شــامل داده‏های مقطعی از متغیر ‪ GDP‬واقعی‬ ‫ســرانه در سال ‪ 1992‬برای ‪ 90‬کشور است که از ‪ PWT‬استخراج شده است و‬ ‫‪ GDP‬واقعی سرانه هر کشور با استفاده از نرخ‏های ارز قدرت خرید یکسان‪ 1‬یا‬ ‫‪ PPP‬به دالر آمریکا تبدیل شده‏اند‪ .‬این به ما اجازه می‏دهد تا کشورها را به‏طور‬ ‫مستقیم مقایسه کنیم‪.‬‬ ‫یک راه مناســب و راحت برای تلخیص این داده‏ها اســتفاده از هیستوگرام‬ ‫است‪ .‬برای ساختن یک هیســتوگرام‪ ،‬ابتدا باید فواصل طبقه‏ای‪ 2‬یا طبقه‏ها‪ 3‬را‬ ‫بســازید که کشورها را بر حسب ‪ GDP‬سرانه‏شان به گروه‏هایی تقسیم می‏کند‪.‬‬ ‫در مجموعه داده‏ها ما‪ GDP ،‬ســرانه از ‪ 408‬دالر در چــاد تا ‪ 17945‬دالر در‬ ‫‪3- Bins‬‬

‫‪2- Class intervals‬‬

‫‪1- Power Purchase Parity‬‬

‫‪51‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫هیستوگرام‬

‫تحلیل داده‌های اقتصادی‬

‫‪52‬‬

‫آمریکا تغییر می‏کند‪ .‬یک مجموعه ممکن از فواصل طبقه‏ای‪ ،‬یا به‏طور خالصه‬ ‫طبقه‏ها‪ ،‬عبارت است از ‪،6001-8000 ،4001-6000 ،2001-4000 ،0-2000‬‬ ‫‪ 14001-16000 ،12001-14000 ،10001-12000 ،8001-10000‬و ‪16001‬‬ ‫و بیشتر (تمام اعداد به دالر آمریکا هستند)‪.‬‬ ‫دقت کنید که عرض هر طبقه (به‏جز طبقه آخر‪ ،‬یعنی طبقه ‪ 16001‬دالر و بیشتر)‬ ‫‪ 2000‬دالر است‪ .‬ب ‏ه بیان دیگر‪ ،‬عرض طبقه برای هر یک از طبقات ما ‪ 2000‬است‪.‬‬ ‫برای هر طبقه می‏توانیم تعداد کشورهایی که ‪ GDP‬سرانه‏شان در آن فاصله قرار دارد‬ ‫را بشماریم‪ .‬مثال‪ ،‬در مجموعه داده ما‪ ،‬هفت کشور وجود دارند که ‪ GDP‬سرانه‏شان‬ ‫بین ‪ 4001‬دالر و ‪ 6000‬دالر است‪ .‬تعداد کشورهایی که در هر طبقه قرار می‏گیرند را‬ ‫فراوانی‪ 1‬آن طبقه می‏گویند (توجه کنید که استفاده از واژه فراوانی در این‌جا به معنی‬ ‫«تعداد مشــاهدات موجود در هر طبقه» است که گاهی اوقات با معنی این واژه در‬ ‫تحلیل سری‏زمانی متفاوت است)‪ .‬هیستوگرام یک نمودار میله‏ای است که فراوانی‏ها‬ ‫‪2‬‬ ‫را در مقابل طبقه‏ها رسم می‏کند‪.‬‬ ‫شــکل ‪ 2-2‬هیستوگرامی از ‪ GDP‬سرانه بین کشوری مجموعه داده‏های ما‬ ‫است که از طبقه‏های توضیح داده‏شده در پاراگراف قبلی استفاده می‏کند‪ .‬به یاد‬ ‫داشــته باشید که اگر نخواهید خودتان طبقه‏ها را مشخص کنید‪ ،‬اکسل این کار‬ ‫را به‏طور خودکار برای‏تان انجام می‏دهد‪ .‬نرم‏افزار اکسل همچنین جدول توزیع‬ ‫فراوانی‪ 3‬می‏سازد که در باالی هیستوگرام قرار دارد‪.‬جدول توزیع فراوانی تعداد‬ ‫کشــورهایی که به هر طبقه (یا گروه) تعلق دارند را مشــخص می‏کند‪ .‬اعداد‬ ‫موجود در ستون طبقه‪ ،‬حد باالی آن طبقه را نشان می‏دهد‪.‬‬ ‫‪1- Frequency‬‬

‫‪ -2‬ترســیم هیستوگرام در اکسل با فرمان هیســتوگرام (‪ )Tools/Data Analysis‬انجام می‏شود‪ .‬ترسیم‬ ‫هیســتوگرام با قرار دادن طبقات روی محور افقی و فراوانی (یا تعداد مشــاهدات در هر طبقه) روی محور‬ ‫عمودی انجام می‏شــود‪ .‬اغلب کتاب‏های آمار طبقات را در مقابل فراوانی تقســیم بر عرض طبقه در نظر‬ ‫می‏گیرند‪ .‬این اســتراتژی برای تصحیح ایرادی که ممکن اســت به‏دلیل تفاوت داشتن عرض طبقات در‬ ‫فواصل طبقه‏ای ایجاد شود به‏کار می‏رود‪ .‬به عبارت دیگر‪ ،‬اکسل هیستوگرام را به‏درستی محاسبه نمی‏کند‪.‬‬ ‫با یکسان در نظر گرفتن عرض طبقات (یا تقریبا یکسان) این ایراد در عمل مشکل بزرگی ایجاد نمی‏کند‪.‬‬ ‫‪3- Frequency table‬‬

‫‪53‬‬

‫نمودار ‪ .2-2‬هیستوگرام ‪ GDP‬واقعی سرانه سال ‪ 1992‬برای ‪ 90‬کشور‬

‫‪1- labeled‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫مثال می‏توانیم ببینیم که ‪ 33‬کشــور با ‪ GDP‬سرانه کمتر از ‪ 2000‬دالر؛ ‪22‬‬ ‫کشــور با ‪ GDP‬سرانه بیشتر از ‪ 2000‬دالر و کمتر از ‪ 4000‬دالر وجود دارند و‬ ‫به‌همین ترتیب‪ .‬ســطر آخر می‏گوید که در مجموعه داده‏های ما‪ ،‬چهار کشور با‬ ‫‪ GDP‬سرانه بیشتر از ‪ 16000‬دالر وجود دارند‪.‬‬ ‫همین اطالعات در نمودار هیســتوگرام هم ترســیم شده‏اند‪ .‬رسم کردن به‬ ‫خواننده اجازه می‏دهد که با یک نگاه‪ ،‬خالصه‏ای از توزیع بین کشــوری ‪GDP‬‬ ‫سرانه را دریابد‪.‬‬ ‫از هیستوگرام می‏توانیم بفهمیم که اغلب کشورها بسیار فقیر هستند اما در این‬ ‫بین توده‏ای از کشورها کامال ثروتمند هستند (یعنی ‪ 19‬کشور که ‪ GDP‬سرانه‏ای‬ ‫بیش از ‪ 12000‬دالر دارند)‪ .‬تعداد نسبتا اندکی کشور مابین این گروه‏های فقیر‬ ‫و ثروتمند وجود دارند (تعداد اندکی کشــور در طبقه‏هایی با برچسب‪،8000 1‬‬ ‫‪ 10000‬و ‪ 12000‬قرار دارند)‪.‬‬

‫اقتصاددانان رشــد‪ ،‬این نوع تجمع کشــورها در گروه‏های فقیر و ثروتمند را‬ ‫دوقله‏ای‪ 1‬می‏نامند‪ .‬به بیان دیگر‪ ،‬اگر هیستوگرام را به‏مثابه سلسله کوه‏هایی تصور‬ ‫کنیم‪ ،‬آن‏گاه می‏توانیم یک قله را در طبقه با برچسب ‪ 2000‬و قله‏ای کوچک‏تر را در‬ ‫طبقه ‪ 14000‬ببینیم‪ .‬تنها با دیدن هیستوگرام می‏توان این ویژگی داده‏ها را به‏سادگی‬ ‫درک کرد اما درک همین موضوع‪ ،‬با نگاه کردن به داده‏های خام میسر نیست‪.‬‬

‫مترین ‪2-2‬‬

‫(الف) هیستوگرام نمودار ‪ .2-2‬را خودتان مجددا رسم کنید‪.‬‬

‫(ب) هیستوگرام را با استفاده از طبقه‏های جدید‪ ،‬دوباره ترسیم کنید‪ .‬مثال در مرتبه‬ ‫اول اجازه دهید بســته نرم‏افزاری خودش مقادیر فاصله طبقه‏ها را انتخاب کند و‬

‫تحلیل داده‌های اقتصادی‬

‫نتیجه را ببینید؛ سپس خودتان مقادیر جدیدی را انتخاب کنید‪.‬‬ ‫‪54‬‬

‫منودارهای ‪XY‬‬

‫اقتصاددانان اغلب مایل به کشــف طبیعت روابط بین دو یا چند متغیر هستند‪.‬‬ ‫مثال‪« ،‬آیــا در یک صنعت خاص‪ ،‬ســطوح باالتر آمــوزش و تجربه کاری با‬ ‫دستمزد بیشتر نیروی کار ارتباط دارد؟»‪« ،‬آیا تغییر عرضه پول می‏تواند به‏عنوان‬ ‫یک شــاخص قابل اعتمــاد برای توضیح تورم بــه‏کار رود؟» و «آیا تفاوت در‬ ‫ســرمایه‏گذاری ثابت‪ ،‬تفاوت سرعت نرخ رشــد اقتصادی کشورها را توضیح‬ ‫می‏دهد؟»‪ .‬تکنیک‏هایی که پیش‏تر توضیح داده شدند‪ ،‬برای توصیف رفتار تنها یک‬ ‫متغیر مناسب اســت؛ مثال‪ ،‬ویژگی‏های ‪ GDP‬واقعی سرانه کشورهای مختلف در‬ ‫نمودار ‪ .2-2‬چنین نمودارهایی برای آزمودن روابط بین چند متغیر مناسب نیستند‪.‬‬ ‫اســتفاده از نمودارها بــرای درک نوع روابط بین دو یا چند متغیر‪ ،‬دشــوار‬ ‫اســت‪ .‬در فصل‏های آتی‪ ،‬تحلیل رگرسیون توضیح داده می‏شود که اصلی‏ترین‬ ‫ابزار اقتصاددانان کاربردی هنگام کار کردن با چند متغیر است؛ اما از روش‏های‬ ‫‪1- Twin peaks phenomenon‬‬

‫نمودار ‪ .2-3‬نمودار ‪ XY‬تراکم جمعیت در مقابل جنگل‏زدایی‬

‫‪2- Deforestation‬‬

‫‪1- Scatter diagram‬‬

‫‪55‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫نموداری هم می‏توان برای نشان دادن برخی جنبه‏های ساده رابطه بین دو متغیر‬ ‫یشود) برای این کار‬ ‫اســتفاده کرد‪ .‬نمودار ‪( XY‬که دیاگرام اسکتر‪ 1‬نیز نامیده م ‪‎‬‬ ‫مفید است‪ .‬شکل ‪ 3-2‬نمودار داده‏های جنگل‏زدایی‪( 2‬یعنی متوسط ساالنه ناحیه‬ ‫جنگلی که طی دوره زمانی ‪ 1981-90‬از بین رفت به‏صورت درصد از کل ناحیه‬ ‫جنگلی) برای ‪ 70‬کشــور گرمسیری را به همراه داده‏های تراکم جمعیت (یعنی‬ ‫تعداد افراد ساکن در هر هزار هکتار) را نشان می‏دهد‪( .‬این داده‏ها در فایل اکسل‬ ‫به نام ‪ FOREST.XLS‬موجود است‪ ).‬تصور عام این است که کشورهای با تراکم‬ ‫جمعیت بیشتر‪ ،‬نرخ جنگل‏زدایی سریع‏تری نسبت به کشورهای با تراکم جمعیتی‬ ‫کمتر دارند‪ ،‬زیرا تراکم جمعیتی باال ممکن است فشار برای قطع درختان با هدف‬ ‫تامین چوب برای سوخت یا توسعه زمین‏های کشاورزی برای تامین غذای بیشتر‬ ‫را افزایش دهد‪ .‬شــکل ‪ 3-2‬یک نمودار ‪ XY‬از این دو متغیر را نشــان می‏دهد‪.‬‬ ‫هر نقطه روی این نمودار نشــان‏دهنده یک کشور است‪ .‬محور ‪( Y‬همان محور‬ ‫عمودی) نرخ جنگل‏زدایی در آن کشور را اندازه می‏گیرد و محور ‪X‬ها (یا محور‬ ‫افقی) نشان‏دهنده تراکم جمعیت آن است‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪56‬‬

‫می‏توانستیم کنار یا باالی هر نقطه روی نمودار‪ ،‬نام کشور مربوطه را بنویسیم‬ ‫اما این کار را نکردیم‪ ،‬زیرا اضافه کردن نام ‪ 70‬کشــور باعث شلوغی نمودار و‬ ‫دشواری خواندن آن می‏شد‪ .‬اما برچسب نام یک کشور‪ ،‬یعنی نیکاراگوئه اضافه‬ ‫شــده است‪ .‬نرخ جنگل‏زدایی این کشور به‏طور متوسط ‪ 2/6‬درصد در هر سال‬ ‫(‪ )Y=2.6‬و تراکم جمعیتی آن ‪ 640‬نفر در هر هزار هکتار (‪ )X=460‬است‪.‬‬ ‫از نمودار ‪ XY‬می‏توان برای مشــاهده و مرور سریع ارتباط بین جنگل‏زدایی‬ ‫و تراکم جمعیت اســتفاده کرد‪ .‬با بررسی این نمودار می‏توان به این نتیجه رسید‬ ‫که بین جنگل‏زدایی و تراکم جمعیت رابطه وجود دارد‪ .‬مثال‪ ،‬اگر به کشــورهای‬ ‫با تراکم جمعیتی پایین توجه کنیم (کمتر از ‪ 500‬نفر در هکتار)‪ ،‬تقریبا تمام آن‏ها‬ ‫نرخ‏های جنگل‏زدایی بســیار پایینی دارند (کمتر از یک درصد در سال)‪ .‬اگر هم‬ ‫متوجه کشــورهای دارای تراکم جمعیتی باال شویم (یعنی بیش از ‪ 1500‬نفر در‬ ‫هر هزار هکتار)‪ ،‬نرخ‏های جنگل‏زدایی تقریبا تمام این کشــورها باالست (بیشتر‬ ‫از ‪ 2‬درصد در ســال)‪ .‬این موضوع به این نکتــه داللت می‏کند که احتماال باید‬ ‫رابطه‏ای مثبت بین تراکم جمعیت و جنگل‏زدایی وجود داشته باشد (یعنی مقادیر‬ ‫زیاد یک متغیر با مقادیر زیاد متغیر دیگر توام اســت؛ و مقادیر کم‪ ،‬با مقادیر کم‬ ‫متغیر دیگر همراه است)‪ .‬رابطه بین متغیرها می‏تواند منفی هم باشد‪ .‬مثال اگر در‬ ‫نمودار ‪ XY‬شکل ‪ ،3.2‬به‏جای متغیر تراکم جمعیت از متغیر شهرنشینی‪ 1‬استفاده‬ ‫می‏کردیم‪ ،‬این اتفاق می‏افتاد‪ .‬در این شــرایط‪ ،‬مقادیر باالی شهرنشینی با مقادیر‬ ‫پایین جنگل‏زدایی همراه اســت زیرا توسعه شــهرها احتماال باید باعث کاهش‬ ‫مقدار جمعیت در مناطق روســتایی که جنگل‏ها در آن واقع هســتند شود‪ .‬الزم‬ ‫است اشاره کنیم که روابط مثبت یا منفی یافت‏شده در داده‏ها‪ ،‬تنها نوعی گرایش‬ ‫کلی در داده‏هاست و الزام ایجاد نمی‏کند‪ ،‬مثال الزم نیست که برای تمام کشورها‬ ‫حتما صادق باشد‪ .‬یعنی احتماال در الگوی کلی رابطه مقادیر باالی تراکم جمعیت‬ ‫با نرخ‏های باالی جنگل‏زدایی‪ ،‬استثناهایی وجود دارد‪ .‬مثال‪ ،‬در نمودار ‪ XY‬شکل‬ ‫‪1- Urbanization‬‬

‫‪ 3.2‬می‏توانیم کشــوری را مشــاهده کنیم که دارای تراکم جمعیت باال‪ ،‬حدود‬ ‫‪ 1300‬و نرخ جنگل‏زدایی پایین ‪ 0/7‬درصد است‪ .‬به‏طور مشابه‪ ،‬تراکم جمعیت‬ ‫پایین هم می‏تواند با نرخ‏های باالی جنگل‏زدایی همراه باشــد‪ .‬این وضعیت در‬ ‫مورد کشوری با تراکم جمعیت پایین حدود ‪ 150‬و نرخ جنگل‏زدایی بسیار زیاد‬ ‫ساالنه حدود ‪ 2/5‬درصد مشاهده می‏شود! به‏عنوان یک اقتصاددان‪ ،‬ما عالقه‏مند به‬ ‫استخراج الگوهای کلی یا گرایش‏ها در داده‏ها هستیم‪ .‬ب ‏ه هر حال همواره باید در‬ ‫خاطر داشته باشیم که معموال در این الگوها‪ ،‬استثناهایی (یا در اصطالح آماری‪،‬‬ ‫مشاهدات پرت) وجود دارند‪ .‬در برخی موارد‪ ،‬فهمیدن این‌که چه کشورهایی از‬ ‫الگوی کلی پیروی نمی‏کنند‪ ،‬به اندازه یافتن خود الگو جذاب است‪.‬‬

‫در فایل ‪ FOREST.XLS‬داده‏های دو متغیر درصد افزایش گندمزار‪( 1‬ســتون با‬ ‫نام «‪ )»Crop ch‬از ســال ‪ 1980‬تا ‪ 1990‬و درصد افزایش مراتع دائمی (ستون با‬

‫نــام «‪ )»Pasture ch‬در همان بازه زمانی وجــود دارد‪ .‬نمودار ‪ XY‬این دو متغیر‬

‫را (هر دفعه یکی از دو متغیر) در مقابل جنگل‏زدایی ترســیم و تفســیر کنید‪ .‬فکر‬

‫می‏کنید رابطه‏ای مثبت بین جنگل‏زدایی و گسترش اراضی مرتعی وجود دارد؟ بین‬ ‫جنگل‏زدایی و گسترش گندمزار چطور؟‬

‫کار با داده‏ها‪ :‬آمار توصیفی‬

‫ویژگی بصری نمودارها و تاثیر سریعشــان بر خواننــده‪ ،‬برای جذاب‏تر کردن‬ ‫مقاله‏ها و گزارش‏ها مفید است‪ .‬اما در بسیاری مواقع‪ ،‬مقادیر دقیق عددی به‏کار‬ ‫می‏آیــد‪ .‬در فصل‏های بعدی روش‏های عددی معمول برای تلخیص رابطه بین‬ ‫چند متغیر‪ ،‬با جزییات توضیح داده خواهد شــد‪ .‬در این بخش اندکی در مورد‬ ‫آمار استنباطی بحث می‏کنیم که برای خالصه کردن ویژگی‏های یک متغیر به‏کار‬ ‫‪1- Cropland‬‬

‫‪57‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫مترین ‪3-2‬‬

‫تحلیل داده‌های اقتصادی‬

‫می‏رود‪ .‬به این منظور‪ ،‬مجــددا مفهوم توزیع را‪ ،‬که در بحث قبلی‏مان در مورد‬ ‫هیستوگرام‏ها وجود داشت‪ ،‬مطرح می‏کنیم‪.‬‬ ‫در مجموعه داده‏های بین‏کشوری‏مان که شامل ‪ 90‬کشور است‪ GDP ،‬سرانه‬ ‫واقعی کشــورها با هم متفاوت است و در بین آن‏ها تغییر می‏کند‪ .‬این تغییر را‬ ‫می‏توان در نمودار هیستوگرام ‪ 2-2‬دید‪ ،‬که توزیع ‪ GDP‬سرانه بین کشورها در‬ ‫آن ترسیم شده اســت‪ .‬به‏فرض می‏خواهید اطالعات موجود در هیستوگرام را‬ ‫به‏صورت عددی خالصه و ارائه کنید‪ .‬یک روش این است که از اعداد فراوانی‬ ‫در جدول نمودار ‪ 2-2‬اســتفاده کنید‪ .‬حتی اگر این کار را انجام دهید‪ ،‬باز هم‬ ‫تعداد زیادی عدد در جدول وجود دارد که تفسیر را دشوار می‏کند‪ .‬در عوض‪،‬‬ ‫روش معمول این است که دو عدد ساده به نام‏های میانگین و انحراف استاندارد‬ ‫ارائه شــود‪ .‬میانگین‪ ،‬عبارت آماری برای مفهوم متوســط است‪ .‬رابطه ریاضی‬ ‫محاسبه میانگین عبارت است از‪:‬‬ ‫‪58‬‬

‫‪Y‬‬

‫‪n‬‬

‫‪i =1 i‬‬

‫∑‬ ‫=‪Y‬‬

‫‪N‬‬

‫در ایــن فرمول‪ N ،‬حجم مثال (یعنی تعداد کشــورها) و ‪ Σ‬عملگر جمع‬ ‫اســت (یعنی مقدار ‪ GDP‬ســرانه واقعی تمام کشورها را با هم جمع می‏کند)‪.‬‬ ‫در مثال ما‪ ،‬میانگین ‪ GDP‬ســرانه واقعی‪ 5443/80 .‬دالر است‪ .‬در این کتاب‪،‬‬ ‫اگر بخواهیم به میانگین اشــاره کنیم‪ ،‬روی متغیر مورد نظر یک خط افقی قرار‬ ‫می‏دهیم (یعنی ‪ Y‬میانگین متغیر ‪ X ،Y‬میانگین متغیر ‪ X‬و ‪ ...‬است)‪.‬‬ ‫مفهوم میانگین‪ ،‬با وســط یک توزیع ارتباط دارد‪ .‬مثال اگر به هیســتوگرام‬ ‫پیشین نگاه کنیم‪ ،‬عدد ‪ 5443/80‬دالر جایی در اواسط توزیع قرار دارد‪ .‬توزیع‬ ‫‪ GDP‬واقعی سرانه بین کشورها شکلی نامعمول دارد؛ یعنی دوقله‏ای است که‬ ‫پیش‏تر توضیح داده شــد‪ .‬توزیع متغیرهــای اقتصادی معموال یک قله دارند و‬ ‫زنگوله‏ای شکل‪ 1‬هستند‪ .‬چنین نموداری در هیستوگرام ‪ 4-2‬ترسیم شده است‪.‬‬ ‫‪1- Bell-shaped‬‬

‫‪59‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫در این توزیع‏ها‪ ،‬میانگین دقیقا در وسط توزیع و زیر قله قرار دارد‪.‬‬ ‫البته که رقم میانگین یا متوســط‪ ،‬تغییرپذیری زیاد ‪ GDP‬سرانه واقعی بین‬ ‫کشــورها را نشــان نمی‏دهد‪ .‬یک مفهوم آماری مفید دیگر که به‏طور خالصه‬ ‫تغییرات این متغیر بین کشــورها را نشان می‏دهد‪ ،‬مقدار کمینه و بیشینه است‪.‬‬ ‫در مجموعه داده‏های ما‪ ،‬کمینه ‪ GDP‬ســرانه ‪ 408‬دالر (چاد) و بیشینه ‪17945‬‬ ‫دالر (آمریکا) اســت‪ .‬با نگاه به فاصله بین بیشینه و کمینه می‏توانیم بفهمیم که‬ ‫توزیع چقدر پراکنده است‪.‬‬ ‫مفهوم پراکندگی در علم اقتصاد بســیار مهم است و با مفهوم تغییرپذیری‬ ‫و نابرابــری وابســتگی نزدیکــی دارد‪ .‬مثال در مجموعه داده‏هــای ما‪GDP ،‬‬ ‫ســرانه واقعی در ســال ‪ 1992‬از ‪ 408‬دالر تا ‪ 17945‬دالر تغییر می‏کند‪ .‬اگر‬ ‫در آینده نزدیک مثال در ســال ‪ ،2012‬کشــورهای فقیرتر به‏سرعت رشد کنند‬ ‫و کشــورهای ثروتمندتر دچار رکود شــوند‪ ،‬آن‏گاه پراکندگی ‪ GDP‬ســرانه‬ ‫واقعــی به‏طور معناداری کمتر خواهد شــد‪ .‬مثال فرض کنید که در این ســال‬ ‫فقیرترین کشور‪ GDP ،‬سرانه واقعی ‪ 10000‬دالری داشته باشد و ‪ GDP‬سرانه‬ ‫واقعی ثروتمندترین کشــور در ‪ 17945‬دالر ثابت بماند‪ .‬اگر این اتفاق بیفتد‪،‬‬ ‫آن‏گاه توزیع بین‏کشــوری ‪ GDP‬سرانه واقعی به برابری نزدیک‏تر خواهد بود‬ ‫(پراکندگــی و تغییرپذیری کمتر)‪ .‬در واقع مفاهیــم پراکندگی‪ ،‬تغییرپذیری و‬ ‫نابرابری وابستگی نزدیکی با هم دارند‪.‬‬ ‫بــرای توضیح پراکندگی یک متغیر‪ ،‬بیشــینه و کمینــه آن متغیر می‏توانند‬ ‫گمراه‏کننده باشــند‪ .‬مثال چه می‏شــد اگر تمام کشــورهای فقیــر به‏جز چاد‪،‬‬ ‫بین ســال‏های ‪ 1992‬و ‪ 2012‬رشــد اقتصادی ســریعی را تجربه می‏کردند و‬ ‫اقتصاد کشورهای ثروتمندتر اصال رشــد نمی‏کرد؟ در این شرایط‪ ،‬پراکندگی‬ ‫بین‏کشــوری یا نابرابری باید کاهش یابد؛ اما چون بنا به فرض اقتصاد چاد و‬ ‫آمریکا در این فاصله اصال رشد نکرده‏اند‪ ،‬کمینه و بیشینه در همان مقادیر قبلی‬ ‫‪ 408‬دالر و ‪ 17945‬دالر باقی می‏ماند‪.‬‬

‫نمودار ‪ .2-4‬هیستوگرامی كه توزیع زنگوله‏ای را نشان می‏دهد‬

‫تحلیل داده‌های اقتصادی‬

‫‪60‬‬

‫از ایــن‏رو پراکندگــی را معموال با انحراف اســتاندارد انــدازه می‏گیرند‬ ‫(آماردان‏ها توان دوم انحراف اســتاندارد را واریانس می‏نامند)‪ .‬فرمول ریاضی‬ ‫آن عبارت است از‪:‬‬ ‫‪2‬‬

‫)‪∑ (Y − Y‬‬ ‫‪N‬‬

‫‪i‬‬

‫‪i =1‬‬

‫‪N −1‬‬

‫=‪s‬‬

‫در عمل شــاید هیچ‏وقت مجبور نشوید انحراف استاندارد را دستی حساب‬ ‫کنید‪ .‬می‏توانید آن را به‏آسانی در اکسل با استفاده از مسیر ‪Tools/Descriptive‬‬ ‫‪ statistics‬یــا با ابزار فرمول‏ها‪ 1‬محاســبه کنید‪ .‬در بعضــی از کتاب‏ها‪ ،‬فرمول‬ ‫محاسبه انحراف استاندارد اندکی متفاوت است و در مخرج به‏جای ‪ N‬از ‪N-1‬‬ ‫استفاده شده است‪.‬‬ ‫برخالف میانگین‪ ،‬درک شــهودی مفهوم انحراف اســتاندارد اندکی دشوار‬ ‫اســت‪ .‬در مجموعه داده‏های بین‏کشــوری مــا از ‪ ،GDP‬انحراف اســتاندارد‬ ‫‪ 5369/496‬دالر اســت؛ درک و حس مفهوم مطلق این عدد ســخت است اما‬ ‫می‏توان مفهوم نسبی آن را تفســیر کرد‪ .‬یعنی اگر انحراف استاندارد دو توزیع‬ ‫‪1- Functions‬‬

‫متفاوت را مقایســه کنید‪ ،‬توزیع دارای انحراف اســتاندارد کوچک‏تر همیشه‬ ‫پراکندگی کمتری هم دارد‪ .‬در مثال ما‪ ،‬اگر اقتصاد کشورهای فقیر ناگهان رشد‬ ‫کند و اقتصاد کشورهای ثروتمند دچار رکود شود‪ ،‬انحراف استاندارد به‏تدریج‬ ‫کاهش خواهد یافت‪.‬‬

‫مترین ‪2-4‬‬

‫آمــار توصیفی دو متغیر تغییر مراتع و گندمزار که در ‪ FOREST.XLS‬قرار دارند‬ ‫را محاسبه و تفسیر کنید‪.‬‬

‫خالصه‬

‫‪ -1‬داده‏های اقتصادی در اشکال مختلفی وجود دارند‪ .‬اشکال معمول عبارتند از‬ ‫سری‏های زمانی‪ ،‬داده‏های مقطعی و پنل دیتا‪.‬‬ ‫‪ -2‬داده‏های اقتصادی را می‏توان از منابع گوناگونی تهیه کرد‪ .‬امروزه اینترنت‬ ‫منبعی مفید از انواع و اقسام داده‏ها است‪.‬‬ ‫‪ -3‬تکنیک‏های ســاده نموداری مانند هیستوگرام و نمودار ‪ ،XY‬روش‏هایی‬ ‫مفید برای تلخیص اطالعات موجود در داده‏ها هستند‪.‬‬ ‫‪ -4‬برای تلخیص عددی اطالعات موجــود در داده‏ها‪ ،‬از ابزارهای زیادی‬ ‫می‏توان اســتفاده کرد‪ .‬مهم‏ترین آن‏ها‪ ،‬میانگین و انحراف اســتاندارد اســت‪.‬‬ ‫میانگین‪ ،‬مقیاس مکان‪ 1‬توزیع و انحراف استاندارد مقیاس پراکندگی آن است‪.‬‬

‫‪1- Location‬‬

‫‪61‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫در پایان فصل‪ ،‬پیوســت ‪ 2-2‬و ‪ 2-3‬شــامل مباحث پیشرفته‏تری در زمینه‬ ‫آمار توصیفی هستند‪.‬‬

‫پیوست‪ :2-1‬اعداد شاخص‬

‫برای توضیح نکات اصلی در ساختن یک شاخص قیمت‪ ،‬از داده‏های جدول ‪2-1‬‬ ‫استفاده می‏کنیم که در مورد قیمت میوه‏های مختلف در سال‏های مختلف است‪.‬‬

‫محاسبه شاخص قیمت موز‬

‫پیش از آن‏که در مورد محاسبه شاخص قیمت میوه صحبت کنیم‪ ،‬از محاسبه شاخص‬ ‫قیمت برای یک میوه خاص مثال موز‪ ،‬شروع می‏کنیم‪ .‬همان‏طور که در متن کتاب‬ ‫توضیح داده شد‪ ،‬محاسبه شاخص قیمت با انتخاب یک سال پایه آغاز می‏شود‪ .‬در‬ ‫مورد شاخص قیمت موز‪ ،‬ما سال ‪ 2000‬را به‏عنوان سال پایه انتخاب می‏کنیم (الزم‬ ‫به توضیح است که می‏توان هر سال دیگری را نیز انتخاب کرد)‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫جدول ‪ 2-1‬قیمت‏ میوه‏ها در سال‏های مختلف‬ ‫‪62‬‬

‫سال‬

‫کیوی‬

‫سیب‬

‫موز‬

‫‪1999‬‬

‫‪1/58‬‬

‫‪0/44‬‬

‫‪0/89‬‬

‫‪2000‬‬

‫‪1/66‬‬

‫‪0/43‬‬

‫‪0/91‬‬

‫‪2001‬‬

‫‪1/9‬‬

‫‪0/46‬‬

‫‪0/91‬‬

‫‪2002‬‬

‫‪2/1‬‬

‫‪0/5‬‬

‫‪0/94‬‬

‫‪2003‬‬

‫‪2/25‬‬

‫‪0/51‬‬

‫‪0/95‬‬

‫مطابق تعریف‪ ،‬شاخص قیمت موز در ســال پایه برابر ‪ 100‬است‪ .‬چگونه‬ ‫می‏توانیم قیمت موز در سال ‪ 2000‬را به‏نحوی تبدیل کنیم که به عدد ‪ 100‬برای‬ ‫شاخص قیمت در این سال برسیم؟ این تبدیل را می‏توان با تقسیم قیمت موز در‬ ‫سال ‪ 2000‬بر خودش (یعنی قیمت موز در سال ‪ )2000‬و ضرب کردن در ‪100‬‬ ‫انجام داد‪ .‬برای این‌که قابلیت مقایســه قیمت‏ها حفظ شــود‪ ،‬باید این تبدیل را‬ ‫برای قیمت موز در تمام سال‏ها انجام داد‪ .‬نتیجه عبارت است از شاخص قیمت‬ ‫موز (با سال پایه ‪ .)2000‬این تبدیل در جدول ‪ 2-2‬توضیح داده شده است‪.‬‬

‫جدول ‪ 2-2‬محاسبه شاخص قیمت موز‬ ‫سال‬

‫قیمت موز‬

‫تبدیل‬

‫شاخص قیمت‬

‫‪1999‬‬

‫‪0/89‬‬

‫‪X100÷0/91‬‬

‫‪97/8‬‬

‫‪2000‬‬

‫‪0/91‬‬

‫‪X100÷0/91‬‬

‫‪100‬‬

‫‪2001‬‬

‫‪0/91‬‬

‫‪X100÷0/91‬‬

‫‪100‬‬

‫‪2002‬‬

‫‪0/94‬‬

‫‪X100÷0/91‬‬

‫‪103/3‬‬

‫‪2003‬‬

‫‪0/95‬‬

‫‪X100÷0/91‬‬

‫‪104/4‬‬

‫با مالحظه شــاخص قیمت موز معلوم می‏شــود که بین سال‏های ‪ 2000‬و‬ ‫‪ 2003‬قیمت موز ‪ %4/4‬افزایش یافته اســت و در سال ‪ 1999‬قیمت موز معادل‬ ‫‪ 97/8‬درصد قیمت آن در سال ‪ 2000‬بوده است‪.‬‬

‫هنگام محاسبه شاخص قیمت موز (محاسبه برای یک کاال)‪ ،‬تنها موضوعی که‬ ‫باید مالحظه کرد‪ ،‬قیمت موز اســت‪ .‬اما چنانچه بخواهیم شاخص قیمت میوه‬ ‫را محاســبه کنیم (شامل چندین کاال)‪ ،‬باید قیمت تمام میوه‏ها را به‏نحوی با هم‬ ‫ترکیب کنیم‪ .‬یک روش ســاده برای این کار این اســت که میانگین قیمت‏های‬ ‫تمام میوه‏ها در هر سال را حساب کنیم (و سپس شاخص قیمت میوه را با همان‬ ‫روش شاخص قیمت موز بســازیم)‪ .‬اما این روش معموال مناسب نیست زیرا‬ ‫به‏ســادگی به تمام کاالها وزن برابر یا یک نسبت می‏دهد (یعنی مانند میانگین‬ ‫ساده‪ ،‬قیمت سه میوه را با هم جمع می‏کند و بر سه تقسیم می‏کند)‪ .‬در مثال ما‬ ‫(و تقریبا تمام کاربردهای محتمل در جهان واقعی)‪ ،‬نسبت دادن وزن مساوی به‬ ‫تمام کاالها غیرقابل قبول است‪( .‬یک استثنا برای این قاعده‪ ،‬متوسط صنعتی داو‬ ‫جونز است که به قیمت سهام تمام شرکت‏هایی که در محاسبه شاخص حضور‬ ‫دارند‪ ،‬وزنی برابر نسبت می‏دهد)‪ .‬جدول ‪ 2-1‬نشان می‏دهد که قیمت‏های موز‬ ‫و ســیب طی زمان به‏کندی افزایش می‏یابد (و در برخی سال‏ها ثابت می‏ماند یا‬ ‫حتی کاهش می‏یابد)‪ .‬اما قیمت کیوی طی زمان با سرعت افزایش می‏یابد‪ .‬موز‬

‫‪63‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫محاسبه شاخص قیمت میوه‬

‫تحلیل داده‌های اقتصادی‬

‫‪64‬‬

‫و ســیب میوه‏های متدوالی هستند که ب ‏ه مقدار زیاد توسط افراد مختلف خریده‬ ‫می‏شــوند اما کیوی این‏گونه نیست و در مقدار کمتر توسط بخش کوچکی از‬ ‫افراد جامعه خریداری می‏شــود‪ .‬به‌همین دلیل منطقی نیست که هنگام محاسبه‬ ‫شــاخص قیمت‪ ،‬به هر ســه میوه وزن یکسانی نســبت دهیم‪ .‬شاخص قیمت‬ ‫میوه‏ای که بر مبنای میانگین ســاده بنا شــده باشد فرض را بر این می‏گذارد که‬ ‫قیمت‏های میوه با نرخ یکسانی تغییر می‏کنند (یعنی ترکیب رشد کند قیمت موز‬ ‫و سیب با رشد بسیار سریع قیمت کیوی به شاخص قیمتی برای میوه می‏انجامد‬ ‫که با سرعتی نسبتا زیاد رشد می‏کند)‪ .‬اما اگر دولت از این شاخص قیمت برای‬ ‫گزارش «قیمت‏های میوه با نرخی نســبتا زیاد افزایش می‏یابند» اســتفاده کند‪،‬‬ ‫بخش بزرگی از جامعه این گزارش را با تجارب روزمره‏شان ناسازگار می‏یابند‪.‬‬ ‫زیــرا عمده افراد فقط موز و ســیب می‏خرند و قیمت ایــن دو میوه طی زمان‬ ‫به‏کندی رشد می‏کند‪.‬‬ ‫منطق پاراگراف قبل این است که چندان معقول نیست که برای ساختن یک‬ ‫شاخص قیمت به تمام کاالها وزنی برابر بدهیم‪ .‬مطابق این قاعده‪ ،‬برای ساختن‬ ‫یک شــاخص قیمت معقول‪ ،‬باید از میانگین وزنی‪ 1‬قیمت تمام میوه‏ها استفاده‬ ‫کنیم تا اهمیت هر کاال را در نظر گرفته باشیم‪ .‬در شاخص قیمت میوه مثال ما‪،‬‬ ‫باید وزن بیشــتری به موز و ســیب (میوه‏های متداول) و وزن کمتری به کیوی‬ ‫نسبت دهیم‪ .‬برای دانشجویان مالی که عالقمند بحث پیشین ما در مورد میانگین‬ ‫صنعتی داو جونز هستند باید متذکر شد که ‪ S&P500‬یک شاخص قیمت است‬ ‫که به قیمت سهام با استفاده از اندازه شرکت وزن می‏دهد‪.‬‬ ‫روش‏هــای مختلف و زیادی بــرای انتخاب وزن‏ها وجــود دارد‪ .‬من دو‬ ‫روش معمــول را توضیح می‏دهم که بر مبنای این فکر بنا شــده‏اند که وزن‏ها‬ ‫باید نشــان‏دهنده مقدار کاالیی باشد که خریداری می‏شود‪ .‬البته مقدار هر میوه‬ ‫خریداری‏شــده ممکن اســت طی زمان تغییر کند و با توجه به این نکته است‬ ‫‪1- Weighted average‬‬

‫‪65‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫دو شــاخص قیمت ما متفاوت هستند‪ .‬شاخص قیمت الســپیرز‪( 1‬استفاده از‬ ‫وزن ســال پایه)‪ :‬شاخص قیمت الســپیرز برای لحاظ کردن وزن‏ها‪ ،‬از مقدار‬ ‫خریداری‏شده هر میوه در ســال پایه استفاده می‏کند (سال ‪ 2000‬در مثال ما)‪.‬‬ ‫به بیان دیگر‪ ،‬برای ســاختن شاخص قیمت السپیرز‪ ،‬باید میانگین قیمت میوه‬ ‫در هر ســال را با اســتفاده از میانگین وزنی محاسبه کرد که وزن‏ها متناسب با‬ ‫مقداری از هر میوه است که در سال ‪ 2000‬خریده شده است‪ .‬سپس با استفاده‬ ‫از این میانگین قیمت میوه و به همان روشــی که برای شــاخص قیمت موز‬ ‫استفاده کردیم (جدول ‪ 2-1‬را ببینید)‪ ،‬یک شاخص قیمت می‏سازیم‪.‬‬ ‫اگر متوســط خریداران در ســال ‪ ،2000‬برای خریدن موز ‪ 100‬برابر بیشتر‬ ‫از کیوی هزینه کنند‪ ،‬آن‏گاه در شــاخص قیمت السپیرز‪ ،‬باید برای قیمت‏های‬ ‫موز وزنی ‪ 100‬برابر بیشــتر از قیمت‏های کیوی در نظر بگیریم‪ .‬شاخص قیمت‬ ‫الســپیرز را می‏توان به‏صورت یک فرمول ریاضی نوشت‪ .‬اگر ‪ P‬قیمت کاال‪Q ،‬‬ ‫مقدار کاالی خریداری‏شده و زیرنویس‏ها نشان‏دهنده کاال و سال باشد که موز‬ ‫کاالی ‪ ،1‬ســیب کاالی ‪ 2‬و کیوی کاالی ‪ 3‬اســت‪ .‬بنابراین مثال‪ P1.2000 ،‬قیمت‬ ‫موز در ســال ‪ Q3.2002 ،2000‬مقدار کیوی خریداری‏شــده در سال ‪ 2002‬و‪...‬‬ ‫است‪ .‬اگر نشانه‏گذاری زیرنویس‏ها یا عملگر جمع استفاده شده در فرمول زیر‬ ‫را نفهمیدید‪ ،‬پیوست ‪ 1-1‬را بخوانید‪.‬‬ ‫با قرارداد باال در مورد نشــانه‏گذاری‏ها‪ ،‬شــاخص قیمت السپیرز (‪ )LPI‬در‬ ‫سال ‏‪( t‬برای ‪ )t =1999 , 2000 , 2001 , 2002 , 2003‬به شکل زیر است‪:‬‬ ‫‪3‬‬

‫‪× 100‬‬

‫‪∑ PQ‬‬ ‫‪∑ P Q‬‬

‫‪i.2000‬‬ ‫‪i.2000‬‬

‫‪i =1 it‬‬

‫‪3‬‬

‫‪LPIt‬‬ ‫=‬

‫‪i =1 i.2000‬‬

‫در صورت کســر فوق قیمت هر میوه در مقدار همان میوه که در ســال‬ ‫‪ 2000‬خریداری شــده است ضرب شده اســت‪ .‬این ضرب کردن تضمین‬ ‫‪1- Laspeyres‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪66‬‬

‫می‏کند که در شــاخص قیمت السپیرز‪ ،‬موز و سیب وزن بیشتری می‏گیرند‪.‬‬ ‫در مورد مخرج کســر تا این اندازه بدانید که شــاخص قیمت السپیرز یک‬ ‫شــاخص صحیح و معقول و در ســال پایه برابر ‪ 100‬است‪ .‬اگر به‏جزییات‬ ‫ریاضی بیشــتری احتیاج دارید‪ ،‬در مخرج کسر فرمول باال وزن‏های میانگین‬ ‫وزنی مجموعی برابر یک دارند (که برای اطمینان از مناســب بودن میانگین‬ ‫وزنی الزم است)‪.‬‬ ‫فرمول باال برای شــاخص قیمت السپیرز برای مثال ما نوشته شده است که‬ ‫در آن ســه کاال وجود دارد و سال پایه ‪ 2000‬است‪ .‬در حالت عمومی می‏توان‬ ‫فرمول باال را برای هر تعداد کاال و سال پایه دلخواه نیز نوشت؛ در آ ‏ن صورت‬ ‫عدد ‪ 3‬و ‪ 2000‬به مقادیر مناسب تغییر می‏کنند‪.‬‬ ‫برای محاســبه شاخص قیمت السپیرز باید مقدار خریداری‏شده از هر میوه‬ ‫را بدانیم‪ .‬این مقادیر در جدول ‪ 2-3‬وجود دارند‪.‬‬ ‫شــاخص قیمت الســپیرز برای میوه‏ها را می‏توان به همان شیوه شاخص‬ ‫قیمت موز تفسیر کرد‪ .‬مثال‪ ،‬می‏توانیم بگوییم که بین سال‏هایی ‪ 2000‬و ‪،2003‬‬ ‫شاخص قیمت میوه ‪ 8/7‬درصد رشد کرده است‪.‬‬ ‫شاخص قیمت پاشه‪( 1‬اســتفاده از وزن سال جاری)‪ :‬در شاخص قیمت‬ ‫الســپیرز‪ ،‬برای محاســبه میانگین قیمت میوه‏ها هنگامی که ســه نوع میوه‬ ‫متفاوت وجود داشــت‪ ،‬از وزن‏های سال پایه استفاده کردیم‪ .‬اما اگر الگوی‬ ‫مصرف میوه طی زمان به‏طرز قابل‏توجهی تغییر کند‪ ،‬ممکن اســت اســتفاده‬ ‫از وزن‏های ســال پایه (در مثال ما‪ ،‬سال پایه ‪ 2000‬بود) نامناسب باشد‪ .‬در‬ ‫مثال فوق‪ ،‬در تمام ســال‏ها موز و سیب میوه‏های پرمصرف هستند و کیوی‬ ‫کمی مصرف می‏شود‪.‬‬

‫‪1- Paasche‬‬

‫جدول ‪ .2-3‬مقادیر میوه خریداری‏شده (به تن)‬ ‫سال‬

‫موز‬

‫سیب‬

‫کیوی‬

‫‪1999‬‬

‫‪100‬‬

‫‪78‬‬

‫‪1‬‬

‫‪2000‬‬

‫‪100‬‬

‫‪82‬‬

‫‪1‬‬

‫‪2001‬‬

‫‪98‬‬

‫‪86‬‬

‫‪3‬‬

‫‪2002‬‬

‫‪94‬‬

‫‪87‬‬

‫‪4‬‬

‫‪2003‬‬

‫‪96‬‬

‫‪88‬‬

‫‪5‬‬

‫جدول ‪ 2-4‬محاسبه شاخص قیمت السپیرز برای میوه‏ها‬ ‫‪3‬‬

‫سال‬

‫صورت= ‪i.2000‬‬

‫‪∑P Q‬‬ ‫‪it‬‬

‫‪i =1‬‬

‫‪3‬‬

‫مخرج=‬

‫‪∑Pi.2000Qi.2000‬‬ ‫‪i =1‬‬

‫شاخص قیمت السپیرز‬

‫‪1999‬‬

‫‪126.64‬‬

‫‪127.92‬‬

‫‪99.0‬‬

‫‪2000‬‬

‫‪127.92‬‬

‫‪127.92‬‬

‫‪100‬‬

‫‪2001‬‬

‫‪130.62‬‬

‫‪127.92‬‬

‫‪102.1‬‬

‫‪2002‬‬

‫‪137.1‬‬

‫‪127.92‬‬

‫‪107.2‬‬

‫‪2003‬‬

‫‪139.07‬‬

‫‪127.92‬‬

‫‪108.7‬‬

‫‪67‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫شاخص قیمت السپیرز ما (به‏طور منطقی)‪ ،‬به قیمت موز و سیب‪ ،‬وزن بیشتری‬ ‫نسبت به کیوی نسبت می‏دهد‪ .‬اما چه می‏شد اگر در سال ‪ ،2001‬اخطاری مبنی بر‬ ‫ناسالم بودن سیب منتشر می‏شد و افراد را از خوردن سیب منع و تشویق به خوردن‬ ‫مقدار بیشتری کیوی می‏کرد؟ شاخص قیمت السپیرز به نسبت دادن وزن کمتر به‬ ‫کیوی و وزن بیشتر به سیب ادامه می‏داد با وجود این‌که اکنون کیوی بیشتری توسط‬ ‫مردم مصرف می‏شد‪ .‬شاخص قیمت پاشه با استفاده از میزان خرید سال جاری برای‬ ‫وزن دادن به هر یک از میوه‏ها در ســاختن شاخص‪ ،‬سعی در از میان برداشتن این‬ ‫مشکل دارد‪ .‬به عبارت دیگر برای ساختن شاخص قیمت پاشه‪ ،‬باید میانگین قیمت‬ ‫میوه در هر سال را با استفاده از میانگین وزنی حساب کرد که وزن‏ها متناسب با مقدار‬ ‫میوه خریداری‏شــده در سال جاری هستند‪ .‬سپس به همان شیوه‏ای که پیشتر برای‬ ‫ســاختن شاخص قیمت موز استفاده کردیم (جدول ‪ 2-2‬را ببینید) از این میانگین‬ ‫قیمت میوه برای ساختن شاخص قیمت استفاده می‏کنیم‪.‬‬

‫فرمول ریاضی شاخص قیمت پاشه (‪ )PPI‬در سال ‪ t‬؛‬ ‫(برای ‪ )t =1999 , 2000 , 2001 , 2002 , 2003‬را می‏توان به شکل زیر نوشت‪:‬‬ ‫‪3‬‬

‫‪it‬‬

‫‪× 100‬‬ ‫‪it‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪68‬‬

‫‪∑ PQ‬‬ ‫‪∑ P Q‬‬ ‫‪i =1 it‬‬

‫‪3‬‬

‫‪PPIt‬‬ ‫=‬

‫‪i =1 i.2000‬‬

‫می‏بینید که ‪ PPI‬مشابه ‪ LPI‬است با این تفاوت که ‪ Qit‬در فرمول ‪ PPI‬وجود‬ ‫دارد ولی در فرمول ‪ LPI‬به‏جای آن‪ Qi.2000 ،‬وجود داشــت‪ .‬پس دو شــاخص‬ ‫ماننــد یگدیگرند به‏جز این موضوع که ‪ PPI‬به‏جای مقدار خرید ســال پایه از‬ ‫مقدار خرید سال جاری استفاده می‏کند‪.‬‬ ‫جدول ‪ 2-5‬نحوه محاســبه شاخص قیمت پاشــه را با استفاده از داده‏های‬ ‫قیمت میوه جدول ‪ 2-1‬و داده‏های مقدار هر میوه جدول ‪ 2-3‬نشان می‏دهد‪.‬‬ ‫چون شــیوه وزن‏دهی دو شاخص السپیرز و پاشه متفاوت است‪ ،‬پس نتایج‬ ‫دو جدول ‪ 2-4‬و ‪ 2-5‬دقیقا یکسان نیست‪ .‬مثال بر مبنای شاخص قیمت پاشه‪،‬‬ ‫بین ســال‏های ‪ 2000‬و ‪ ،2003‬قیمت میوه ‪ %10.4‬رشد کرده است (در حالی‏که‬ ‫مطابق شاخص السپیرز رشد برابر ‪ %8.7‬بود)‪.‬‬ ‫شــاخص‏های قیمت السپیرز و پاشه صرفا دو تا از بی‏نهایت حالت ممکن‬ ‫هستند‪ .‬این‏جا در مورد سایر امکان‏ها بحث نمی‏کنیم‪ .‬اما باید به یاد داشت که‬ ‫شاخص‏ها کاربردهای زیادی در علم اقتصاد و مالی دارند‪ .‬مثال‪ ،‬تورمی که در‬ ‫روزنامه‏ها گزارش می‏شــود‪ ،‬بر اساس شاخص‏های قیمت محاسبه شده است‪.‬‬ ‫در اقتصاد‪ ،‬هزاران کاال توســط افراد خریداری می‏شود و شاخص‏های قیمتی‬ ‫‪2‬‬ ‫مانند شــاخص قیمت مصرف‏کننده‪ )CPI( 1‬یا شــاخص قیمت خرده‏فروشی‬ ‫(‪ )RPI‬میانگین‏های وزنی قیمت این هزاران کاالهای خریداری‏شــده هستند‪.‬‬ ‫اطالعات بازار سهام اغلب با شاخص قیمت سهام بیان ارائه می‏شوند‪.‬‬

‫‪2- Retail price index‬‬

‫‪1- Consumer price index‬‬

‫جدول ‪ 2-5‬محاسبه شاخص قیمت پاشه برای میوه‏ها‬ ‫سال‬

‫‪3‬‬

‫صورت= ‪i.t‬‬

‫‪∑P Q‬‬ ‫‪it‬‬

‫‪i =1‬‬

‫‪3‬‬

‫مخرج=‬

‫‪∑Pi.2000Qi.t‬‬ ‫‪i =1‬‬

‫شاخص قیمت پاشه‬

‫‪1999‬‬

‫‪124/90‬‬

‫‪126/20‬‬

‫‪99/0‬‬

‫‪2000‬‬

‫‪127/92‬‬

‫‪127/92‬‬

‫‪100‬‬

‫‪2001‬‬

‫‪134/44‬‬

‫‪131/16‬‬

‫‪102/5‬‬

‫‪2002‬‬

‫‪140/26‬‬

‫‪129/59‬‬

‫‪108/2‬‬

‫‪2003‬‬

‫‪144/33‬‬

‫‪133/50‬‬

‫‪110/4‬‬

‫‪69‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫یک موضوع دیگر هــم وجود دارد که گاهی اوقات باعث پیچیدگی مطالعات‬ ‫تجربی به‏خصوص در مورد داده‏های اقتصاد کالن می‏شود‪ .‬سازمان‏های آماری دولتی‬ ‫اغلب ســال پایه مورد استفاده در محاسبه شاخص‏های قیمتشان را به‏روز می‏کنند‪.‬‬ ‫بنابراین در هنگام جمع‏آوری داده‏ها ممکن است با موقعیتی مواجه شوید که بخشی‬ ‫از داده‏های شما دارای یک سال پایه باشد و بخش دیگر سال پایه‏ای متفاوت داشته‬ ‫باشد‪ .‬حل این مشکل دشوار نیست‪ ،‬به‏شرطی که یک سال مشترک داشته باشید که‬ ‫مقدار یا عدد مربوط به آن را برای هر دو ســال پایه بدانید‪ .‬جدول ‪ 2-6‬به شما یاد‬ ‫می‏دهد که چگونه این مشکل را حل کنید؛ یعنی دو سری از شاخص قیمت که سال‬ ‫پایه متفاوتی دارند را با هم ترکیب کنید و به یک سری از شاخص‏های قیمت با سال‬ ‫پایه مشترک دست پیدا کنید‪ .‬دفتر آمار شاخص قیمتی با استفاده از سال پایه ‪1995‬‬ ‫ســاخته اما محاسبه آن را در سال ‪ 2000‬متوقف کرده است‪ .‬مقدار این شاخص در‬ ‫ستون «شاخص قیمت قدیمی با سال پایه ‪ »1995‬وجود دارد‪ .‬در سال ‪ ،2001‬دفتر آمار‬ ‫مجددا شروع به محاسبه شاخص قیمت نموده است اما این‏بار از سال ‪ 2001‬به‏عنوان‬ ‫سال پایه استفاده کرده است‪ .‬خوشبختانه دفتر آمار شاخص قیمت جدید با استفاده از‬ ‫سال پایه جدید (یعنی سال ‪ )2001‬را برای سال ‪ 2000‬هم محاسبه کرده است‪ .‬این‬ ‫شاخص‏های قیمت با سال پایه جدید در ستون «شاخص قیمت جدید با سال پایه‬ ‫‪ »2001‬آورده شده است‪ .‬دقت کنید که یک سال مشترک در اختیار داریم‪ ،‬یعنی سال‬

‫‪ .2000‬برای این‌که عدد شــاخص قیمت سال ‪ 2000‬با سال پایه قدیمی یعنی ‪107‬‬ ‫به عدد سال پایه جدید یعنی ‪ 95‬تبدیل شود باید عدد قدیمی را در ‪ 95‬ضرب و بر‬ ‫‪ 107‬تقسیم کنیم‪ .‬به‏منظور حفظ سازگاری‪ ،‬باید این تبدیل را برای اعداد تمام سال‏ها‬ ‫با سال پایه قدیمی‪ ،‬تکرار کنیم‪ .‬نتیجه تبدیل تمام اعداد شاخص با سال پایه قدیمی‬ ‫به شاخص با سال پایه جدید در ستون آخر جدول ‪ 2-6‬نشان داده شده است‪ .‬اکنون‬ ‫می‏توانیم از این شــاخص یک‏کاسه‏شده برای کارهای تجربی‏مان استفاده کنیم زیرا‬ ‫مقدار شاخص برای تمام سال‏ها را با یک سال پایه مشترک ‪ ،2001‬در اختیار داریم‪.‬‬ ‫جدول ‪ .2-6‬تغییر سال پایه برای شاخص قیمت‬

‫تحلیل داده‌های اقتصادی‬

‫‪70‬‬

‫شاخص قیمت جدید با‬ ‫سال پایه ‪2001‬‬

‫تبدیل شاخص قیمت‬ ‫قدیمی‬

‫شاخص قیمت تمام سال‏ها‬ ‫با سال پایه ‪2001‬‬

‫سال‬

‫شاخص قیمت قدیمی با‬ ‫سال پایه ‪1995‬‬

‫‪88/8‬‬

‫‪1995‬‬

‫‪100‬‬

‫‪×95 ÷ 107‬‬

‫‪1996‬‬

‫‪102‬‬

‫‪×95 ÷ 107‬‬

‫‪90/6‬‬

‫‪1997‬‬

‫‪103‬‬

‫‪×95 ÷ 107‬‬

‫‪91/5‬‬

‫‪1998‬‬

‫‪103‬‬

‫‪×95 ÷ 107‬‬

‫‪91/5‬‬

‫‪1999‬‬

‫‪105‬‬

‫‪×95 ÷ 107‬‬

‫‪93/2‬‬

‫‪2000‬‬

‫‪107‬‬

‫‪95‬‬

‫‪95‬‬

‫‪2001‬‬

‫‪100‬‬

‫‪100‬‬

‫‪2002‬‬

‫‪101‬‬

‫‪101‬‬

‫‪2003‬‬

‫‪105‬‬

‫‪105‬‬

‫پیوست ‪ :2-2‬آمار توصیفی پیرشفته‬

‫میانگین و انحراف استاندارد متداول‏ترین مفاهیم آماره‏های توصیفی هستند اما‬ ‫بسیاری آماره‏های دیگر هم وجود دارند‪ .‬میانگین‪ ،‬ساده‏ترین مقیاس مکان توزیع‬ ‫اســت‪ .‬از واژه «مکان» برای بیان مفهوم مرکز توزیع اســتفاده می‏شود‪ .‬میانگین‬ ‫نوعی متوسط است‪ .‬مقیاس‏های متداول دیگر برای مکان عبارتند از نما و میانه‪.‬‬ ‫برای ایجاد تمایز بین میانگین‪ ،‬مد و میانه به یک مثال ســاده توجه کنید‪ .‬هفت‬ ‫نفر درآمد ساالنه خود به پوند (‪ )£‬را به‏ترتیب زیر گزارش کرده‏اند‪ 18000 :‬پوند‪،‬‬

‫‪71‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫‪ 15000‬پوند‪ 9000 ،‬پوند‪ 15000 ،‬پوند‪ 16000 ،‬پوند‪ 17000 ،‬پوند و ‪ 20000‬پوند‪.‬‬ ‫میانگین یا همان متوسط درآمد ساالنه این هفت نفر ‪ 15714‬پوند است‪.‬‬ ‫نما‪ ،‬پرتکرارترین مقدار است‪ .‬در مثال حاضر‪ ،‬دو نفر درآمد خود را ‪15000‬‬ ‫پونــد گزارش کرده‏اند‪ .‬هیچ عدد دیگری بــرای درآمد بیش از یک‏بار گزارش‬ ‫نشده است‪ .‬بنابراین ‪ 15000‬پوند پرتکرارترین درآمد بین این هفت نفر است‪.‬‬ ‫میانه‪ ،‬مقداری اســت که در وســط مقادیر دیگر قــرار می‏گیرد‪ .‬یعنی میانه‬ ‫مقداری اســت که توزیع را به دو نیمه مساوی تقسیم می‏کند‪ .‬در مثال ما‪ ،‬میانه‬ ‫مقدار درآمدی است که افراد را به دو نیمه با درآمد باال و با درآمد پایین تقسیم‬ ‫می‏کنــد‪ .‬در این مثال میانه برابر ‪ 16000‬پوند اســت‪ .‬توجه کنید که ســه نفر‬ ‫درآمدی کمتر از میانه و سه نفر هم درآمدی بیش از آن دارند‪.‬‬ ‫نمــا و میانه را می‏تــوان با مالحظه دو نمودار شــکل‏های ‪ 2-2‬و ‪ 2-4‬هم‬ ‫تشخیص داد که در آن‏ها دو هیســتوگرام یا توزیع متفاوت ترسیم شده است‪.‬‬ ‫یکی از مشکالت نما این است که ممکن است هیچ مقداری مشترک نباشد‪ .‬مثال‬ ‫در مجموعه داده ‪ GDP‬ســرانه (‪ ،)GDPPC.XLS‬هیچ دو کشوری مقادیر دقیقا‬ ‫یکسان ندارند‪ .‬بنابراین مقداری هم وجود ندارد که بیش از یک بار تکرار شده‬ ‫باشد‪ .‬برای حالت‏های این‏چنینی‪ ،‬نما عبارت است از باالترین نقطه هیستوگرام‪.‬‬ ‫یک مشکل کاربردی کوچک برای تعریف نما در این حالت این است که مقدار‬ ‫نما ممکن است به انتخاب فواصل طبقه‏ای حساس باشد (و به‌همین دلیل است‬ ‫که پاسخ اکســل برای مقدار نما ‪ GDPPC.XLS‬با مقداری که این‌جا ذکر شده‬ ‫است اندکی متفاوت است)‪ .‬در شــکل ‪ ،2-2‬طبقه با برچسب ‪ 2000‬بیشترین‬ ‫ارتفاع را در هیســتوگرام دارد‪ .‬توجه کنید انتخاب اکسل برای برچسب‏گذاری‬ ‫طبقات به این معناست که طبقه اول از ‪ 0‬تا ‪ 2000‬است‪ .‬پس می‏توانیم بگوییم‬ ‫کــه فاصله طبقه‏ای ‪ 0‬تا ‪ ،2000‬مد اســت‪ .‬روش متداول دیگر این اســت که‬ ‫عدد وســط طبقه شامل نما را به‏عنوان نما گزارش کنیم‪ .‬در این مثال‪ ،‬می‏توانیم‬ ‫بگوییم که «نما برابر ‪ 1000‬دالر است»‪ .‬احتماال نما کم‏کاربردترین آماره از بین‬ ‫سه آماره‏ای است که در این بخش برای مقیاس مکان توزیع توضیح داده شد‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪72‬‬

‫برای فهم میانه‪ ،‬تصور کنید که تمام مســاحت هیســتوگرام هاشور خورده‬ ‫باشــد‪ .‬میانه‪ ،‬نقطه‏ای روی محور ‪x‬‏ها است که این مساحت هاشور خورده را‬ ‫دقیقا به دو نیمه تقسیم کند‪ .‬در شکل ‪ 2-4‬مرتفع‏ترین نقطه (یعنی نما) همچنین‬ ‫نقطه وسطی است که توزیع را دو نیمه می‏کند (یعنی میانه)‪ .‬پس این نقطه‪ ،‬میانه‬ ‫توزیع هم هســت‪ .‬به‏هر حال در شــکل ‪ ،2-2‬میانگین (‪ 5443/80‬دالر)‪ ،‬میانه‬ ‫(‪ 3071/50‬دالر) و نما (‪ 1000‬دالر) مقادیری کامال متفاوت هستند‪.‬‬ ‫یک آماره مختصرکننده دیگر بر مبنای مفهوم صدک‪ 1‬بنا شــده است‪ .‬به‬ ‫مجموعه داده ‪ GDP‬ســرانه دقت کنید‪ .‬برای هر کشور منتخب‪ ،‬مثال بلژیک‪،‬‬ ‫می‏توان پرســید که «چند کشور از بلژیک فقیرتر هستند؟» یا به بیان دقیق‏تر‬ ‫«چه نسبتی از کشورها از بلژیک فقیرتر هستند؟» وقتی چنین سوالی پرسیده‬ ‫می‏شــود در واقع داریم می‏پرســیم که بلژیک در چه صدکی قرار دارد؟ به‬ ‫زبان فنی و رســمی‏تر‪ ،‬صدک ‪X‬اُم مقدار داده‏ای (یعنی رقم ‪ GDP‬ســرانه)‬ ‫اســت که ‪ X‬درصد از مشاهدات (یعنی کشورها) دارای مقادیری کمتر از آن‬ ‫هســتند‪ .‬در مجموعه داده بین‏کشوری ‪ GDP‬سرانه‪ ،‬صدک ‪37‬اُم ‪ 2092‬دالر‬ ‫است‪ .‬این رقم ‪ GDP‬سرانه کشور پرو است‪ 37 .‬درصد کشورهای داده‏های‬ ‫ما از پرو فقیرتر هستند‪.‬‬ ‫مفاهیم زیادی با مفهوم صدک مرتبط هســتند‪ .‬مثال صدک ‪50‬ام همان میانه‬ ‫اســت‪ .‬کمینه و بیشینه به‏ترتیب صدک‏های ‪ 0‬ام و ‪ 100‬ام هستند‪ .‬صدک دامنه‬ ‫داده‏ها را به صد قســمت تقسیم می‏کند در حالی‏که باقی مفاهیم مرتبط از دیگر‬ ‫واحدهای عمومی اســتفاده می‏کنند‪ .‬چارک‏ها‪ 2‬دامنه داده‏ها را به چهار قسمت‬ ‫مســاوی تقســیم می‏کنند‪ .‬بنابراین اولین چارک معادل ‪25‬اُمین صدک‪ ،‬دومین‬ ‫چارک معادل ‪50‬امین صدک (یا میانه) و ســومین چارک‪75 ،‬امین صدک است‪.‬‬ ‫دهک‏هــا‪ ،3‬داده‏ها را ده‏تا ده‏تا بخش می‏کنند‪ .‬ب ‏ه عبارت دیگر‪ ،‬دهک اول معادل‬ ‫صدک ‪10‬ام‪ ،‬دومین دهک معادل صدک ‪20‬ام و مانند این‏ها است‪.‬‬ ‫‪3- Deciles‬‬

‫‪2- Quartiles‬‬

‫‪1- Percentile‬‬

‫پس از انحراف اســتاندارد‪ ،‬متداول‏ترین مقیاس بــرای پراکندگی‪ ،‬دامنه‬ ‫بین‏چارکی‪ 1‬اســت‪ .‬همان‏طور که از نام آن بر‏می‏آید‪ ،‬این مقیاس تفاوت بین‬ ‫ســومین و اولین چارک را اندازه می‏گیرد‪ .‬در مجموعه داده بین‏کشــوری‪،‬‬ ‫‪ 75‬درصد کشــورها ‪ GDP‬ســرانه‏ای کمتر از ‪ 9802‬دالر و ‪ 25‬درصدشان‬ ‫‪ GDP‬ســرانه‏ای کمتــر از ‪ 1162‬دالر دارند‪ .‬به عبــارت دیگر‪ 1162 ،‬دالر‬ ‫چارک اول و ‪ 9802‬دالر چارک ســوم است‪ .‬دامنه بین‏چارکی هم ‪-$9802‬‬ ‫‪ $8640=$1162‬است‪.‬‬

‫‪1- Interquartile range‬‬

‫فصل ‪ :2‬مبانی کار با داده‏ها‬

‫‪73‬‬

‫فصل ‪3‬‬ ‫همبستگی‬

‫‪1- Correlation‬‬

‫‪75‬‬

‫فصل ‪ :3‬همبستگی‬

‫اغلب اوقات اقتصاددانان عالقه‏مند به دانستن چگونگی ارتباط بین متغیرهای‬ ‫مختلف مانند ســطح تحصیالت کارگران و دستمزدهای‏شان یا نرخ‏های بهره‬ ‫و تورم هســتند‪ .‬یک روش مهم برای بیان کمی و عددی ارتباط بین دو متغیر‪،‬‬ ‫همبستگی‪ 1‬است‪.‬‬ ‫یک مفهوم مرتبط با همبستگی‪ ،‬که در فصل‏های آتی به آن پرداخته می‏شود‪،‬‬ ‫رگرسیون است که اساسا‏نوعی تعمیم همبستگی برای حالت‏هایی است که در‬ ‫آن سه متغیر یا بیشتر وجود دارند و بر جنبه علیت تاکید می‏کند‪ .‬همان‏طور که‬ ‫خودتان پس از خواندن این فصل و فصل‏های آتی متوجه خواهید شــد‪ ،‬اصال‬ ‫اغراق نکرده‏ایم اگر بگوییم که همبستگی و رگرسیون مهم‏ترین مفاهیم سازنده‬ ‫این کتاب هستند‪.‬‬ ‫در این فصل‪ ،‬ابتدا نظریه موجود در پس مفهوم همبستگی را شرح می‏دهیم‬ ‫و پس از آن روی چند مثال کار می‏کنیم که برای درک مستقیم مفهوم همبستگی‬ ‫به روش‏های مختلف طراحی شده‏اند‪.‬‬

‫فهم همبستگی‬

‫تحلیل داده‌های اقتصادی‬

‫‪76‬‬

‫‪ Y‬دو متغیر (مثال به‏ترتیب تراکم جمعیت و جنگل‏زدایی)‬ ‫فرض کنیــد که ‪ X‬و ‏‬ ‫باشند و ما داده‏های ‪ =i 1.….N‬واحد مختلف (مثال کشور) را برای این دو متغیر‬ ‫در اختیار داریم‪ .‬همبســتگی بین ‪ X‬و ‪Y‬‏ را با حروف کوچک ‪ r‬نشان می‏دهیم‬ ‫که فرمول ریاضی دقیق آن در پیوســت ‪ 3-1‬آورده شــده است‪ .‬البته در عمل‬ ‫هیچ‏گاه مجبور نخواهید شد که از این فرمول به‏شکلی مستقیم استفاده کنید‪ .‬هر‬ ‫نرم‏افزاری صفحه‏گسترده‪ 1‬مانند اکسل یا بسته‏های نرم‏افزاری اقتصادسنجی این‬ ‫کار را برای‏تان انجام خواهد داد‪.‬‬ ‫معموال از شرایط متن مشخص است که ‪ r‬همبستگی بین کدام دو متغیر را نشان‬ ‫می‏دهد اما در برخی موارد از اندیس برای اشاره به نام دو متغیر استفاده می‏کنیم‬ ‫‪ Y‬را نشان می‏دهد یا ‪ rXZ‬که اشاره به‬ ‫مثل ‪ rXY‬که همبســتگی بین دو متغیر ‪ X‬و ‏‬ ‫همبستگی بین ‪ X‬و ‏‪ Z‬دارد و نظایر این‏ها‪.‬‬ ‫نتیجه محاسبه همبســتگی بین دو متغیر‪ ،‬یک عدد است (مثال ‪.) r = 0.55‬‬ ‫موضوع مهم‪ ،‬چگونگی تفســیر این عدد است‪ .‬در این بخش‪ ،‬سعی می‏کنیم به‬ ‫نوعی درک شــهودی پیرامون همبستگی دست یابیم‪ .‬ابتدا برخی از ویژگی‏های‬ ‫عددی همبستگی را فهرست می‏کنیم‪.‬‬

‫ویژگی‏های همبستگی‬

‫‪ r -1‬همیشه بین ‪ -1‬و ‪ 1‬قرار می‏گیرد که به‏صورت‪ −1 ≤ r ≤ 1‬نشان داده می‏شود‪.‬‬ ‫‪ -2‬مقادیر مثبت ‪ r‬به‏معنی وجود رابطه مثبت بین ‪ X‬و ‪Y‬‏ است‪ .‬مقادیر منفی‬ ‫رابطه منفی را نشان می‏دهند‪ r = 0 .‬به این معناست که ‪ X‬و ‪Y‬‏ ناهمبسته‪ 2‬هستند‪.‬‬ ‫‪ -3‬مقادیر مثبت بزرگ‏تر ‪ r‬به‏معنای وجود رابطه مثبت قوی‏تر است‪r = 1 .‬‬ ‫نشان‏دهنده رابطه مثبت کامل است‪ .‬مقادیر منفی بزرگ‏تر [‪ r ]1‬به‏معنای رابطه‬ ‫منفی قوی‏تر هســتند‪ r = −1 .‬نشــان‏دهنده رابطه منفی کامل است (البته توجه‬ ‫‪2- Uncorrelated‬‬

‫‪1- Spreadsheet‬‬

‫کنید که منظور از مقدار منفی بزرگ‏تر‪ ،‬منفی بیشتر است‪ .‬مثال ‪ -0/9‬مقدار منفی‬ ‫بزرگ‏تری از ‪ -0/2‬است)‪.‬‬ ‫‪ -4‬همبستگی بین ‪ Y‬و ‪ X‬مشابه همبستگی بین ‪ X‬و ‪Y‬‏ است‪.‬‬ ‫‪ -5‬همبستگی هر متغیری با خودش (مثال همبستگی بین ‪ Y‬و ‪Y‬‏) برابر ‪ 1‬است‪.‬‬

‫فهم همبستگی با استفاده از استدالل کالمی‬

‫آماردان‏ها از واژه همبســتگی اغلب ب ‏ه همان شــکلی اســتفاده می‏کنند که افراد‬ ‫غیرحرفه‏ای‪ .‬مثال زیر که ادامه مثال تراکم جمعیت‪/‬جنگل‏‏زدایی است که در فصل ‪2‬‬ ‫مطرح شد‪ ،‬روش‏های کالمی برای تصور مفهوم همبستگی را نشان می‏دهد‪.‬‬

‫فرض کنید که عالقه‏مند به بررســی رابطه بیــن جنگل‏زدایی و تراکم‬ ‫جمعیت هستیم‪ .‬به یاد داشته باشــید که فایل اکسل ‪FOREST.XLS‬‬

‫دربرگیرنده داده‏های مقطعی ‪ 70‬کشور گرمسیری برای این متغیرها (و‬ ‫متغیرهای دیگر) است‪ .‬با استفاده از اکسل‪ ،‬درمی‏یابیم که همبستگی بین‬ ‫جنگل‏زدایی (‪ )Y‬و تراکم جمعیت (‪ 0/66 )X‬اســت‪ .‬بزرگ‏تر از صفر‬

‫بودن این عدد می‏تواند ما را به نتایج زیر برساند‪:‬‬

‫‪ .1‬ارتباطی مثبت (یا وابستگی‪ 1‬مثبت) بین جنگل‏زدایی و تراکم جمعیت‬ ‫وجود دارد‪.‬‬

‫‪ .2‬کشــورهای بــا تراکم جمعیت باالتــر گرایش به نرخ‏هــای باالتر‬ ‫جنگل‏زدایــی دارند‪ .‬کشــورهای با تراکم جمعیــت پایین به نرخ‏های‬

‫پایین جنگل‏زدایی گرایش نشان می‏دهند‪ .‬توجه کنید که این‌جا از واژه‬

‫‪1- Association‬‬

‫‪77‬‬

‫فصل ‪ :3‬همبستگی‬

‫مثال ‪ :3-1‬همبستگی بین جنگل‏زدایی و تراکم جمعیت‬

‫«گرایش»‪ 1‬استفاده کردیم‪ .‬یک همبستگی مثبت به این معنا نیست که هر‬ ‫کشــور با تراکم جمعیتی باالتر الزاما باید نرخ جنگل‏زدایی باالتر داشته‬

‫باشــد‪ ،‬بلکه این بیشتر نوعی گرایش عمومی است‪ .‬ممکن است تعداد‬

‫اندکی از کشورها از این الگو پیروی نکنند (بحث مربوط به مشاهدات‬ ‫پرت در فصل ‪ 2‬را مالحظه کنید)‪.‬‬

‫‪ .3‬نرخ‏های جنگل‏زدایی همانند تراکم جمعیت‪ ،‬در بین کشــورهای‬ ‫مختلف متفاوت است (به این دلیل است که آن‏ها را متغیر می‏نامیم)‪.‬‬

‫برخی کشــورها نرخ‏های جنگل‏زدایی بــاال و برخی دیگر نرخ‏های‬ ‫پایینــی دارند‪ .‬این تغییرات باال‪/‬پاییــن در نرخ‏های جنگل‏زدایی بین‬

‫کشــورها‪ ،‬گرایش بــه «هماهنگی»‪ 2‬با تغییــرات باال‪/‬پایین در تراکم‬ ‫تحلیل داده‌های اقتصادی‬

‫جمعیت دارد‪.‬‬

‫‪78‬‬

‫اظهارات پیشین ما زمانی درست خواهد بود که ‪ r‬مثبت باشد‪ .‬چنان‏چه‬

‫‪ r‬منفی می‏بود‪ ،‬عکس این مطلب درســت می‏بود‪ .‬مثال‪ ،‬مقادیر باالی‬ ‫‪ X‬ممکن اســت با مقادیر پایین ‪ Y‬همراه باشــد‪ ،‬و غیره‪ .‬درک مستقیم‬ ‫یا شــهودی رقم همبستگی اندکی دشوار است (مثال چه تفاوتی وجود‬

‫دارد بین همبستگی ‪ 0/66‬و همبستگی ‪0/26‬؟)‪ .‬نمودار ‪ XY‬که در ادامه‬ ‫توضیح داده شده است می‏تواند اندکی کمک حال باشد‪ ،‬اما این‌جا نکته‬

‫ن مورد بیان می‏کنیم که هنگام بحث در مورد رگرسیون‪،‬‬ ‫مهمی را در ای ‏‬ ‫چه‏چیزی را به‏دست می‏آوریم‪.‬‬

‫‪ .4‬با اســتفاده از فرمول انحراف معیار که در فصل ‪ 2‬ارائه شد‪ ،‬می‏توان‬

‫مقدار دقیق درجه تغییر نرخ‏های جنگل‏زدایی بین کشــورها را محاسبه‬ ‫کرد‪ .‬همان‏گونه که در نکته ‪ 3‬باال اشــاره شد‪ ،‬این حقیقت که نرخ‏های‬

‫‪2- Match up‬‬

‫‪1- Tend‬‬

‫جنگل‏زدایــی و تراکم جمعیت به‏طور مثبت همبســته هســتند به این‬ ‫معناست که الگوهای تغییر بین کشوری آن‏ها گرایش به هماهنگی دارد‪.‬‬

‫توان دوم همبســتگی (‪ ) r 2‬نسبتی از تغییرات بین کشوری جنگل‏زدایی‬ ‫که با تغییرات تراکم جمعیت هماهنگی دارد یا توســط آن توضیح داده‬ ‫می‏شود را اندازه می‏گیرد‪ .‬به عبارت دیگر‪ ،‬همبستگی یک مقیاس عددی‬

‫اســت از میزان هماهنگی یا تطابق الگوهای ‪ X‬و ‪Y‬‏‪ .‬در مثال جمعیت‪/‬‬

‫جنگل‏زدایی ما‪ ،‬از آن‌جاکه ‪ 0 / 662 = 0 / 44‬است‪ ،‬می‏توانیم ادعا کنیم‬ ‫که ‪ 44‬درصد از تغییرات بین کشوری جنگل‏زدایی را می‏توان به‏وسیله‬ ‫تغییرات بین کشوری تراکم جمعیت توضیح داد‪.‬‬

‫(الف) با اســتفاده از داده‏های ‪ ،FOREST.XLS‬میانگین‪ ،‬انحراف معیار‪ ،‬کمینه و‬

‫بیشینه جنگل‏زدایی و تراکم جمعیت را محاسبه و تفسیر کنید‪.‬‬ ‫(ب) نشان دهید که همبستگی بین این دو متغیر ‪ 0/66‬است‪.‬‬

‫مثال ‪ :3-2‬قیمت‏های خانه در وینسور‪ ،1‬کانادا‬

‫فایل اکســل ‪ HPRICE.XLS‬شــامل داده‏های مرتبط با ‪ N=546‬خانه‬

‫است که در تابستان ‪ 1987‬در وینسور کانادا به فروش رسیده است‪ .‬این‬

‫فایل شامل قیمت فروش (به دالر کانادا) ب ‏ه همراه بسیاری از ویژگی‏های‬ ‫هر خانه است‪.‬‬

‫‪1- Windsor‬‬

‫فصل ‪ :3‬همبستگی‬

‫مترین ‪3-1‬‬

‫‪79‬‬

‫ما در فصل‏های آتی از این مجموعه داده به‏شــکلی گســترده استفاده‬

‫خواهیم کرد‪ ،‬امــا حاال می‏خواهیم تنها بر چند متغیر متمرکز شــویم‪.‬‬

‫به‏طور خاص فرض می‏کنیم که ‪ Y‬قیمت فروش خانه و ‪ X‬اندازه آن‪ 1‬به‬ ‫فوت مربع‪ 2‬باشد که شامل خود خانه به‏عالوه باغچه و حیاط آن است‪.‬‬

‫همبستگی بین این دو متغیر ‪rXY = 0 / 54‬‬

‫است‪.‬‬

‫عبارت‏های زیر را می‏توان در مورد قیمت‏های خانه در وینسور بیان کرد‪:‬‬

‫‪ .1‬خانه‏های بزرگ‏تر در مقایسه با خانه‏های کوچک‏تر گرایش به ارزش‬

‫بیشتر دارند‪.‬‬

‫‪ .2‬همبستگی مثبت بین اندازه خانه‏ها و قیمت‏های فروش وجود دارد‪.‬‬

‫‪ .3‬تغییــرات انــدازه خانه‏ها ‪( %29‬یعنــی ‪ ) 0.542 = 0.29‬از تغییرات‬

‫تحلیل داده‌های اقتصادی‬

‫قیمت‏های خانه را توضیح می‏دهد‪.‬‬ ‫‪80‬‬

‫اکنون اجازه بدهید که متغیر ســوم یعنی ‪ Z‬تعــداد اتاق‏های خواب را‬ ‫اضافه کنیم‪ .‬با محاسبه همبستگی بین قیمت‏های خانه و تعداد اتاق‏های‬

‫خواب به ‪ rYZ = 0 / 37‬می‏رسیم‪ .‬این نتیجه می‏گوید که‪ ،‬مطابق انتظارمان‪،‬‬

‫خانه‏هایی که اتاق‏های خواب بیشــتری دارند گرایش دارند که قیمت‬ ‫بیشتری نسبت به خانه‏های با اتاق‏های خواب کمتر داشته باشند‪.‬‬

‫به‏طور مشــابه‪ ،‬می‏توانیم همبســتگی بین تعداد اتاق‏ها خواب و اندازه‬ ‫خانه‏ها را محاســبه کنیم‪ .‬این همبســتگی ‪ rXZ = 0 / 15‬است و به این‬ ‫معناســت که در خانه‏های بزرگ‏تر گرایش به تعداد بیشــتر اتاق‏های‬ ‫خواب وجود دارد‪.‬‬

‫‪ -1‬منظور خانه‏های ویالیی یا یک طبقه اســت که خانه و متعلقات آن در یک قطعه زمین واقع شــده‏اند‪.‬‬ ‫متغیر ‪ x‬اندازه این زمین است‪.‬‬ ‫ً‬ ‫ً‬ ‫‪ -2‬هر فوت مربع معادل ‪ 0/093‬متر مربع اســت‪ .‬مثال اتاقی با مســاحت ‪ 100‬فوت مربع حدودا ‪ 9/3‬متر‬ ‫مربع خواهد بود‪.‬‬

‫اما این همبستگی بسیار اندک است و بیان می‏کند که ارتباط بین اندازه‬

‫خانه‏ها و تعداد اتاق‏های خواب ناچیز است؛ که کامال بر خالف انتظار‬ ‫اســت‪ .‬به عبارت دیگر‪ ،‬احتماال شما هم انتظار داشتید که خانه‏هایی که‬ ‫در زمین‏های بزرگ‏تری واقع شــده‏اند‪ ،‬بزرگ‏تر باشــند و در مقایسه با‬ ‫خانه‏هایــی که در زمین‏های کوچک‏تر واقع شــده‏اند‪ ،‬اتاق‏های خواب‬

‫بیشتری داشته باشــند‪ .‬اما این همبستگی نشان می‏دهد که تنها گرایش‬ ‫اندکی برای رخ دادن این اتفاق وجود دارد‪.‬‬

‫‪1- Causality‬‬

‫‪81‬‬

‫فصل ‪ :3‬همبستگی‬

‫مثــال بــاال این انگیــزه را ایجاد می‏کند کــه در مــورد موضوعی مهم در‬ ‫اقتصادسنجی‪ ،‬به نام علیت‪ ،1‬بحث کنیم‪ .‬در واقع اقتصاددانان‪ ،‬در اغلب اوقات‪،‬‬ ‫می‏خواهنــد بدانند که آیا یک متغیر «علت» متغیر دیگر اســت؟ این‌جا تعریفی‬ ‫رســمی از علیت را ارائه نمی‏کنیم و از این واژه در معنای روزمره و عامیانه‏اش‬ ‫اســتفاده می‏کنیم‪ .‬در این مثال‪ ،‬منطقی است که از همبستگی مثبت بین قیمت‬ ‫خانه و اندازه آن برای نشان دادن رابطه‏ای علی استفاده کنیم‪ .‬یعنی‪ ،‬اندازه خانه‬ ‫متغیری است که مستقیما بر قیمت آن موثر است (یا علت آن است)‪ .‬به عبارت‬ ‫دیگر‪ ،‬جهت علیت از سمت اندازه خانه به قیمت آن است‪ ،‬و نه برعکس‪.‬‬ ‫یک راه دیگر برای فکر کردن در این مورد این است که از خودتان بپرسید‬ ‫که چه می‏شــد اگر یک صاحب‏خانه زمین مجــاور خانه‏اش را می‏خرید و در‬ ‫نتیجــه‪ ،‬اندازه زمین خانه‏اش (همان اندازه خانــه) را افزایش می‏داد‪ .‬این عمل‬ ‫احتماال منجر به افزایش ارزش خانه می‏شــد (یعنی افزایش اندازه خانه ممکن‬ ‫اســت علت افزایش قیمت خانه باشــد)‪ .‬اما به سوال وارونه سوال باال نیز فکر‬ ‫کنید‪« :‬آیا افزایش قیمت خانه علت افزایش اندازه خانه اســت؟» متوجه هستید‬

‫تحلیل داده‌های اقتصادی‬

‫‪82‬‬

‫که ان سوال وارونه بی معناست (یعنی افزایش قیمت خانه علت افزایش اندازه‬ ‫خانه نیســت)‪ .‬مثال‪ ،‬اگر قیمت خانه در وینســور ناگهان به دلیلی افزایش یابد‪،‬‬ ‫(مثال به دلیل رونق اقتصادی) این به آن معنا نیست که خانه‏ها در وینسور ناگهان‬ ‫ییابند‪.‬‬ ‫اندازه بزرگ‏تری م ‪‎‬‬ ‫بحث مطرح‏شــده در پاراگراف پیش را می‏تــوان با جایگزین کردن «تعداد‬ ‫اتاق‏های خواب» با «اندازه خانه» نیز تکرار کرد‪ .‬یعنی فرض وجود ارتباط مثبت‬ ‫بین ‪ Y‬یا قیمت خانه و ‪ Z‬تعداد اتاق‏های خواب ب ‏ه دلیل این‌که ‪ Z‬بر‪ Y‬تاثیرگذار‬ ‫(یا علت آن) است‪ ،‬منطقی‏تر از فرض مقابل آن است‪ .‬یعنی این گرایش وجود‬ ‫دارد که خانه‏های با اتاق خواب بیشتر‪ ،‬اندازه بزرگ‏تری (زیربنای بیشتری) نیز‬ ‫داشته باشند‪ ،‬اما این گرایش به این معنا نیست که اولی علت دومی باشد‪.‬‬ ‫یکی از مهم‏ترین موضوعات در کارهای تجربی دانســتن چگونگی تفسیر‬ ‫نتایج است‪ .‬مثال خانه‪ ،‬این دشواری را به‏خوبی نشان می‏دهد‪ .‬تنها گزارش کردن‬ ‫عدد همبســتگی (مثال ‪ )rxY=0/54‬کافی نیســت‪ .‬تفسیر این عدد نیز مهم است‪.‬‬ ‫برای تفســیر این عدد عالوه بر دانش شــهودی در مورد مفهوم همبستگی‪ ،‬به‬ ‫درک و قضاوتی درست در مورد پدیده‏های اقتصادی مورد مطالعه نیاز است‪ .‬با‬ ‫دانستن اهمیت تفسیر نتایج در کارهای تجربی‪ ،‬در بخش بعدی مثال‏های زیادی‬ ‫ارائه شده است تا نشان دهد که چرا متغیرها همبسته هستند و عقل سلیم چگونه‬ ‫می‏تواند راهنمای ما در تفسیر همبستگی باشد‪.‬‬

‫مترین ‪3-2‬‬

‫(الف) با اســتفاده از داده‏هــای فایل ‪ ،HPRICE.XLS‬میانگیــن‪ ،‬انحراف معیار‪،‬‬

‫کمینه و بیشــینه متغیرهای ‪ Y‬قیمت خانه (با برچســب «قیمت فروش» در فایل‬ ‫‪ Z‬تعداد اتاق‏های خواب (دارای برچســب‬ ‫)‪ X ، )HPRICE.XLS‬اندازه خانه و ‏‬

‫«‪ )»bedroom#‬را محاسبه و تفسیر کنید‪.‬‬

‫‪ Y‬برابر مقدار ارائه‏شده در مثال باال‬ ‫(ب) بررســی کنید که آیا همبستگی میان ‪ X‬و ‏‬ ‫است‪ .‬مقدار همبستگی را برای ‪ X‬و ‪ Z‬و سپس برای ‪ Y‬و ‪Z‬‏ گزارش کنید‪.‬‬

‫(ج) حاال یک متغیر جدید به نام ‪W‬‏ ایجاد کنید که برابر تعداد حمام‏ها اســت (با‬

‫برچسب «‪ .)»bath#‬میانگین ‪W‬‏ را حساب کنید‪.‬‬

‫(د) همبســتگی میان ‪ W‬و ‪Y‬‏ را محاســبه و تفســیر کنید‪ .‬توضیح دهید که چقدر‬ ‫‪ Y‬است‪.‬‬ ‫می‏توان ادعا کرد که ‪ W‬علت ‏‬

‫(ه) قسمت (ج) را با ‪ W‬و ‪ X‬و سپس با ‪ W‬و ‪ Z‬تکرار کنید‪.‬‬

‫درک دلیل همبستگی متغیرها‬

‫مثال‪ :3-3‬همبستگی الزاما به معنای علیت نیست‬

‫این موضوع به‏طور عام پذیرفته شــده اســت که سیگار کشیدن باعث‬ ‫ســرطان ریه می‏شود‪ .‬فرض کنید که داده‏هایی زیر را برای افراد زیادی‬

‫‪ X‬تعداد ســیگارهایی که هر نفر در طول‬ ‫جمــع‏آوری کرده‏ایم‪( :‬الف) ‏‬

‫هفته می‏کشــد و (ب) ‪Y‬‏ آیا این افراد هیچ‏گاه به سرطان ریه داشته‏اند یا‬

‫‪83‬‬

‫فصل ‪ :3‬همبستگی‬

‫در مثال جنگل‏زدایی‪/‬تراکم جمعیت‪ ،‬فهمیدیم که دو متغیر جنگل‏زدایی و تراکم‬ ‫جمعیت همبستگی مثبت دارند که به وجود یک رابطه مثبت بین این دو داللت‬ ‫دارد‪ .‬اما شکل دقیق این رابطه چگونه است؟ همان‏طور که در باال بحث شد‪ ،‬ما‬ ‫اغلب تمایل داریم که واژگان علیت یا تاثیر را به‏کار ببریم و در واقع هم ممکن‬ ‫اســت که همبستگی و علیت ارتباط نزدیکی داشــته باشند‪ .‬مثال‪ ،‬این یافته که‬ ‫تراکم جمعیت و جنگل‏زدایی همبسته هستند ممکن است به این معنا باشد که‬ ‫اولی علت مســتقیم دومی است‪ .‬به‏طور مشابه‪ ،‬یافته دیگر ما دال بر این‌که میان‬ ‫سطح تحصیالت و دستمزدها همبســتگی مثبت وجود دارد می‏تواند این‏گونه‬ ‫تفسیر شــود که تحصیالت بیشتر به‏شکلی مستقیم و بی‏واسطه بر میزان درآمد‬ ‫یک نفر تاثیر می‏گذارد‪ .‬اما همان‏طور که مثال‏های بعدی نشــان می‏‏دهند‪ ،‬تفسیر‬ ‫همبستگی به مثابه علیت‪ ،‬الزاما همواره دقیق و درست نیست‪.‬‬

‫اکنون دارند‪ .‬چون سیگار کشیدن باعث سرطان ریه می‏شود ما باید قطعا‬

‫به‬

‫نتیجه ‪rXY > 0‬‬

‫برسیم؛ یعنی‪ ،‬سیگاری‏ها در مقایسه با غیرسیگاری‏ها‪،‬‬

‫گرایش بیشــتری به نرخ‏های باالی ســرطان ریه دارند‪ .‬در این مورد‪،‬‬

‫همبستگی مثبت بین ‪ X‬و ‪Y‬‏ به معنای علیت بی‏واسطه است‪.‬‬

‫حــاال فرض کنید که ما داده‏هــای دیگری نیز از این افــراد در اختیار‬ ‫داریم‪ ،‬یعنی مقدار نوشیدنی‏هایی که ایشان به‏طور معمول در یک هفته‬

‫می‏نوشند‪ .‬نام این متغیر را ‪ Z‬می‏گذاریم‪ .‬در عمل‪ ،‬افرادی که مقدار زیادی‬

‫نوشیدنی می‏نوشند تمایل به کشیدن سیگار نیز دارند‪،‬‬

‫بنابراین‪rXZ > 0 ،‬‬

‫است‪ .‬این همبستگی به این معنا نیست که کشیدن سیگار باعث می‏شود‬

‫که افراد بنوشند‪ ،‬بلکه به احتمال زیاد نشان‏دهنده نوعی رفتار اجتماعی‬ ‫تحلیل داده‌های اقتصادی‬

‫اســت‪ .‬به عبارت دیگر‪ ،‬این همبســتگی این واقعیت را نشان می‏دهد‬

‫‪84‬‬

‫که ســیگاری‏ها چندان مراقب تغذیه خود نیستند‪ ،‬زندگی اجتماعی‏شان‬ ‫بیشتر در مکان‏هایی می‏گذرد که در آن‌جا سیگار و نوشیدنی اغلب با هم‬

‫مصرف می‏شوند‪ .‬همبستگی مثبت میان سیگار کشیدن و نوشیدن‪ ،‬متاثر‬ ‫از برخی علل زمینه‏ای است (یعنی رفتار اجتماعی)؛ این عامل زمینه‏ای‬

‫اســت که باعث بروز هر دو می‏شود‪ .‬بنابراین‪ ،‬همبستگی میان دو متغیر‬ ‫الزاما به این معنا نیســت که یکی علت دیگری است‪ ،‬بلکه ممکن است‬ ‫عامل سومی مسئول بروز هر دو باشد‪.‬‬

‫حاال همبستگی بین ســرطان ریه و نوشیدن افراطی را در نظر بگیرید‪.‬‬

‫چون سیگاری‏ها گرایش بیشتری به ابتال به سرطان ریه دارند و همچنین‬

‫ســیگاری‏ها گرایش بیشتری به نوشــیدن دارند‪ ،‬غیرمنطقی نیست اگر‬ ‫انتظار داشته باشیم که در بین نوشندگان افراطی‪ ،‬نرخ‏های باالتر سرطان‬

‫ریه نیز وجود داشــته باشــد (یعنی ‪ .) rYZ > 0‬فرامــوش نکنید که این‬

‫همبستگی مثبت به این معنا نیست که نوشیدن علت سرطان ریه است؛‬

‫بلکه کشیدن سیگار علت سرطان ریه است‪ ،‬اما سیگار کشیدن و نوشیدن‬ ‫هر دو ناشی از نوعی رفتار زمینه‏ای اجتماعی هستند‪ .‬در این مثال سعی‬

‫شــد تا بر انواع الگوهای پیچیده علیت که در عمل وجود دارند تاکید‬ ‫شود و نشان داده شود که مرتبط ساختن مفاهیم همبستگی و علیت‪ ،‬باید‬ ‫با چه احتیاطی انجام شود‪.‬‬

‫مثال ‪ :3-4‬علیت مستقیم در مقابل علیت غیرمستقیم‬

‫بین علیت مســتقیم (یا بی‏واســطه‪ )1‬و علیت غیرمســتقیم (باواســطه‬ ‫جنگل‏زدایی‪/‬تراکــم جمعیــت‪ ،‬بین متغیرهای تراکــم جمعیت (‪ )X‬و‬

‫جنگل‏زدایی (‪ )Y‬همبستگی مثبت یافت شد‬

‫(یعنی ‪> 0‬‬

‫‪ .) rXY‬یک دلیل‬

‫بر وجود این همبســتگی مثبت این اســت که فشار جمعیت در مناطق‬ ‫روستایی باعث ترغیب کشــاورزان به قطع درختان به‏منظور در اختیار‬

‫داشــتن زمین بیشتر برای کشــت و زرع و تامین غذا می‏شود‪ .‬در واقع‬

‫فرایند توسعه کشــاورزی مزبور‪ ،‬علت مستقیم جنگل‏زدایی است‪ .‬اگر‬

‫همبســتگی بین جنگل‏زدایی و توسعه کشاورزی (‪ )Z‬را حساب کنیم‪،‬‬ ‫احتماال باید به نتیجه ‪ rYZ > 0‬برســیم‪ .‬در این مورد‪ ،‬تراکم جمعیت باید‬ ‫علت غیرمســتقیم و توسعه کشاورزی علت مستقیم جنگل‏زدایی باشد‪.‬‬

‫به بیان دیگر‪ ،‬می‏توانیم بگوییم که ‪( X‬فشــار جمعیت) علت ‪( Z‬توسعه‬ ‫کشــاورزی) و ‪ Z‬علت ‪Y‬‏ (جنگل‏زدایی) اســت‪ .‬این الگوی علیت با‬ ‫یافته‏های ‪ rXY > 0‬و ‪rZY > 0‬‬

‫سازگار است‪.‬‬

‫‪2- Proximate‬‬

‫‪1- Immediate‬‬

‫‪85‬‬

‫فصل ‪ :3‬همبستگی‬

‫یــا تقریبی‪ )2‬تفــاوت مهمی وجــود دارد‪ .‬به یاد بیاوریــد که در مثال‬

‫اما در مثال قیمت خانه‪ ،‬همبستگی مثبت یافت‏شده احتماال دال بر علیت‬

‫مســتقیم است‪ .‬مثال‪ ،‬داشتن خانه بزرگ‏تر (زمین زیربنای بزرگ‏تر برای‬ ‫خانه و ملحقات آن) به‏خودی‏خود‪ ،‬از نظر بیشتر افراد چیز خوبی است‪،‬‬

‫بنابراین افزایش اندازه خانه احتماال باید علت مســتقیم افزایش ارزش‬ ‫خانه باشــد‪ .‬در این مثال متغیر مداخله‏گر‪ 1‬دیگری وجود ندارد بنابراین‬ ‫می‏گوییم که علیت مستقیم است‪ .‬موضوع را می‏توان از زاویه‏ای دیگر نیز‬

‫بررسی کرد‪ :‬محله‏های مرغوب‏تر گرایش به خانه‏های با اندازه بزرگ‏تر‬ ‫دارند‪ .‬مردم حاضرند بــرای زندگی در محالت بهتر و مرغوب‏تر‪ ،‬پول‬

‫بیشــتری بپردازند‪ .‬بنابراین ممکن است که خانه‏های با اندازه بزرگ‏تر‪،‬‬

‫همچنین گرایش به قیمت‏های فروش بیشتر داشته باشند نه به این دلیل‬

‫تحلیل داده‌های اقتصادی‬

‫که مردم تمایل به داشــتن خانه‏های بزرگ‏تر دارند بلکه به این دلیل که‬ ‫‪86‬‬

‫مردم تمایل به ســکونت در محالت مرغوب دارند‪ .‬به ســخن دیگر‪،‬‬

‫عبارت «اندازه خانه» ممکن اســت به‏عنــوان جایگزین عبارت «محله‬

‫مرغــوب» عمل کند و تاثیر آن را نشــان دهد‪ .‬در مــورد جزییات این‬ ‫موضوع در فصل بعد‪ ،‬رگرسیون‪ ،‬بحث خواهیم کرد‪ .‬در این فصل تنها‬

‫الزم اســت بدانید که تفسیر همبســتگی می‏تواند کامال پیچیده باشد و‬ ‫یک الگوی همبستگی مشخص ممکن است با چندین موضوع متفاوت‬ ‫سازگار باشد‪.‬‬

‫به‏عنوان یک نتیجه کلی می‏توان گفت که هرچند ممکن است همبستگی‬

‫متضمن مفاهیم گســترده‏ای باشد‪ ،‬اما به‏تنهایی دال بر علیت نیست‪ .‬در‬ ‫مثال سیگار‪/‬ســرطان‪ ،‬وجود همبســتگی مثبت بین ســیگار کشیدن و‬ ‫سرطان ریه‪ ،‬به همراه شــواهد پزشکی دال بر وجود موادی در ترکیب‬

‫‪1- Intervening variable‬‬

‫سیگار که تغییراتی را در بدن انسان ایجاد می‏کند‪ ،‬بیشتر افراد را متقاعد‬ ‫می‏کند که سیگار علت سرطان است‪ .‬در مثال قیمت خانه‪ ،‬عقل سلیم و‬

‫فهــم عمومی‏مان به ما می‏گویند که متغیر تعداد اتاق‏های خواب به‏طور‬ ‫مستقیم بر قیمت خانه تاثیر می‏گذارد‪ .‬در علم اقتصاد‪ ،‬می‏توان از مفهوم‬

‫همبســتگی برای تایید این فهم عمومی یا ارائه یــک نظریه اقتصادی‬ ‫متقاعدکننده برای علیت استفاده کرد‪.‬‬

‫مترین ‪3-3‬‬

‫افراد دارای تحصیالت دانشــگاهی در مقایسه با افراد فاقد آن‪ ،‬گرایش به مشاغل‬

‫به افراد مهارت‏های مهمی را می‏آمــوزد که از نظر کارفرمایان ارزش زیادی دارد‪.‬‬ ‫یک توجیه دیگر این اســت که افراد باهوش گرایش به رفتن به دانشــگاه دارند و‬ ‫کارفرمایان می‏خواهند که افراد باهوش را اســتخدام کنند (یعنی مدرک دانشگاهی‬

‫به‏خودی‏خود مدنظر کارفرمایان نیســت)‪ .‬فرض کنید کــه داده‏های ‪ Y‬درآمد‪X ،‬‬

‫تعداد سال‏های تحصیل و ‪ Z‬نتیجه آزمون هوش افراد زیادی را در اختیار دارید (با‬ ‫اجتناب از این مجادله روان‏شناســانه که آیا آزمون‏های هوش واقعا به‏شکلی دقیق‬

‫نشــان‏دهنده بهره هوشی افراد هستند یا نه) و ‪ rXZ ، rXY‬و ‪ rYZ‬را محاسبه کرده‏اید‪ .‬از‬

‫دید عملی‪ ،‬انتظار دارید این همبستگی‏ها چه عالمتی داشته باشند؟ با فرض این‌که‬ ‫همبستگی‏ها عالمت‏های مورد انتظارتان را داشته باشند‪ ،‬آیا می‏توانید بگویید کدام‬ ‫یک از سناریوی مطرح‏شده در پاراگراف قبل درست است؟‬

‫درک همبستگی با استفاده از منودار ‪XY‬‬

‫مفهوم همبســتگی را می‏توان از نمودار ‪ XY‬توضیح داده‏شده در فصل ‪ 2‬نیز‬ ‫به‏طور شــهودی درک کرد‪ .‬به یاد بیاورد که در آن فصل ما بر مبنای وجود‬

‫‪87‬‬

‫فصل ‪ :3‬همبستگی‬

‫با درآمد بیشــتر دارند‪ .‬این می‏تواند به این دلیل باشــد که تحصیالت دانشگاهی‬

‫تحلیل داده‌های اقتصادی‬

‫‪88‬‬

‫شیب رو به باال یا منفی در نمودار ‪ ،XY‬روابط مثبت یا منفی را طرح کردیم‪.‬‬ ‫در فصل بعد که مربوط به رگرســیون است‪ ،‬معنای دقیق و رسمی «شیب رو‬ ‫به باال» و «شــیب رو به پاییــن» در نمودار ‪ XY‬را توضیح خواهیم داد‪ .‬برای‬ ‫تفســیر بهتر‪ ،‬به‏شکل ذهنی خط مستقیمی را از میان نقاط نمودار ‪ XY‬ترسیم‬ ‫کنیــد که بهتریــن توصیف ممکن از الگوی موجود در داده‏ها باشــد (یعنی‬ ‫بهترین خط برازش‏شــده‪ .)1‬شیب رو به باال یا پایین در این‌جا به معنی شیب‬ ‫چنین خطی است‪.‬‬ ‫حال اگر دو متغیر همبسته باشند‪ ،‬آن‏گاه در نمودار ‪ XY‬یک متغیر در مقابل‬ ‫متغیر دیگر نیز چنین الگویی وجود خواهد داشــت‪ .‬مثال‪ ،‬در نمودار ‪ XY‬تراکم‬ ‫جمعیت در مقابل جنگل‏زدایی الگویی با شــیب رو به باال وجود دارد (نمودار‬ ‫‪ 2-3‬را ببینید)‪.‬‬ ‫این نمودار نشــان می‏دهد که این دو متغیر باید به‏طور مثبت همبسته باشند‪،‬‬ ‫و ما با محاســبه ‪ r = 0 / 66‬فهمیدیم که این همبستگی واقعا وجود دارد‪ .‬نکته‬ ‫مهم این‌جا این اســت که همبســتگی مثبت با شــیب رو به باال نمودار ‪ XY‬و‬ ‫همبستگی منفی با شــیب رو به پایین نمودار ‪ XY‬همراه است‪ .‬درکی که فصل‬ ‫پیش از نمودارهای ‪ XY‬به‏دســت آوردیم را اکنون می‏توانیم برای فهم بیشــتر‬ ‫مفهوم همبستگی به‏کار بریم‪.‬‬ ‫در نمودار ‪ 3-1‬از مجموعه داده‏های قیمت خانه وینسور (‪)HPRICE.XLS‬‬ ‫برای رسم نمودار ‪XY‬ای استفاده شده است که در آن محور افقی ‪ X‬اندازه خانه‬ ‫و محور عمودی ‪ Y‬قیمت آن است‪ .‬به یاد آورید که همبستگی بین این دو متغیر‬ ‫‪ rxy = 0 / 54‬محاسبه شده بود که عددی مثبت است‪.‬‬

‫‪1- Best fitting line‬‬

‫نمودار ‪ .3-1‬نمودار ‪ XY‬قیمت در مقابل اندازه خانه‬

‫فصل ‪ :3‬همبستگی‬

‫رابطه مثبت (شــیب رو به بــاال) بین اندازه خانه و قیمــت آن را می‏توان‬ ‫به‌وضوح در نمودار ‪ 3-1‬دید‪ .‬یعنی‪ ،‬خانه‏های با اندازه کوچک‏تر (مقادیر کمتر‬ ‫محور افقی) گرایش به قیمت‏های کمتــر (مقادیر کمتر محور عمودی) دارند‪.‬‬ ‫به‏شکل معکوس‪ ،‬خانه‏های بزرگ‏تر گرایش به قیمت بیشتر دارند‪.‬‬ ‫بحث پیشــین ارتباطی مستقیم با عالمت همبستگی دارد‪ .‬اما از نمودار ‪XY‬‬ ‫می‏توان همچنین برای درک و تفسیر مفهوم اندازه یا میزان بزرگی همبستگی نیز‬ ‫استفاده کرد‪ ،‬همان‏طور که در مثال قبل نیز مشخص است‪.‬‬ ‫نمــودار ‪ 3-2‬نمودار ‪ XY‬دو متغیر را نشــان می‏دهد که همبســتگی کامل‬ ‫(یعنی ‪ ) r = 1‬دارند‪ .‬به یاد داشــته باشــید که داده‏هــای متغیرهای این نمودار‪،‬‬ ‫داده‏های اقتصادی واقعی نیســتند بلکه به‏وسیله رایانه شبیه‏سازی شده‏اند‪ .‬تمام‬ ‫نقاط دقیقا روی یک خط مستقیم قرار دارند‪.‬‬ ‫نمــودار ‪ 3-3‬فضــای ‪ XY‬دو متغیر اســت که همبســتگی مثبــت دارند‬ ‫( ‪ ،) r = 0.51‬اما همبستگی‏شان کامل نیست‪ .‬دقت کنید که نمودار ‪ XY‬همچنان‬ ‫دارای الگویی با شیب رو به باال است اما نقاط پراکنده‏تر هستند‪.‬‬

‫‪89‬‬

‫نمودار ‪ .3-2‬نمودار ‪ XY‬دو متغیر با همبستگی کامل (‪)r=1‬‬

‫تحلیل داده‌های اقتصادی‬

‫نمودار ‪ .3-3‬نمودار ‪ XY‬دو متغیر با همبستگی مثبت (‪)r= 0/51‬‬ ‫‪90‬‬

‫نمودار ‪ 3-4‬نشــان‏دهنده نمودار ‪ XY‬دو متغیر کامال ناهمبسته (‪ )r=0‬است‪.‬‬ ‫مالحظه کنید که ب ‏ه نظر می‏رسد نقاط به‏طور تصادفی در سراسر نمودار پراکنده‬ ‫هســتند‪ .‬نمودارهای ‪ XY‬متغیرهایی با همبســتگی منفی دارای الگویی با شیب‬ ‫رو به پایین هستند هرچند ممکن اســت شکل این الگوها با یکدیگر متفاوت‬ ‫باشد مثال در نمودار ‪ ،3-5‬نمودار ‪ XY‬هرچند الگویی متفاوت دارد اما همچنان‬

‫نشان‏دهنده دو متغیر با همبستگی منفی (‪ )r=-0/58‬است‪ .‬شکل‏های باال شیوه‏ای‬ ‫برای نمایش و فهم همبســتگی است‪ :‬همبستگی نشــان می‏دهد که یک خط‬ ‫مســتقیم با چه دقتی بــر نقاط یک نمودار ‪ XY‬منطبق می‏شــود‪ .‬متغیرهایی که‬ ‫همبســتگی قوی دارند کامال یا تقریبا روی یک خط مســتقیم قرار می‏گیرند‪.‬‬ ‫متغیرهایی با همبستگی ضعیف‪ ،‬در سراسر نمودار ‪ XY‬پراکنده هستند‪.‬‬

‫مترین ‪3-4‬‬

‫فایل ‪ EX34.XLS‬شامل ‪ 4‬متغیر‬

‫است‪X2 ، X1 ،Y :‬‬

‫و ‪. X3‬‬

‫(الف) همبســتگی را بین ‪ Y‬و ‪ X1‬به‏دســت آورید‪ .‬محاســبه را برای ‪ Y‬و ‪ X2‬و‬

‫همچنین برای ‪ Y‬و ‪ X3‬تکرار کنید‪.‬‬

‫(ب) نمودار ‪ XY‬برای ‪ Y‬و ‪ X1‬رســم کنید‪ .‬ایــن کار را برای ‪ Y‬و ‪X2‬‬

‫(ج) نتایج (الف) و (ب) را تفسیر کنید‪.‬‬

‫نمودار ‪ .3-4‬نمودار ‪ XY‬دو متغیر کامال ناهمبسته (‪)r=0‬‬

‫‪91‬‬

‫فصل ‪ :3‬همبستگی‬

‫تکرار کنید‪.‬‬

‫و‪Y‬و‬

‫‪X3‬‬

‫همبستگی بین چند متغیر‬

‫تحلیل داده‌های اقتصادی‬

‫‪92‬‬

‫همبستگی یک ویژگی است که دو متغیر را به هم مرتبط می‏کند‪ .‬اما اقتصاددانان‬ ‫در بیشتر موارد با چند متغیر سروکار دارند‪ .‬مثال قیمت خانه به اندازه آن‪ ،‬تعداد‬ ‫اتاق‏های خواب‪ ،‬تعداد حمام و بســیاری ویژگی‏های دیگر خانه بستگی دارد‪.‬‬ ‫همان‏گونه که در فصل آتی خواهیم دید‪ ،‬رگرسیون مناسب‏ترین ابزار قابل استفاده‬ ‫برای زمانی اســت که بیشتر از دو متغیر در تحلیل وجود داشته باشد‪ .‬با وجود‬ ‫این بین محققین نامعمول نیســت که به هنگام کار با چند متغیر‪ ،‬همبستگی را‬ ‫بین هر جفت متغیر محاسبه کنند‪ .‬اگر تعداد متغیرها زیاد باشد‪ ،‬چنین محاسباتی‬ ‫دشوار خواهد بود‪ .‬مثال اگر سه متغیر ‪ X، Y‬و ‪ Z‬داشته باشیم‪ ،‬آن‏گاه به‏طور بالقوه‬ ‫سه همبســتگی وجود دارد (یعنی ‪ rXZ ، rXY ، rXY‬و ‪ .) rYZ‬اما با اضافه شدن متغیر‬ ‫چهارم مثل ‪ ،W‬تعداد همبستگی‏های ممکن به شش افزایش می‏یابد (یعنی ‪، rXY‬‬ ‫‪ rYW ، rXW ، rXZ‬و ‪ .) rZW‬به‏طور کلی برای ‪ M‬متغیر‪ M × (M − 1) / 2 ،‬همبستگی‬ ‫وجود خواهد داشــت‪ .‬یک روش راحت برای محاسبه تمام این همبستگی‏ها‪،‬‬ ‫ساختن یک ماتریس یا تابلو است که با مثال زیر توضیح داده شده است‪.‬‬ ‫نمودار ‪ .3-5‬نمودار ‪ XY‬دو متغیر با همبستگی منفی (‪)r=-0.58‬‬

‫فایل ‪ CORMAT.XLS‬شامل داده‏های سه متغیر به نام‏های ‪ X، Y‬و ‪ Z‬است‪.‬‬ ‫‪X‬‏ در ستون اول‪ Y ،‬در ستون دوم و ‪ Z‬در ستون سوم است‪ .‬با استفاده از اکسل‬ ‫می‏توانیم ماتریس همبستگی را (جدول ‪ )3-1‬برای این سه متغیر بسازیم‪.‬‬ ‫عدد ‪ 0.318237‬همبستگی بین متغیرهای ستون اول (‪ )X‬و ستون دوم (‪)Y‬‬ ‫است‪ .‬به‏طور مشابه‪ -0/13097 ،‬همبستگی بین ‪ X‬و ‪ Z‬و ‪ 0/096996‬همبستگی‬ ‫بین ‪ Y‬و ‪ Z‬است‪ .‬به یاد داشته باشید که ‪1‬های موجود در ماتریس همبستگی به‬ ‫این معنا هستند که هر متغیر با خودش همبستگی کامل دارد‪.‬‬ ‫جدول ‪ .3-1‬ماتریس‬ ‫ستون اول‬

‫ستون اول‬

‫همبستگی ‪ X‬و ‪ Y‬و ‪Z‬‬

‫ستون دوم‬

‫ستون سوم‬

‫‪1‬‬

‫ستون سوم‬

‫‪-0/13097‬‬

‫مترین ‪3-5‬‬

‫(الف) با استفاده از داده‏های ‪ ،FOREST.XLS‬ماتریس همبستگی را برای متغیرهای‬

‫جنگل‏زدایی‪ ،‬تراکم جمعیت‪ ،‬تغییر مراتع و تغییر گندمزار محاسبه و تفسیر کنید‪.‬‬

‫(ب) بند (الف) را با اســتفاده از متغیرهای زیر موجود در فایل ‪HPRICE.XLS‬‬

‫تکرار کنید‪ :‬قیمت خانه‪ ،‬اندازه خانه‪ ،‬تعداد اتاق‏های خواب‪ ،‬تعداد حمام‏ها و تعداد‬

‫طبقات‪ .‬چند همبستگی منحصربه‏فرد محاسبه کردید؟‬

‫خالصه فصل‬

‫‪ -1‬همبستگی روشــی معمول برای اندازه‏گیری رابطه بین دو متغیر است‪.‬‬ ‫همبســتگی یک عدد اســت که می‏توان آن را با اکسل یا هر نرم‏افزار اقتصادی‬ ‫محاسبه کرد‪.‬‬ ‫‪ -2‬ســاده‏ترین تفسیر همبستگی عبارت است از یک مقدار یا اندازه عددی‬ ‫که به ارتباط یا وابستگی بین دو متغیر نسبت داده می‏شود‪.‬‬

‫‪93‬‬

‫فصل ‪ :3‬همبستگی‬

‫ستون دوم‬

‫‪0/318237‬‬

‫‪1‬‬ ‫‪0/096996‬‬

‫‪1‬‬

‫‪ -3‬همبســتگی را همچنین می‏توان به شکل نموداری با استفاده از نمودار‬ ‫‪ XY‬تفسیر کرد‪ .‬به این معنی که عالمت همبستگی بستگی دارد به شیب بهترین‬ ‫خطی که می‏توان بین نقاط نمودار ‪ XY‬رســم کرد‪ .‬مقدار یا بزرگی همبستگی‬ ‫نیز بســتگی دارد به این‌که نقاط موجود در نمودار ‪ XY‬چگونه در اطراف این‬ ‫خط پراکنده شده‏اند‪.‬‬ ‫‪ -4‬همبستگی ممکن است به دالیل مختلفی وجود داشته باشد اما این دالیل‬ ‫هرچه باشند‪ ،‬همبستگی الزاما به معنای رابطه علی بین دو متغیر نیست‪.‬‬

‫ضمیمه ‪ :3-1‬جزییات ریاضیاتی‬

‫تحلیل داده‌های اقتصادی‬

‫همبستگی بین ‪ X‬و ‪ Y‬که با ‪ r‬نشان داده می‏شود را می‏توان از رابطه زیر به‏دست‬ ‫آورد‪:‬‬

‫)‬

‫‪94‬‬

‫‪2‬‬

‫)‬

‫‪−X‬‬

‫‪−X‬‬

‫‪∑ ( Y − Y )( X‬‬ ‫‪N‬‬

‫‪i‬‬

‫‪∑ (Y − Y) ∑ (X‬‬ ‫‪N‬‬

‫‪i‬‬

‫‪i‬‬

‫‪i =1‬‬

‫‪2‬‬

‫‪N‬‬

‫=‪r‬‬

‫‪i‬‬ ‫=‪=i 1‬‬ ‫‪i 1‬‬

‫کــه در آن ‪ X‬و ‪ Y‬میانگین ‪ X‬و ‪ Y‬اســت (فصــل ‪ 2‬را ببینید)‪ .‬همچنین‬ ‫اگــر صورت و مخرج رابطه باال را بر ‪ N-1‬تقســیم کنیم‪ ،‬آن‏گاه مخرج تبدیل‬ ‫به انحراف معیار ‪ X‬و ‪ Y‬و صورت تبدیل به کوواریانس بین ‪ X‬و ‪ Y‬می‏شــود‪.‬‬ ‫کوواریانس مفهومی اســت که آن را توضیح نداده‏ایم اما ممکن است شما در‬ ‫آینده با آن مواجه شــوید‪ ،‬به‏خصوص اگر متمایل به کســب درکی عمیق‏تر از‬ ‫نظریه آماری پس مفهوم همبستگی باشید‪.‬‬

‫فصل ‪4‬‬ ‫معرفی رگرسیون ساده‬

‫‪95‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫رگرسیون مهم‏ترین ابزاری است که اقتصاددانان کاربردی برای درک رابطه‬ ‫میان دو یا چند متغیر از آن استفاده می‏کنند‪ .‬به‏خصوص زمانی که تعداد متغیرها‬ ‫زیاد (به‌عنوان مثال‪ ،‬بیکاری و نرخ‏های بهره‪ ،‬عرضه پول‪ ،‬نرخ‏های ارز‪ ،‬تورم و‬ ‫نظایر این‏ها) یا اثرات متقابل بین آن‏ها پیچیده باشد‪.‬‬ ‫به‏عنوان مثال‪ ،‬در تابســتان ‪ ،1998‬تنظیم نرخ‏های بهره در سطح مناسب در‬ ‫کانون توجه رســانه‏های انگلســتان قرار گرفت‪ .‬به‏طور خاص‪ ،‬بخش تولید از‬ ‫نرخ‏های بهره باال ناراضی بود و اعتقاد داشت که نرخ‏های بهره باال‪ ،‬باعث ترغیب‬ ‫خارجیان به سرمایه‏‏گذاری پول‏شان در انگلستان می‏شود و این‪ ،‬ارزش پوند را‬ ‫افزایــش می‏دهد‪ .‬پوند گران‏تر صادرات محصول را برای بنگاه‏های انگلیســی‬ ‫دشــوار می‏کند و باعث کاهش فروش‪ ،‬افزایش اخراج کارگران و افزایش نرخ‬ ‫بیکاری می‏شود‪.‬‬ ‫اما این تنها بخشــی از داستان اســت‪ .‬برخی دیگر عقیده داشتند که نرخ‏های‬ ‫بهره بسیار پایین است و بر مبنای رابطه نرخ بهره و تورم بحث می‏کردند که برای‬ ‫سرکوب فشارهای تورمی نرخ‏های بهره باالتر مورد نیاز است‪ .‬پس پای یک سوال‬ ‫مهم اقتصادی (یعنی تعیین نرخ بهره) در میان بود و برای رسیدن به پاسخ مناسب‬ ‫می‏بایست تعداد بسیار زیادی متغیر ‪-‬نرخ‏های بهره‪ ،‬نرخ‏های ارز‪ ،‬تورم‪ ،‬مقدار تولید‪،‬‬

‫تحلیل داده‌های اقتصادی‬

‫صادرات‪ ،‬بیکاری‪ -‬در نظر گرفته شود‪ .‬تمام این متغیرها (و متغیرهای دیگر) در این‬ ‫بحث که نرخ بهره مناسب چقدر باید باشد دخیل بودند‪.‬‬ ‫به‏عنــوان مثال دوم‪ ،‬موضوع تالش برای توضیح قیمت مســکن را در نظر‬ ‫بگیرید‪ .‬قیمت مســکن به عوامل متعددی بســتگی دارد (مثال تعداد اتاق‏های‬ ‫خواب‪ ،‬تعداد حمام‏ها‪ ،‬موقعیت مسکن‪ ،‬متراژ آن و نظایر این‏ها)‪ .‬مانند مثال باال‪،‬‬ ‫برای ساختن مدلی برای توضیح این‌که چرا برخی خانه‏ها از بقیه گران‏تر هستند‪،‬‬ ‫متغیرهای زیادی باید در نظر گرفته شوند‪.‬‬ ‫این دو مثال‪ ،‬مثال‏های خارق‏العاده‏ای نیســتند‪ .‬بیشــتر مسائل در اقتصاد در‬ ‫همین ســطح از پیچیدگی قرار دارند‪ .‬متاسفانه‪ ،‬ابزار اصلی که پیشتر با آن آشنا‬ ‫شدیم ‪-‬تحلیل همبستگی ساده‪ -‬برای چنین سطحی از پیچیدگی مناسب نیست‪.‬‬ ‫برای این مسائل دشــوار ‪-‬یعنی مسائلی که شامل بیش از دو متغیر هستند‪ -‬از‬ ‫ابزار رگرسیون استفاده می‏شود‪.‬‬ ‫‪96‬‬

‫رگرسیون به‌عنوان بهرتین خط برازش شده‬

‫برای توضیح رگرســیون‪ ،‬بگذارید با دو متغیر شروع کنیم (‪ Y‬و ‪ .)X‬موضوع را‬ ‫با رگرســیون ساده شروع می‏کنیم‪ .‬رگرسیون چندگانه‪ ،‬شامل چندین متغیر‪ ،‬در‬ ‫فصل ‪ 6‬بررسی خواهد شد‪ .‬شروع کردن با رگرسیون ساده از این جهت مناسب‬ ‫است که می‏توان با استفاده از نمودار‪ ،‬درکی مستقیم و شهودی به‏دست آورد و‬ ‫ارتباط بین رگرسیون و همبستگی را به‏آسانی نشان داد‪.‬‬ ‫اجازه بدهید به نمودار ‪XY‬ای که پیشــتر داشتیم برگردیم (مثال نمودار ‪2-3‬‬ ‫که تراکم جمعیت را در مقابل جنگل‏زدایی رســم می‏کرد یا نمودار ‪ 3-1‬که در‬ ‫آن اندازه خانه در مقابل قیمت آن ترســیم شــده بود)‪ .‬در فصل ‪ 2‬و ‪ 3‬توضیح‬ ‫دادیم که بررســی این نمودارهای ‪ XY‬چگونه می‏تواند موضوعات مهمی را در‬ ‫مورد رابطه بین ‪ X‬و ‪ Y‬آشــکار کند‪ .‬به‏طور خاص‪ ،‬خط مستقیمی که بین نقاط‬ ‫نمودار ‪ XY‬ترسیم شد خالصه‏ای آسان و سرراست از ارتباط بین ‪ X‬و‪ Y‬را نشان‬ ‫می‏دهد‪ .‬در تحلیل رگرسیون‪ ،‬این ارتباط را به‏شکلی رسمی‏تر تحلیل می‏کنیم‪.‬‬

‫برای آغاز‪ ،‬فرض می‏کنیم که رابطه‏ای خطی بین ‪ Y‬و ‪X‬‏ وجود دارد‪ .‬به‏عنوان‬ ‫‪ Y‬را قیمت مســکن (خانه) و ‪ X‬را انــدازه آن فرض کنید که‬ ‫مثــال‪ ،‬می‏توانید ‏‬ ‫داده‏های آن در فایل ‪ HPRICE.XLS‬وجود دارد‪ .‬این فایل شامل قیمت فروش‬ ‫به همراه چند ویژگی دیگر‪ ،‬برای ‪ 546‬خانه در وینســور کانادا اســت‪ .‬منطقی‬ ‫است اگر فرض کنیم که اندازه خانه بر قیمت فروش آن تاثیر می‏گذارد‪ .‬ارتباط‬ ‫‪ X‬را می‏توان به‏شکل رابطه ریاضی زیر نشان داد‪:‬‬ ‫خطی بین ‪ Y‬و ‏‬ ‫‪Y = α + βX‬‬

‫‪97‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫می‏دانیم که در بسیاری مواقع عالمت ضرب را برای سادگی حذف می‏کنیم‪.‬‬ ‫مثال به‏جای این‌که بنویسیم ) ‪ Y = α + ( β × X‬فقط می‏نویسیم ‪Y = α + βX‬‬ ‫که ‪ α‬جزء یا مقدار ثابت (عرض از مبدا) خط و ‪ β‬شیب آن است‪ .‬این معادله‬ ‫را خط رگرســیون می‏نامند‪ .‬اگر مقدار ‪ α‬و ‪ β‬معلوم می‏بود‪ ،‬آن‏گاه می‏دانستیم‬ ‫کــه دقیقا چه رابطه‏ای بین ‪ α‬و ‪ β‬وجود دارد‪ .‬در عمل البته ما این اطالعات را‬ ‫نداریم‪ .‬به‏عالوه‪ ،‬حتی اگر مدل رگرســیون ما که ارتباطی خطی بین ‪ Y‬و ‪ X‬را‬ ‫فرض می‏کند درســت می‏بود‪ ،‬نقاط مشاهدات یا داده‏ها در جهان واقعی هرگز‬ ‫روی یک خط مستقیم قرار نمی‏گرفت‪ .‬عواملی مانند خطای اندازه‏گیری باعث‬ ‫می‏شــوند تا تک‏تک نقاط یا داده‏ها دقیقا روی یک خط مســتقیم قرار نگیرند‬ ‫هرچند ممکن است نزدیک به آن باشند‪.‬‬ ‫مثــا فرض کنید قیمت فروش خانه (‪ )Y‬بــه اندازه یا زیربنای خانه (‪ )X‬با‬ ‫رابطه ‪ Y=34000+7X‬بستگی داشته باشد (یعنی ‪ α =34000‬و ‪ β =7‬است)‪.‬‬ ‫اگر ‪ X‬برابر ‪ 5000‬فوت مربع (حدود ‪ 465‬متر مربع) باشد‪ ،‬مدل به ما می‏گوید که‬ ‫=باشد‪ .‬اما البته‬ ‫‪Y 34000 + 7 × 5000‬‬ ‫قیمت فروش خانه باید ‪= $ 69000‬‬ ‫هر خانه‏ای با زیربنای ‪ 5000‬فوت مربع قیمت فروشی دقیقا برابر ‪ 69000‬دالر‬ ‫نخواهد داشت‪ .‬بدون شک مدل رگرسیون ما برخی متغیرهای مهم (مثل تعداد‬ ‫اتاق‏های خواب) که ممکن اســت بر قیمت خانه موثر باشند را نادیده می‏گیرد‪.‬‬ ‫به‏عالوه‪ ،‬قیمت برخی خانه‏های فروخته‏شده ممکن است از ارزش واقعی آن‏ها‬ ‫بیشتر باشد (مثال اگر خانه توسط خریداری پولدار با رفتار غیرعقالیی خریداری‬

‫تحلیل داده‌های اقتصادی‬

‫‪98‬‬

‫شــده باشــد)‪ .‬در مقابل نیز برخی خانه‏ها هســتند که به قیمتی کمتر از ارزش‬ ‫واقعی‏شان به فروش رفته‏اند (مثال به این دلیل که فروشنده باید به‏سرعت محل‬ ‫زندگی خود را تغییر دهد و در نتیجه نیاز فوری به پول حاصل از فروش خانه‬ ‫خــود دارد)‪ .‬بنا به همه این دالیل‪ ،‬حتی اگــر معادله ‪ Y=34000+7X‬توصیفی‬ ‫دقیق از خط مستقیم مبین رابطه بین ‪ Y‬و ‪ X‬باشد‪ ،‬باز هم به این معنا نیست که‬ ‫هر نقطه از داده‏ها ‪-‬یا مشاهدات‪ -‬دقیقا روی این خط قرار می‏گیرد‪.‬‬ ‫مثال قیمت خانه حقیقتی را در مورد مدل‏سازی رگرسیون نشان می‏دهد‪ :‬در‬ ‫تمام موارد‪ ،‬مدل رگرســیون خطی فقط تخمینی از رابطه واقعی است‪ .‬تخمین‬ ‫حاصل از مدل رگرســیون خطی به دالیل مختلفی ممکن است با رابطه واقعی‬ ‫تفاوت داشته باشد‪ .‬در علم اقتصاد‪ ،‬بیشتر خطاها به‏‏دلیل متغیرهای مفقود است؛‬ ‫متغیرهایی که معموال قادر به مشــاهده آن‏ها نیســتیم‪ .‬در مثال پیشــین‪ ،‬قیمت‬ ‫خانــه به برخی عوامل واکنش نشــان می‏دهد که قادر به جمــع‏آوری داده در‬ ‫موردشان هستیم (مثل تعداد اتاق‏های خواب‪ ،‬تعداد حمام‏ها و غیره)‪ .‬اما قیمت‬ ‫خانه به عوامل دیگری نیز وابســته اســت که جمع‏آوری داده برای‏شان اگر نه‬ ‫غیرممکن‪ ،‬بســیار دشوار اســت (مثال تعداد مهمانی‏های پر سر و صدایی که‬ ‫توسط همســایگان برگزار می‏شود‪ ،‬میزان دقت صاحبان پیشین در مورد حفظ‪،‬‬ ‫نگهداری و تعمیرات خانه‪ ،‬کیفیت دکوراسیون داخلی خانه و غیره)‪ .‬حذف این‬ ‫متغیرها از مدل رگرسیون به این معنا خواهد بود که مدل با خطا همراه است‪.‬‬ ‫چنین خطاها یا جزءخطایی‪ 1‬را ‪ e‬می‏نامیم‪ .‬پس اکنون می‏توان مدل رگرسیون‬ ‫را به‏صورت زیر نوشت‪:‬‬ ‫‪Y = α + βX + e‬‬

‫در مــدل رگرســیون‪ Y ،‬را متغیر وابســته‪ X ،‬را متغیر توضیحی و ‪ α‬و ‪β‬‬

‫را ضرایب می‏نامند‪ .‬عموما به‏شــکل ضمنی فرض می‏شود که متغیر توضیحی‬ ‫«علت» ‪ Y‬اســت و ضریب ‪ β‬میزان تاثیــر ‪ X‬بر‪ Y‬را اندازه می‏گیرد‪ .‬با توجه به‬ ‫‪1- Errors‬‬

‫‪1- association‬‬

‫‪99‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫مطالــب فصل گذشــته در مورد این‌که چرا همبســتگی الزاما به‏معنای علیت‬ ‫نیست‪ ،‬ممکن است این سوال برای‏تان پیش آمده باشد که چگونه فرض شده‬ ‫اســت که متغیر توضیحی علت متغیر وابسته است‪ .‬به این سوال به سه شکل‬ ‫می‏توان پاسخ داد‪ .‬اول این‌که به یاد داشته باشید که ما در مورد مدل‏ رگرسیون‬ ‫صحبت کردیم‪ .‬یک مدل‪ ،‬مشــخص می‏کند کــه چگونه متغیرهای مختلف بر‬ ‫یکدیگر اثر می‏گذارند‪ .‬مثال مدل اســتفاده از زمین (در فصل ‪ )2‬فرض می‏کند‬ ‫که فشــار جمعیت باعث می‏شــود که کشاورزان روســتایی مزارع خود را با‬ ‫قطع کردن درختان گسترش دهند‪ ،‬بنابراین باعث جنگل‏زدایی می‏شوند‪ .‬چنین‬ ‫مدل‏هایــی علیت را به‏صورت پیش‏فرض درون خود دارند و هدف از برآورد‬ ‫مدل رگرسیون با متغیر جنگل‏زدایی=‪ Y‬و تراکم جمعیت=‪ X‬فقط این است که‬ ‫میزان بزرگی تاثیر فشــار جمعیت را انــدازه بگیرد (یعنی فرض علیت ممکن‬ ‫اســت منطقی باشــد و فرض گرفتن آن مهم نیســت)‪ .‬دوم این‌که‪ ،‬می‏توانیم‬ ‫رگرســیون را صرفا به‏عنوان یک تکنیک برای تعمیم همبستگی در نظر بگیریم‬ ‫و از آن برای تفســیر اعدادی که مدل رگرسیونی تنها به‏منظور منعکس کردن‬ ‫ارتباط بین متغیرها تولید می‏کند اســتفاده کنیــم‪ .‬به عبارت دیگر‪ ،‬در صورت‬ ‫نیاز می‏توانیم از فرض علیت صرف‏نظر کنیم‪ .‬ســوم این که می‏توان اذعان کرد‬ ‫که فرض تلویحی علیت ممکن اســت مشکل‏زا باشــد و روش‏های جدیدی‬ ‫را توســعه دهیم‪ .‬در فصل آخر این کتاب این موضوع به‏طور خالصه تشریح‬ ‫خواهد شــد اما افزودن توضیحی کوتاه در این بخش هم احتماال مفید است‪.‬‬ ‫بعضی کتاب‏های آماری بین همبســتگی و رگرسیون تفاوت قائل می‏شوند و‬ ‫بحث می‏کنند که همبســتگی را باید به‏عنوان معیار وابســتگی‪ 1‬بین دو متغیر‬ ‫تفســیر کرد نه معیار علیت‪ .‬در مقابل‪ ،‬تفسیر رگرســیون باید بر مبنای علیت‬ ‫و به‏شــکل چنین گزاره‏ای باشــد‪« :‬نظریه اقتصادی به ما می‏گوید که ‪ X‬علت‬ ‫‪ Y‬است»‪ .‬البته قائل شــدن به وجود این تفاوت باعث ساده شدن تفسیر نتایج‬

‫تحلیل داده‌های اقتصادی‬

‫‪100‬‬

‫تجربی می‏شود‪ .‬گذشــته از این بحث‏ها‪ ،‬ساده‏تر این است که فکر کنیم متغیر‬ ‫وابســته ‪-‬که به‏تنهایی در یک ســمت معادله رگرســیون قرار دارد‪« -‬معلول»‬ ‫متغیرهای توضیحی اســت که در سمت دیگر معادله رگرسیون قرار دارند‪ .‬اما‬ ‫می‏توان این‏گونه هم بحث کرد که این تفاوت در تفســیر در واقع ســاختگی‬ ‫است‪ .‬همان‏طور که در فصل ‪ 3‬دیدیم‪ ،‬بسیاری موارد وجود دارد که همبستگی‬ ‫در وافع نشان‏دهنده علیت اســت‪ .‬عالوه بر این‪ ،‬در فصل‏های آتی با مواردی‬ ‫مواجه می‏شویم که رگرســیون بر مبنای علیت است‪ ،‬مواردی که بر مبنای آن‬ ‫نیست و همچنین مواردی که مطمئن نیستیم که هست یا نیست‪ .‬پیام کلی این‬ ‫بحث این است که برای تفســیر نتایج رگرسیون به‏عنوان یک رابطه علی باید‬ ‫احتیاط کرد‪ .‬همین نتیجه در مورد همبســتگی هم وجود دارد‪ .‬بهترین راهکار‬ ‫برای تفسیر نتایج این دو‪ ،‬تکیه بر عقل سلیم و نظریه اقتصادی است‪.‬‬ ‫بــا توجه به‏جزءخطا یا ‏‪ e‬و این موضوع که مقــدار ‪ α‬و ‪ β‬را نمی‏دانیم‪،‬‬ ‫مشکل اول در تحلیل رگرسیون این است که مقدار ‪ α‬و ‪ β‬را به‏طور تقریبی‬ ‫∧‬ ‫∧‬ ‫تعیین یا برآورد کنیم‪ .‬به‏شــکل اســتاندارد تخمین ‪ α‬و ‪ β‬را با ‪ α‬و ‪ β‬نشان‬ ‫∧‬ ‫∧‬ ‫می‏دهند (یعنی ‪ α‬و ‪ β‬اعداد واقعی هســتند که رایانه محاســبه می‏کند مثال‬ ‫∧‬ ‫‪ α =34136‬و ‪ β =6 / 599‬کــه تخمین‏هایــی از مقادیر واقعــی غیرقابل‬ ‫مشــاهده ‪ α =34000‬و ‪ β =7‬هستند)‪ .‬در عمل‪ ،‬روش یافتن این تخمین‏ها‪،‬‬ ‫ترســیم خطی از میان نقاط روی نمودار ‪ XY‬است که بهترین برازش را داشته‬ ‫باشد‪ .‬بنابراین باید معنی عبارت «بهترین خط برازش‏شده»‪ 1‬را تعریف کنیم‪.‬‬ ‫پیش از انجام این کار‪ ،‬الزم اســت که بیــن دو عبارت خطاها یا جزءخطا‬ ‫و پســماند‪ 2‬تفاوت قائل شــویم‪ .‬جزءخطا به‏عنوان فاصله بین هر مشاهده یا‬ ‫داده (هر نقطه در نمودار ‪ )XY‬و خط رگرســیون واقعی تعریف می‏شــود‪ .‬از‬ ‫لحاظ ریاضی‪ ،‬می‏توان با بازنویسی مدل رگرسیونی مقدار جزءخطا را با رابطه‬ ‫‪Yi − α − βXi‬‬ ‫=‪ e‬نشــان داد‪ .‬این رابطه مقدار جزءخطا را برای مشــاهده‪i‬‬ ‫‪i‬‬ ‫‪2- Residuals‬‬

‫‪1- Best fitting line‬‬

‫∧‬

‫‪101‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫ام نشــان می‏دهد‪ .‬اگر به‏جای مقادیــر ‪ α‬و ‪ ، β‬تخمین‏های آن‏ها یعنی ‪ α‬و‬ ‫∧‬ ‫‪ β‬را جایگذاری کنیم یک خط مســتقیم به‏دســت می‏آید که در مجموع فقط‬ ‫اندکی متفاوت از خط رگرســیون واقعی است‪ .‬انحراف از این خط رگرسیون‬ ‫برآورد‏شده را پسماند یا جزءپسماند می‏نامند‪ .‬برای اشاره کردن به‏جزءپسماند‬ ‫∧‬ ‫∧‬ ‫از ‪ u‬استفاده می‏کنیم‪ .‬بنابراین جزءپسماند عبارت است از ‪u=i Yi − α − β Xi‬‬ ‫‪ .‬اگر درک تفاوت بین اجزای خطا و پســماند برای‏تان ســخت است‪ ،‬احتماال‬ ‫اشکالی نخواهد داشــت که در ادامه کتاب از تفاوت بین این دو صرف‏نظر و‬ ‫فرض کنید که اجزای خطا و پسماند یک چیز هستند‪ .‬اما اگر قصد دارید که به‬ ‫مطالعه اقتصادسنجی ادامه دهید‪ ،‬درک تمایز این دو حیاتی است‪.‬‬ ‫مطابق اصول اولیه هندســه‪ ،‬یک و فقط یک خط می‏توان رسم کرد که دو‬ ‫نقطه مجزا را به هم متصل کند‪ .‬بنابراین اگر دو نقطه داشته باشیم‪ ،‬معنی بهترین‬ ‫خط برازش‏شــده در نمودار ‪ XY‬واضح است‪ .‬اما معموال با تعداد زیادی نقطه‬ ‫مواجه هســتیم ‪-‬مثال در مثال جنگل‏زدایی‪/‬تراکم جمعیت ‪ 70‬کشــور مختلف‬ ‫و در نتیجــه ‪ 70‬نقطه مجزا در نمــودار ‪ XY‬وجود دارد‪ -‬و معنی «بهترین خط‬ ‫برازش‏شده» با ابهام همراه است‪ .‬نمودار ‪ XY‬شکل ‪ 4-1‬دارای ‪ 3‬نقطه مشاهده‬ ‫(‪ C‬و ‪ )A.B‬است‪ .‬واضح است که هیچ خط مستقیمی که از هر ‪ 3‬نقطه بگذرد‬ ‫وجود ندارد‪ .‬خط رسم‏شــده از هیچ‏یک از این ‪ 3‬نقطه عبور نمی‏کند؛ هر نقطه‬ ‫اندکی از خط فاصله دارد‪.‬‬ ‫به‏عبارت دیگر‪ ،‬خط کشیده‏شــده نشان می‏دهد که اجزای پسماند ‪u2 ، u1‬‬ ‫و ‪ u3‬هســتند‪ .‬هر جزءپسماند عبارت اســت از فاصله عمودی بین هر نقطه‬ ‫مشــاهده و خط رگرسیون‪ .‬یک خط رگرســیون که خوب برازش‏شده باشد‬ ‫اجزای پسماند کوچکی دارد‪.‬‬

‫نمودار ‪ .4-1‬بهترین خط برازش برای سه مشاهده‬

‫تحلیل داده‌های اقتصادی‬

‫روش معمول اندازه‏گیری مقدار پســماندها‪ ،‬مجموع مربعات پســماندها‬ ‫(‪ )SSR‬است که با رابطه زیر تصریح می‏شود‪:‬‬

‫‪1‬‬

‫‪102‬‬

‫‪N‬‬

‫‪SSR = ∑ui2‬‬ ‫‪i =1‬‬

‫که ‪ =i 1 .….N‬تعداد مشاهدات (نقاط) اســت‪ .‬ما در پی یافتن بهترین خط‬ ‫برازش هستیم که مجموع مربعات پسماندها را حداقل کند‪ .‬به این منظور‪ ،‬برآوردی‬ ‫که به این روش انجام می‏شود را برآورد حداقل مربعات‪ 2‬می‏نامند‪ .‬برای تشخیص‬ ‫تفاوت بین این برآوردگر با سایر برآوردگرهای پیچیده‏تری که تا فصل آخر کتاب در‬ ‫مورد آن بحث نمی‏کنیم‪ ،‬این روش را حداقل مربعات معمولی‪ 3‬یا ‪ OLS‬نیز می‏نامند‪.‬‬ ‫در عمل‪ ،‬بسته‏های نرم‏افزاری مانند اکسل می‏توانند به‏طور خودکار مقادیری برای‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫‪∧ α‬و ‪ β‬بیابند که مجموع مربعات پسماندها را حداقل کند‪ .‬فرمول دقیق محاسبه ‪α‬‬ ‫و ‪ β‬را می‏توان با محاســبه‏ای ساده به‏دست آورد اما ما این فرمول را در این بخش‬ ‫نمی‏آوریم (برای جزییات بیشتر ضمیمه ‪ 4-1‬را مالحظه کنید)‪.‬‬ ‫‪3- Ordinary‬‬

‫‪2- Least squares‬‬

‫‪1- Sum of squared residuals‬‬

‫مثال ‪ 4-1‬الف‪ :‬رگرسیون جنگل‏زدایی بر روی تراکم جمعیت‬

‫مجددا مجموعه داده ‪ FOREST.XLS‬را به‏خاطر بیاورید که شــامل‬ ‫داده‏های تراکم جمعیت و جنگل‏زدایی برای ‪ 70‬کشور گرمسیری است‪.‬‬

‫منطقی اســت اگر فرض کنیم که تراکم جمعیت بیشتر بر جنگل‏زدایی‬ ‫تاثیــر دارد تا جنگل‏زدایی بر تراکم جمعیت‪ .‬پــس متغیر جنگل‏زدایی‬

‫را متغیر وابســته (یعنی جنگل‌زدایــی= ‪ ) Y‬و تراکم جمعیت را متغیر‬

‫توضیحــی (یعنی تراکم جمعیــت =‪ )X‬فرض می‏کنیم‪ .‬با اســتفاده از‬

‫اکسل (مســیر ‪ )Tools/Data Analysis/Regression‬مقدار ضرایب‬ ‫∧‬

‫∧‬

‫رگرسیون معمول است که بگوییم «‪ Y‬را بر ‪ X‬رگرس کردیم»‪.‬‬

‫در نظر داشته باشید که محاسبه این اعداد در بیشتر بسته‏های نرم‏افزاری‬

‫واقعا ساده است؛ به‌همین دلیل به موضوعی مهم‏تر می‏پردازیم‪ :‬چگونه‬ ‫باید این اعداد را تفسیر کرد‪.‬‬

‫مثال ‪ 4-2‬الف‪ :‬هزینه تولید در صنعت برق‬

‫فایــل ‪ ELECTRIC.XLS‬شــامل داده‏های هزینه تولیــد (به میلیون‬

‫دالر) برای ‪ 123‬شــرکت تولیدی صنعت برق آمریکا در ســال ‪1970‬‬

‫اســت‪ .‬هدف اصلــی درک عوامل موثــر بر هزینه‏هاســت‪ .‬از این‏رو‪،‬‬

‫هزینه تولید=‪ Y‬متغیر وابسته است‪ .‬هزینه‏هایی که یک شرکت فعال در‬ ‫صنعت برق متحمل می‏شود به‏شکل بالقوه می‏تواند از عوامل گوناگونی‬ ‫تاثیر بپذیرد‪ .‬یکی از مهم‏ترین این عوامل بدون شــک‪ ،‬مقدار تولید (بر‬

‫‪103‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫‪ α =0 / 6‬و ‪ β = 0 / 000842‬به‏دســت می‏آید‪ .‬برای آشــنایی بیشتر‬ ‫شــما با اصطالحات پرکاربرد بهتر اســت بدانید که هنگام برآورد خط‬

‫حسب هزار کیلووات ساعت برق تولیدشــده) شرکت است‪ .‬می‏توان‬

‫انتظار داشــت شــرکت‏هایی که برق بیشــتری تولید می‏کنند‪ ،‬متحمل‬

‫هزینه‏های بیشتری نیز بشوند (زیرا برای تولید برق بیشتر باید سوخت‬

‫بیشتری بخرند)‪ .‬بنابراین تولید =‪ X‬یک متغیر توضیحی قابل قبول است‪.‬‬ ‫∧‬

‫∧‬

‫اگــر هزینه‏ها را روی تولیــد رگرس کنیم‪ α =2 / 19 ،‬و ‪β = 0 / 005‬‬

‫به‏دست می‏آوریم‪.‬‬

‫مثال ‪ 4-3‬الف‪ :‬تاثیر تبلیغات بر فروش‬ ‫تحلیل داده‌های اقتصادی‬

‫فایل ‪ ADVERT.XLS‬شامل داده‏های ساالنه فروش و مخارج تبلیغات‬

‫(هر دو بر حسب میلیون دالر) ‪ 84‬شرکت آمریکایی است‪ .‬ممکن است‬ ‫‪104‬‬

‫مدیر شــرکتی عالقه‏مند به کمی کردن تاثیر تبلیغات بر فروش باشــد‪.‬‬

‫چنین کاری با برآورد یک مدل رگرسیونی با متغیر وابسته فروش =‪ Y‬و‬ ‫متغیر توضیحی مخارج تبلیغات =‪ X‬انجام می‏شود‪ .‬پس از رگرس کردن‪،‬‬ ‫∧‬

‫∧‬

‫مقادیر ‪ α =502 / 02‬و ‪ β = 0 / 218‬به‏دســت می‏آید که نشــان‏دهنده‬ ‫رابطه مثبت بین تبلیغات و فروش است‪.‬‬

‫تفسیر برآوردهای ‪OLS‬‬

‫در مثــال رابطه بین جنگل‏زدایی و تراکم جمعیت‪ ،‬برآوردهــای ‪ OLS‬را در مورد‬ ‫جزء ثابت (عرض از مبدا) و شــیب خط رگرسیون به‏دســت آوردیم‪ .‬سوالی که‬ ‫اکنون به‏وجود می‏آید این اســت‪ :‬چگونه باید این برآوردها را تفســیر کنیم؟ برای‬ ‫جزء ثابت (عرض از مبدا) مدل رگرسیون یعنی ‪ ، α‬معموال تفسیر اقتصادی چندانی‬ ‫ارائه نمی‏شــود پس این‌جا در مورد آن بحث نمی‏کنیم‪ .‬اما ‪ β‬معموال بســیار مهم‬ ‫اســت‪ .‬این ضریب شیب بهترین خط مستقیم برازش‏شــد‏ه در نمودار ‪ XY‬است‪.‬‬

‫∧‬

‫در مثــال جنگل‏زدایی‪/‬تراکم جمعیت‪ β ،‬مثبت بود‪ .‬با به یاد آوردن بحث در مورد‬ ‫∧‬ ‫چگونگی تفسیر همبستگی در فصل قبل‪ ،‬می‏دانیم که چون ‪ β‬مثبت است پس ‪ X‬و‬ ‫∧‬ ‫‪Y‬‏ همبستگی مثبت دارند‪ .‬با مشتق گرفتن از مدل رگرسیون می‏توانیم ‪ β‬را بیشتر هم‬ ‫تفسیر کنیم‪ .‬رابطه مشتق عبارت است از‪:‬‬ ‫‪dY‬‬ ‫‪= β‬‬ ‫‪dX‬‬

‫‪1- Marginal effect‬‬

‫‪105‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫حتی اگر مشــتق گرفتن بلد نباشید‪ ،‬درک شهودی رابطه باال دشوار نیست‪.‬‬ ‫این مشــتق به ما می‏گوید که اگر ‪ X‬مقدار اندکی (نهایی‪ ،‬حاشیه‏ای یا مارژینال)‬ ‫‪ Y‬چقدر تغییر می‏کند‪ .‬بنابرایــن ‪ β‬می‏تواند به‏عنوان تاثیر نهایی‪X 1‬‬ ‫تغییــر کند‪ ،‬‏‬ ‫بر ‪ Y‬تفسیر شــود و مقیاسی اســت برای اندازه‏گیری مقدار تاثیر ‪ X‬بر ‪ .Y‬اگر‬ ‫بخواهیــم دقیق‏تر صحبت کنیم می‏توانیم ‪ β‬را به‏عنوان مقیاس میزان گرایش ‪Y‬‬ ‫بــه تغییر در نظر بگیریم زمانی که ‪X‬‏ یــک واحد تغییر می‏کند‪ .‬تعریف «واحد»‬ ‫در جمله پیشــین بســتگی به داده‏های مورد بررســی دارد و بهتر است با مثال‬ ‫بیان شــود‪ .‬مثال هر مقدار دلخواهی را برای ‪ β ، α‬و ‪ X‬انتخاب کنید سپس با‬ ‫‪ Y‬را به‏دست آورید (این‬ ‫جای‏گذاری این مقادیر در رابطه ‪ Y = α + βX‬مقدار ‏‬ ‫‪ X‬را یــک واحد افزایش دهید و ‪ α‬و ‪ β‬را‬ ‫مقــدار را « ‪Y‬‏واقعی» بنامید)‪ .‬حاال ‏‬ ‫تغییر ندهید و ‪Y‬‏ جدید را حســاب کنید‪ .‬مهم نیست که مقادیر دلخواه اولیه ‪α‬‬ ‫‪ β ،‬و ‪ X‬چقدر بوده‏اند؛ ‪ Y‬جدید منهای ‪Y‬‏ واقعی دقیقا برابر ‪ β‬است‪ .‬به‏عبارت‬ ‫دیگر‪ β ،‬مقیاس تاثیر بر ‪Y‬‏در اثر افزایش ‪X‬‏ به اندازه یک واحد است‪.‬مجددا تاکید‬ ‫می‏کنیم که رگرسیون در واقع گرایش موجود در داده‏ها را اندازه می‏گیرد (به استفاده‬ ‫از واژه «گرایــش» در توضیح ‪ β‬در چنــد جمله قبل دقت کنید)‪ .‬به عبارت دیگر‬ ‫الزامی نیست که هر مشاهده (کشور یا خانه) با الگوی کلی بنا شده بر مبنای ‪-‬تمام‪-‬‬ ‫سایر مشاهدات بخواند‪ .‬چنین مشاهدات نامعمولی را در فصل ‪ 2‬مشاهدات پرت‬ ‫نامیدیم و بحث کردیم که در برخی موارد بررسی این مشاهدات پرت می‏تواند بسیار‬

‫آموزنده باشد‪ .‬در مدل رگرسیون‪ ،‬مشاهدات پرت آن‏هایی هستند که جزءپسماندشان‬ ‫به‏طور غیرمنتظره‏ای بزرگ است‪ .‬بنابراین بررسی پسماندهای مدل رگرسیون امری‬ ‫معمول است‪( .‬در منوی رگرسیون اکسل می‏توان با کلیک کردن گزینه ‪Residuals‬‬ ‫پسماندها را بررسی کرد‪).‬‬

‫مثال ‪ 4-1‬ب‪ :‬رگرسیون جنگل‏زدایی بر روی تراکم جمعیت‬ ‫در مثال جنگل‏زدایی‪/‬تراکم‬

‫∧‬

‫جمعیت ‪β = 0 / 000842‬‬

‫به‏دســت آمد‪ .‬این‬

‫معیاری است برای اندازه‏گیری میزان گرایش به تغییر جنگل‏زدایی زمانی‬ ‫که تراکم جمعیت مقدار اندکــی تغییر می‏کند‪ .‬چون تراکم جمعیت بر‬

‫تحلیل داده‌های اقتصادی‬

‫حســب تعداد افراد به ازای هر ‪ 1000‬هکتار و جنگل‏زدایی بر حسب‬

‫درصد ساالنه کاهش وسعت جنگل اندازه‏گیری می‏شود‪ ،‬رقم‬

‫‪106‬‬

‫‪β‬‬

‫به این‬

‫معناست که اگر یک نفر به هر ‪ 1000‬هکتار اضافه کنیم (یعنی یک واحد‬

‫تغییر در متغیر توضیحی) متغیر جنگل‏زدایی گرایش دارد که ‪0/000842‬‬ ‫افزایش یابد‪.‬‬

‫می‏توانیم این اطالعــات را به‏صورت زیر هم بیان کنیم‪ .‬در عمل تغییر‬ ‫تراکم جمعیت بین کشورها بسیار کم است‪ :‬از کمتر از ‪ 100‬نفر تا بیش‬

‫از ‪ 2500‬نفر در هر ‪ 1000‬هکتار‪ .‬پس عجیب نیســت که تغییر فقط ‪1‬‬

‫نفر تاثیر اندکی بر جنگل‏زدایی داشــته باشد‪ .‬می‏توانیم تمام اعدادمان را‬ ‫در ‪ 100‬ضرب کنیم و بگوییم که «افزایش تراکم جمعیت به اندازه ‪100‬‬ ‫نفر در هزار هکتار گرایــش دارد که جنگل‏زدایی را ‪ %0/0842‬افزایش‬

‫دهد»‪ .‬حتی این عدد آخر هم ممکن است ناچیز یا بی‏معنی به‏نظر برسد‬ ‫اما فراموش نکنید که اگر نرخ ســاالنه جنگل‏زدایی کشــوری هر سال‬ ‫‪ %0/0842‬افزایش یابد باعث می‏شود که آن کشور پس از ‪ 50‬سال ‪ %5‬از‬

‫جنگل‏هایش را از دست بدهد‪ .‬در بلندمدت و برای مساحت‏های بزرگ‬ ‫‪-‬‏مقیاس‏های مکانی و زمانی که برای اقتصاددانان محیط زیســت عادی‬

‫است‪ -‬این درجه از کاهش جنگل‏ها قابل توجه است‪.‬‬

‫مثال ‪ 4-2‬ب‪ :‬هزینه تولید در صنعت برق‬

‫∧‬

‫در رگرسیون هزینه‏های شــرکت بر تولید‪ ،‬مقدار ‪ β‬را ‪ 0/005‬به‏دست‬ ‫آوردیم‪ .‬به یاد داشــته باشــید که واحد ‪ ، β‬تاثیر بر متغیر وابسته در اثر‬

‫کیلووات ســاعت اندازه گرفته می‏شــود پس یک واحد تغییر در متغیر‬

‫توضیحی معادل اســت با یــک هزار کیلووات ســاعت؛ و از آن‌جاکه‬

‫هزینه‏ها بر حسب میلیون دالر هســتند‪ ،‬واحد ‪ β‬عبارت می‏شود از‬

‫‪β‬‬

‫میلیــون دالر‪ .‬با ترکیب این‏ها می‏توانیم بگوییم «که یک هزار کیلووات‬ ‫ســاعت افزایش تولید گرایش دارد کــه هزینه‏ها را ‪ 5000‬دالر افزایش‬

‫دهد» (زیرا ‪5000‬‬ ‫= ‪ .) 0 / 005 × 1.000.000‬البته می‏توانیم همین نتایج‬

‫را در مورد کاهش متغیرها نیز بیان کنیم‪ .‬یعنی می‏توانیم «بگوییم کاهش‬

‫تولید گرایش دارد که هزینه‏ها را ‪ 5000‬دالر کاهش دهد»‪.‬‬

‫مثال ‪ 4-3‬ب‪ :‬تاثیر تبلیغات بر فروش‬

‫∧‬

‫هر دو متغیر تبلیغات و فروش بر حسب میلیون دالر هستند و ‪β = 0 / 218‬‬

‫به‏دســت آمد‪ .‬با همان منطق دو مثال پیشین‪ ،‬می‏توانیم بگوییم که یک‬

‫‪107‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫یک واحد تغییر در متغیر توضیحی اســت‪ .‬چون تولید بر حسب هزار‬

‫میلیون دالر افزایش تبلیغات گرایش دارد که فروش را ‪ 218.000‬دالر‬ ‫= ‪ .) 1.000.000 × 0 / 218‬این نتیجه‬ ‫افزایش دهد (زیــرا ‪218.000‬‬

‫ممکن است به این معنی باشد که خرج کردن برای تبلیغات چندان مولد‬ ‫و پرحاصل نیست زیرا یک میلیون دالر افزایش این مخارج‪ ،‬فروش را‬ ‫فقط ‪ 218.000‬دالر افزایش می‏دهد‪.‬‬

‫آیا نتیجه این رگرســیون به آن معناســت که مدیر شرکت باید مخارج‬ ‫تبلیغــات را کاهش دهد؟ شــاید‪ ،‬اما نه الزاما‪ .‬دلیــل این عدم اطمینان‬

‫به مفهوم علیت و چگونگی تفســیر همبســتگی و رگرســیون بستگی‬ ‫دارد (فصــل ‪ 3‬یا مطالــب قبلی همین فصل را مالحظــه کنید)‪ .‬یعنی‬

‫تحلیل داده‌های اقتصادی‬

‫اگر رگرســیون واقعا یک رابطه علی باشــد (به این معنی که تبلیغات‬ ‫تاثیر مســتقیم بر فروش داشته باشــد)‪ ،‬آن‏گاه عدد ‪ 218.000‬دالر را‬

‫‪108‬‬

‫می‏توانیم نشــان‏دهنده چگونگی تاثیر تغییر در مخارج تبلیغات بدانیم‪.‬‬ ‫اما اگر رگرســیون یک رابطه علی نباشــد‪ ،‬آن‏گاه برای استفاده از نتایج‬

‫رگرســیون برای ارائه توصیه‏های استراتژیک به شــرکت باید احتیاط‬ ‫کنیم‪ .‬در واقع ممکن است که روسای شرکت‏های بزرگ‏تر تمایل داشته‬

‫باشند که برتری خود و شــرکت خود را با تبلیغات بیشتر نشان دهند‪.‬‬

‫اگر این موضوع‪ ،‬هرچند غیرمحتمل اما درســت باشد آن‏گاه می‏توانیم‬ ‫انتظار داشته باشیم که شرکت‏های بزرگ‏تر‪ ،‬تبلیغات بیشتری هم داشته‬

‫باشند؛ یعنی دقیقا همان نتیجه‏ای که رگرسیون ما هم به آن رسید‪ .‬چنین‬

‫تفســیری می‏تواند ضمنا به این معنا باشد که ممکن است تبلیغات تاثیر‬

‫مســتقیمی بر فروش نداشته باشد‪ .‬رابطه مستقیم بین تبلیغات و فروش‬

‫که در تحلیل رگرسیون به‏دست آمد ممکن است تنها به دلیل شیوه رفتار‬ ‫روسای شرکت‏های بزرگ باشد‪.‬‬

‫تصمیم گرفتن در این مورد که آیا مدل رگرســیونی نوعی رابطه علی است‬ ‫که در نتیجه آن یک متغیر به‏طور مســتقیم بر متغیر دیگر تاثیر می‏گذارد‪ ،‬بسیار‬ ‫دشوار است و نمی‏توان قاعده یا راه‏حل کلی برای آن ارائه کرد‪ .‬بهترین پیشنهاد‬ ‫شاید این باشد که عقل سلیم و نظریه اقتصادی را راهنمای تفسیر خود کنیم‪.‬‬

‫مترین ‪4-1‬‬

‫داده‏هــای اکســل فایــل ‪ FOREST.XLS‬شــامل داده‏هــای جنگل‏زدایی =‪،Y‬‬

‫‪ Z‬است‪.‬‬ ‫تراکم جمعیت =‪ ،X‬تغییر گندم‏زار =‪W‬‏ و تغییر در مراتع = ‏‬ ‫(الف) ‪ Y‬را روی ‪ X‬رگرس و نتایج را تفسیر کنید‪.‬‬

‫‪ Z‬رگرس و نتایج را تفسیر کنید‪.‬‬ ‫(ب) ‪ Y‬را روی ‪ W‬و مجددا ‪ Y‬را روی ‏‬ ‫متغیر جدید چیست؟‬

‫(د) رگرسیون ‪ Y‬را روی ‪V‬‏ انجام دهید‪ .‬نتایج را با بند (الف) مقایسه کنید‪ .‬چگونه‬ ‫∧‬

‫ضریب برآوردشده ‪ β‬را تفسیر می‏کنید؟ تفاوت ‪ α‬در بند (الف) و (د) چیست؟‬ ‫(ه) واحد شمارش متغیرهای وابسته و توضیحی را تغییر دهید (با تقسیم کردن آن‏ها بر‬ ‫یک عدد) و مالحظه کنید که این تغییر چه تاثیری بر ضرایب برآوردشده دارد؟‬

‫مقادیر برازش‏شده و ‪ :R2‬اندازه‏گیری نیکویی برازش‪ 1‬مدل رگرسیون‬ ‫∧‬

‫∧‬

‫در بحث پیشــین آموختیم که چطور ضرایب رگرسیون یعنی ‪ α‬و ‪ β‬را محاسبه‬ ‫و تفســیر کنیم‪ .‬به‏عالوه توضیح دادیم که مدل رگرسیون با حداقل کردن ‪،SSR‬‬ ‫«بهترین خط برازش‏شــده» را نتیجه می‏دهد‪ .‬اما می‏توان حالتی را در نظر گرفت‬ ‫که این «بهترین» برازش‪ ،‬اصال برازش خوبی نباشــد‪ .‬بنابراین مطلوب اســت که‬ ‫معیاری برای خوب بودن یا نیکویی خط برازش‏شــده‏مان در اختیار داشته باشیم‬ ‫(یا معیاری برای تشــخیص این‌که بهترین خط برازش‏مان چقدر خوب است؟)‬ ‫‪1- Fit‬‬

‫‪109‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫‪ V‬بسازید‪ .‬واحد شمارش این‬ ‫(ج) با تقسیم کردن ‪ X‬بر ‪ ،100‬متغیر جدیدی به نام ‏‬

‫تحلیل داده‌های اقتصادی‬

‫‪110‬‬

‫رایج‏ترین معیار برای نیکویی برازش‪ R 2 ،‬نامیده می‏شود‪ .‬این معیار رابطه نزدیکی‬ ‫‪ Y‬و ‪ X‬دارد‪ .‬در واقع‪ ،‬در مدل رگرسیون ساده‪ ،‬این معیار‬ ‫با مفهوم همبســتگی بین ‏‬ ‫برابر با مقدار ضریب همبستگی به توان دو است و در نتیجه رگرسیون و همبستگی‬ ‫را به‏شکل آماری به هم مرتبط می‏کند‪ .‬اما ارتباط غیررسمی یا مفهومی رگرسیون‬ ‫و همبستگی نیز در بحث‏‏های قبلی بیان شد‪ .‬هدف رگرسیون و همبستگی‪ ،‬هر دو‬ ‫عبارت است از کمی کردن درجه ارتباط بین متغیرهای متفاوت و هر دو را می‏توان‬ ‫‪ X‬نشان داد‪.‬‬ ‫با استفاده از خط برازش و به‏وسیله نمودار ‪ Y‬‏‬ ‫برای به‏دســت آوردن و توصیف ‪ R 2‬از برخــی مفاهیم پایه و با تمرکز بر‬ ‫مقدار برازش‏شــده آغاز می‏کنیم‪ .‬به یاد بیاورید که رگرسیون یک خط مستقیم‬ ‫‪ X‬رســم می‏کند اما از تمام نقاط موجود‬ ‫را در نمودار پراکنش مشــاهدات یا ‪ Y‬‏‬ ‫در این نمودار (مشــاهدات) رد نمی‏شــود (پس جزءخطا ایجاد می‏شود)‪ .‬در‬ ‫مثال جنگل‏زدایی‪/‬تراکم جمعیت‪ ،‬این مفهوم به آن معناست که برخی کشورها‬ ‫هســتند که نقطه مشــاهده آن‏ها دقیقا روی خط رگرســیون نمی‏افتد‪ .‬مقدار‬ ‫برازش‏شــده برای مشاهده ‪i‬اُم عبارت اســت از مقدار منتاظر با ‪ Xi‬آن مشاهده‬ ‫(مثال هر خانه یا کشور) که دقیقا روی خط رگرسیون می‏افتد‪ .‬به‏عبارت دیگر‬ ‫‪ X‬یک خط صاف و عمودی رســم کنید‪،‬‬ ‫اگــر از روی هــر نقطه در نمودار ‪ Y‬‏‬ ‫تقاطع این خط عمودی و خط رگرسیون عبارت است از مقدار برازش‏شده آن‬ ‫نقطه‏ای که انتخاب کردید‪ .‬می‏توانیم مفهوم مقدار برازش‏شده را با فرمول مدل‬ ‫رگرسیون بیان کنیم‪:‬‬ ‫‪Yi = α + βXi + ei‬‬

‫اضافه کــردن اندیس ‪( i‬مثل ‪ ) Yi‬به این موضوع اشــاره می‏کند که منظور‬ ‫ما یک مشــاهده خاص (مثال کشــور ‪i‬اُم یا خانه ‪i‬اُم) اســت‪ .‬اگر از جزءخطا‬

‫صرف‏نظر کنیم‪ ،‬می‏توانیم بگوییم که پیش‏بینی مدل رگرســیون از ‪ Yi‬باید برابر‬ ‫∧‬ ‫∧‬ ‫با ‪ α + βXi‬باشــد‪ .‬اگر مقدار ‪ α‬و ‪ β‬را با بــرآورد ‪ LS‬‏‬ ‫‪ O‬آن‏ها یعنی ‪ α‬و ‪β‬‬ ‫جای‏گذاری کنیم‪ ،‬آن‏گاه مقدار برازش‏شده یا پیش‏بینی‏شده ‪ Yi‬به‏دست می‏آید‪:‬‬ ‫∧‬

‫∧‬

‫∧‬

‫‪Y i = α + β Xi‬‬

‫این موضوع را فراموش نکنید که ما از مقدار متغیر توضیحی استفاده می‏کنیم‬ ‫و خروجی یا همان پیش‏بینی ‪ OLS‬عبارت است از برآورد متغیر وابسته‪ .‬با مقایسه‬ ‫∧‬ ‫مقدار واقعی ( ‪ ) Yi‬و مقدار پیش‏بینی‏شده( ‪) Yi‬می‏توانیم تصوری از «نیکویی برازش»‬ ‫مدل رگرسیون به‏دست آوریم‪ .‬بسیاری از بسته‏های نرم‏افزاری امکان رویت نسخه‬ ‫چاپی مقادیر واقعی و برازش‏شــده هر مشاهده را فراهم می‏کنند‪ .‬بررسی این دو‬ ‫مقدار نه تنها معیاری برای نیکویی برازش مدل رگرسیونی به‏دست می‏دهد بلکه این‬ ‫امکان را فراهم می‏کند تا فاصله (دوری یا نزدیکی) هر مشاهده از خط رگرسیون‬ ‫را دید‪ .‬چون خط رگرســیون الگوی کلی یــا گرایش موجود در مجموعه داده‏ها‬ ‫(مشاهدات) را نشان می‏دهد‪ ،‬می‏توان دید که کدام داده از این الگوی کلی تبعیت‬ ‫می‏کند و کدام تبعیت نمی‏کند‪.‬‬

‫با اســتفاده از داده‏هــای فایــل ‪( FOREST.XLS‬تمریــن ‪ 4-1‬را ببینید)‪ ،‬یک‬ ‫رگرســیون از ‪ Y‬روی ‪ X‬انجام دهید‪ .‬این کار را در نرم‏افزار اکسل با کلیک کردن‬

‫«‪ »Line Fit Plot‬در منوی رگرســیون انجام دهید‪ .‬مقادیر واقعی و برازش‏شده را‬

‫به‏صورت عددی و نموداری مقایسه کنید (یعنی به ستون با نام خروجی پسماندها‬

‫‪1‬‬

‫و نمودار آن نگاه کنید)‪.‬‬

‫پیش از این توضیح داده‏ایم که اجزای پسماند به هنگام برازش کردن بهترین‬ ‫خط برازش ایجاد می‏شــوند‪ .‬روش دیگر برای تعریف پســماندها استفاده از‬ ‫فاصله یا تفاوت بین مقادیر واقعی و برازش‏شده ‪ Y‬است‪ .‬یعنی‪:‬‬ ‫∧‬

‫‪u=i Yi − Y i‬‬

‫بســته‏های نرم‏افزاری مانند اکسل می‏توانند پسماندهای یک مدل رگرسیونی را‬ ‫ترســیم یا لیســت کنند‪ .‬از این موضوع می‏توان برای درک و همچنین آزمون‬ ‫‪1- Residual Output‬‬

‫‪111‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫مترین ‪4-2‬‬

‫نیکویی برازش یک مدل رگرسیون استفاده کرد‪ .‬تاکید می‏کنیم که جزءپسماندی‬ ‫که به‏شــکل غیرعادی بزرگ باشــد مربوط به مشــاهدات پرت اســت و این‬ ‫مشاهدات پرت گاهی اوقات می‏توانند جالب توجه باشند‪.‬‬

‫مترین ‪4-3‬‬

‫(الف) با اســتفاده از داده‏های فایل ‪( FOREST.XLS‬تمرین ‪ 4-1‬را ببینید)‪ ،‬یک‬

‫‪ Y‬روی ‪ X‬انجام دهید‪ .‬در نرم‏افزار اکســل و در منوی رگرســیون‪،‬‬ ‫رگرســیون از ‏‬

‫گزینه‏هــای ‪ Residual‬و ‪ Residual Plots‬را تیک بزنید‪ .‬پســماندها را چگونه‬

‫تفسیر می‏کنید؟ آیا مشاهده پرتی وجود دارد؟‬

‫(ب) سوال بند (الف) را برای سایر متغیرها‪ W ،‬و ‪ Z‬در این مجموعه داده تکرار کنید‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪112‬‬

‫برای مشــخص شــدن نوع اطالعاتی که تحلیل پســماندها به ما می‏دهد‪،‬‬ ‫به خروجــی رایانه خود پس از انجام بند (الــف) تمرین ‪ 4-3‬دقت کنید‪ .‬در‬ ‫خروجی پسماندها‪ ،‬مشــاهده ‪39‬اُم مقدار برازش‏شده ‪ 2/93‬و پسماند ‪-1/63‬‬ ‫دارد‪ .‬بــا اضافه کردن این دو عــدد به هم (یا با نگاه کردن به داده‏های اصلی)‪،‬‬ ‫می‏بینید که مقدار واقعی نرخ جنگل‏زدایی برای این کشــور برابر ‪ 1/3‬اســت‪.‬‬ ‫معنی این اعداد چیســت؟ می‏بینید که مقدار پیش‏بینی مدل رگرســیون برای‬ ‫جنگل‏زدایی (‪ )2/93‬بیشــتر از مقدار واقعی برای این کشور (‪ )1/3‬است‪ .‬این‬ ‫یعنی عملکرد واقعی کشــور مزبور در محافظــت از جنگل‏هایش بهتر از آن‬ ‫چیزی اســت که مدل رگرســیون پیش‏بینی می‏کند و در چه بســا تالش این‬ ‫کشــور برای محافظت از جنگل‏هایش موثر‏تر از ســایر کشــورها است‪ .‬این‬ ‫گونه اطالعات ممکن اســت برای سیاست‏گذاران کشورهای دیگر مهم باشد‪،‬‬ ‫به‏خصوص وضعیت این کشــورِ دارای مشاهده پرت شاید درس‏های مفیدی‬ ‫برای ایشان به همراه داشته باشد‪.‬‬ ‫مفاهیم پســماند و مقدار برازش‏شده در کسب درکی شهودی و غیررسمی از‬ ‫نیکویی برازش مدل رگرســیون مهم هستند‪ .‬با این وجود هنوز تعریفی رسمی و‬

‫عــددی از آن ارائه نکرده‏ایم‪ .‬در این مرحله‪ ،‬به دنبال ارائه چنین معیاری‪ ،‬یعنی ‪R2‬‬

‫هستیم‪ .‬می‏دانیم که واریانس‪ ،‬معیار پراکندگی یا تغییرپذیری در داده‏ها است‪ .‬این‏جا‬ ‫مفهومی نزدیک به آن را ارائه می‏کنیم‪ ،‬مجموع کل مربعات‪ 1‬یا ‪:TSS‬‬ ‫‪2‬‬

‫)‬

‫(‬

‫= ‪TSS‬‬ ‫‪∑ Yi − Y‬‬

‫به‌خاطر بیاورید که فرمول واریانس ‪Y‬‏ عبارت اســت از ‪( TSS/N-1‬فصل ‪2‬‬ ‫را ببینیــد)‪ .‬با اندکی اغماض‪ ،‬عبارت ‪ N-1‬در فرمول نهایی‪ R2‬وجود ندارد و در‬ ‫نتیجه از آن صرف‏نظر می‏کنیم‪ TSS .‬معیاری برای تغییرپذیری ‪ Y‬اســت‪ .‬مدل‬ ‫رگرســیون نیز در پی توضیح تغییرات ‪ Y‬در اثر تغییر متغیر توضیحی ‪ X‬است‪.‬‬ ‫می‏توان نشان داد که مجموع تغییرات‪ Y‬را می‏توان به دو بخش تقسیم کرد‪:‬‬ ‫که ‪ RSS‬مجموع مربعات رگرسیون‪ 2‬و معیاری است که میزان توضیح‏دهندگی‬ ‫مدل رگرسیون را نشان می‏دهد‪ .3‬فرمول ‪ RSS‬به‏شکل زیر است‪:‬‬ ‫‪2‬‬

‫∧‪‬‬ ‫‪‬‬ ‫= ‪RSS‬‬ ‫‪∑  Yl − Y ‬‬ ‫‪‬‬ ‫‪‬‬

‫از قبــل می‏دانیم که ‪SSR‬‏ مجموع مربعات پســماندها اســت و یک مدل‬ ‫رگرسیون که خوب برازش‏شده باشد‪SSR ،‬‏ بسیار کوچکی خواهد داشت‪ .‬حاال‬ ‫می‏توانیم با ترکیب کردن فرمول‏های باال‪ ،‬معیاری برای برازش به‏دست بیاوریم‪:‬‬ ‫‪SSR‬‬ ‫‪TSS‬‬

‫یا به‏طور مشابه‪:‬‬

‫‪R2 = 1 −‬‬

‫‪RSS‬‬ ‫‪TSS‬‬

‫‪2- Regression Sum of Squares‬‬

‫= ‪R2‬‬

‫‪1- Total sum of squares‬‬

‫‪ -3‬در نرم‏افزار اکســل می‏توانید مقدار ‪ TSS، RSS‬و ‪ SSR‬را با اســتفاده از جدول ‪ ANOVA‬چاپ کنید‪.‬‬ ‫ستون با عنوان ‪ SS‬شامل این سه مجموع مربعات است‪ .‬در مورد معنی واژه ‪ ANOVA‬در فصل ‪ 7‬توضیحاتی‬ ‫ارائه خواهد شد‪.‬‬

‫‪113‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫‪TSS=RSS+SSR‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪114‬‬

‫‪ Y‬است که می‏تواند به‏وسیله ‪ X‬توضیح داده شود‪.‬‬ ‫‪ R2‬نســبتی از کل تغییرات ‏‬ ‫می‏دانیم که ‪ TSS، RSS‬و ‪ SSR‬هر ســه مجموع مربعات (مجموع اعدادی که به‬ ‫توان دو رسیده‏اند) هستند و در نتیجه‪ ،‬هر سه تا اعدادی غیر منفی هستند‪ .‬این به آن‬ ‫معناست که ‪ TSS ≥ RSS‬و ‪ TSS ≥ SSR‬است‪ .‬با به‏کارگیری این‏ها‪ ،‬می‏توان‬ ‫دید که‪ 0 ≤ R2 ≤ 1‬اســت‪ .‬برای کسب درکی بیشــتر در مورد این معیار برازش‪،‬‬ ‫می‏توان به این نکته اشــاره کرد که مقادیر کوچک ‪ SSR‬به این معناست که مدل‬ ‫رگرسیون به‏خوبی برازش‏شده است‪ .‬یک خط رگرسیون که از تمام نقاط مشاهدات‬ ‫در نمودار ‪XY‬‏ عبور کند‪ ،‬هیــچ جزءخطایی ندارد و در نتیجه ‪ SSR=0‬و‪R2 = 1‬‬ ‫خواهد بود‪ .‬اگر به فرمول باال دقت کنید می‏بینید که مقدار ‪ R2‬نزدیک به ‪ 1‬به‏معنی‬ ‫خوبــی برازش و ‪ R2 = 1‬به معنی برازش (فیت بودن) کامل اســت‪ .‬در مجموع‪،‬‬ ‫مقادیر زیاد ‪ R2‬به‏معنی برازش خوب و مقادیر کم آن نشان‏دهنده برازش بد است‪.‬‬ ‫‪ R‬این مقدار را اندازه می‏گیرد‬ ‫از زاویه ‪ RSS‬هم می‏توان موضوع را درک کرد‪ SS .‬‏‬ ‫که چقدر از تغییرات ‪Y‬‏ توسط متغیرهای توضیحی توضیح داده می‏شود‪ .‬اگر مقدار‬ ‫‪ RSS‬نزدیک ‪ TSS‬باشد به این معناست که متغیرهای توضیحی تقریبا تمام تغییرات‬ ‫را توضیح می‏دهند و خط رگرسیون برازش خوبی خواهد داشت‪ .‬با دقت به فرمول‬ ‫قبلی می‏بینید که در این شرایط ‪ R2‬نزدیک به ‪ 1‬است‪.‬‬

‫مثال ‪ 4-2‬ج‪ :‬هزینه تولید در صنعت برق‬

‫‪ X‬برای ‪ 123‬شرکت فعال‬ ‫در رگرســیون هزینه تولید =‪ Y‬روی تولید = ‏‬ ‫در صنعت برق‪ R2 = 0 / 92 ،‬اســت‪ .‬عدد به‏دســت آمده عدد بزرگی‬

‫برای ‪ R2‬و نزدیک به ‪ 1‬است و نشان می‏دهد که برازش خط رگرسیون‬ ‫کامال مناســب است‪ .‬به‏ عبارت دیگر‪ %92 ،‬تغییرات هزینه شرکت‏های‬

‫مختلف می‏تواند به‏وســیله تغییرات تولید این شــرکت‏ها توضیح داده‬ ‫شــود‪ .‬به این موضوع توجه کنید که اگر همبستگی بین تولید و هزینه‬

‫را حساب‬

‫کنید ‪rxy = 0 / 96‬‬

‫به‏دست می‏آید‪ .‬توان دوم همبستگی دقیقا‬

‫برابر ‪ R2‬است ( ‪ .) 0 / 962 = 0 / 92‬این مثال رابطه نزدیک بین همبستگی‬ ‫و رگرسیون را نشــان می‏دهد‪ .‬توجه کنید که ‪ R2‬رگرسیون ‪ Y‬روی ‪X‬‬

‫دقیقا برابر توان دوم همبســتگی بین ‪ Y‬و ‪ X‬است‪ .‬به‏طور دقیق می‏توان‬

‫گفت که رگرســیون‪ ،‬تعمیم همبستگی است‪ .‬اما رگرسیون بیان صریح‬

‫و روشــنی از تاثیر نهایی ( ‪ ) β‬به‏دست می‏دهد که در اغلب موارد برای‬

‫تحلیل و سیاست‏گذاری مفید است‪.‬‬

‫‪ R2‬رگرســیون فروش بر مخارج تبلیغات با اســتفاده از داده‏های فایل‬ ‫‪ ADVERT.XLS‬برابر ‪ 0/09‬اســت که عددی نسبتا کوچک محسوب‬

‫می‏شــود‪ .‬این عدد نشــان می‏دهد کــه تغییرات مخــارج تبلیغات در‬ ‫شرکت‏های مختلف تنها بخش کوچکی از تغییر در فروش این شرکت‏ها‬ ‫را حساب می‏کند (توضیح می‏دهد)‪ .‬این یافته به‏نظر منطقی است زیرا‬

‫عوامل مهــم دیگری (مثل کیفیت تولیــدات‪ ،‬قیمت‏گذاری و غیره) بر‬

‫فروش این شرکت‏ها تاثیر می‏گذارند‪.‬‬

‫مترین ‪4-4‬‬

‫(الف) با اســتفاده از داده‏های فایل ‪( FOREST.XLS‬تمریــن ‪ 4-1‬را ببینید) و‬

‫نرم‏افزار اکسل‪ Y ،‬را روی ‪X‬‏ رگرس کنید‪ R2 .‬چند است؟‬ ‫(ب) همبستگی بین ‪ Y‬و ‪ X‬را حساب کنید‪.‬‬

‫(ج) در مورد رابطه بین جواب بند (الف) و (ب) بحث کنید‪.‬‬

‫‪115‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫مثال ‪ 4-3‬ج‪ :‬تاثیر تبلیغات بر فروش‬

‫(د) بند (الف) را برای متغیرهای مختلف آن فایل مثل ‪ W، X، Y‬و ‪ Z‬دوباره انجام‬

‫دهید‪ .‬در مورد نیکویی برازش هر یک از این رگرسیون‏ها اظهار نظر کنید‪.‬‬

‫غیرخطی بودن در رگرسیون‬

‫تحلیل داده‌های اقتصادی‬

‫‪116‬‬

‫تاکنون در مورد رگرسیون خطی صحبت می‏کردیم و خط برازش ما در نمودار‬ ‫‪ ،XY‬یک خط مستقیم بود‪ .‬اما این روش همواره مناسب نیست‪ .‬مثال نمودار ‪XY‬‬ ‫شکل ‪ 4.2‬را در نظر بگیرید‪ .‬به‏نظر می‏رسد که ارتباط بین ‪ Y‬و ‪ X‬خطی نیست‪.‬‬ ‫اگر بخواهیم خطی مستقیم از میان داده‏ها رسم کنیم (برازش کنیم)‪ ،‬ممکن است‬ ‫ارتباط بین ‪ Y‬و ‪ X‬را به‏شکل نادرستی نشان دهیم‪ .‬در واقع فرض کردیم ارتباط‬ ‫بین ‪ Y‬و ‪ X‬به‏شــکل ‪ Yi = 6Xi2‬است و بر مبنای این فرض‪ ،‬داده‏ها را خودمان‬ ‫تولید کردیم؛ یعنی ارتباط واقعی دو متغیر از نوع توان دوم است‪ .‬نگاهی گذرا به‬ ‫نمودار‪ XY‬اغلب می‏تواند نشان دهد که برازش یک خط مستقیم مناسب است یا‬ ‫خیر‪ .‬حال اگر به‏جای رابطه خطی یک رابطه درجه دوم وجود داشته باشد چه باید‬ ‫کرد؟ پاسخ ساده است‪ :‬به‏جای رگرس کردن‪ Y‬بر ‪ Y ،X‬را بر ‪ X2‬رگرس کنید‪ .‬البته‬ ‫ممکن است رابطه‏ای که در نمودار ‪ XY‬رویت می‏شود نه خطی باشد نه توانی‪.‬‬ ‫یعنی ممکن اســت ‪ Y‬با )‪ ،Ln(X‬با‏‪ ،1/X‬با ‪ X3‬یا هر تبدیل دیگری از ‪ X‬ارتباط‬ ‫داشته باشــد‪ .‬در هر صورت یک دستور کلی وجود دارد‪ X :‬را به‏شکل مناسبی‬ ‫تبدیل کنید و سپس ‪ Y‬را روی این فرم مناسب و تبدیل‏شده ‪ X‬رگرس کنید‪ .‬در‬ ‫صورت نیاز می‏توان ‪ Y‬را نیز تبدیل کرد‪.‬‬ ‫یک تبدیل مفید‪ ،‬چه برای متغیر وابســته چــه توضیحی‪ ،‬تبدیل لگاریتمی‬ ‫است‪ .‬حتی اگر مبحث لگاریتم را در ریاضیات بلد نباشید‪ ،‬انجام این تبدیل در‬ ‫هر بسته نرم‏افزاری اقتصادسنجی یا اکسل آسان است‪ .‬اغلب اوقات اقتصاددانان‬ ‫از لگاریتم طبیعی استفاده می‏کنند که عالمت آن ‪ ln‬است‪ .‬در این کتاب‪ ،‬همیشه‬ ‫از لگاریتم طبیعی استفاده و از عبارت «‪ »logs‬برای اشاره به آن استفاده می‏کنیم‪.‬‬ ‫در این موارد معموال گفته می‏شــود‪« :‬از متغیر ‪ X‬لگاریتم گرفتیم» یا «از لگاریتم‬ ‫‪X‬‏ استفاده کردیم»‪ .‬نشانه‏گذاری ریاضی آن عبارت است از )‪.ln(X‬‬

‫نمودار ‪ .4-2‬ارتباط توانی‬

‫بین ‪ X‬و ‪Y‬‬

‫‪1- Formula bar‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫در اکســل می‏توانیــد لگاریتم طبیعی هر عددی را با اســتفاده از نوار ابزار‬ ‫فرموال‪ 1‬حســاب کنید‪ .‬مثال اگر بخواهید لگاریتــم عدد موجود در خانه ‪ D4‬را‬ ‫حســاب کنید‪ ،‬به نوار ابزار فرموال بروید و تایپ کنید «)‪ »=ln(D4‬و سپس اینتر‬ ‫کنید‪ .‬موضوعی که در مورد لگاریتم باید به یاد داشته باشید این است که لگاریتم‬ ‫فقط برای اعداد مثبت تعریف می‏شــود‪ .‬بنابراین اگر داده‏های شما شامل اعداد‬ ‫منفی یا صفر باشد‪ ،‬نمی‏توانید از آن‏ها لگاریتم بگیرید (یعنی نرم‏افزار پیغام خطا‬ ‫نمایش می‏دهد)‪.‬‬ ‫چرا معموال از )‪ ln(Y‬به‏عنوان متغیر وابسته و از )‪ ln(X‬به‏عنوان متغیر توضیحی‬ ‫اســتفاده می‏شود؟ دلیل اول این است که این کار به ما اجازه می‏دهد تا نتایج را‬ ‫ن است که داده‏هایی که به این شکل تبدیل‬ ‫به‏راحتی تفســیر کنیم‪ .‬دلیل دوم ای ‏‬ ‫شده‏اند در اغلب موارد شرط خطی بودن مدل رگرسیون را برآورده می‏کنند‪.‬‬ ‫بــرای درک کامل دلیــل اول‪ ،‬به پیش‏زمینه‏ای از ریاضی احتیاج اســت که‬

‫‪117‬‬

‫توضیــح آن فراتر از اهداف این کتاب اســت‪ .‬اما خوشــبختانه نکته اصلی را‬ ‫می‏توان به شکل شفاهی بیان کرد‪ .‬در رگرسیون زیر‪:‬‬ ‫‪ln ( Y ) = α + βln ( X ) + e‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪118‬‬

‫‪ β‬را می‏توان به‏عنوان کشش تفسیر کرد‪ .‬می‏دانیم که در رگرسون پایه بدون‬ ‫لگاریتــم‪ ،‬می‏گفتیم که «یک واحد تغییر در ‪ X‬باعث می‏شــود که ‪ Y‬گرایش به‬ ‫‪ β‬واحد تغییر داشته باشــد»‪ .‬در رگرسیونی که هم متغیر وابسته هم توضیحی‬ ‫لگاریتمی باشــند‪ ،‬اکنون می‏توانیم بگوییم که «یک درصــد تغییر در ‪ X‬باعث‬ ‫می‏شــود که ‪ Y‬گرایش به ‪ β‬درصد تغییر داشــته باشد»‪ .‬یعنی به‏جای این‌که در‬ ‫مورد واحد شــمارش‏ها نگران باشیم‪ ،‬نتایج رگرســیون با متغیرهای لگاریتمی‬ ‫را همیشه می‏توان به‏شکل کشش تفســیر کرد‪ .‬برای توجیه سهولت استفاده از‬ ‫لگاریتم می‏توان دالیل دیگری نیز آورد‪ .‬مثال‪ ،‬همان‏طور که در فصل ‪ 2‬توضیح‬ ‫داده شــد‪ ،‬زمانی که با داده‏های سری‏زمانی سر و کار داریم‪ ،‬درصد تغییرات در‬ ‫متغیر تقریبا برابر با ‪ 100 × ln ( Yt ) − ln ( Yt −1 ) ‬است‪ .‬این تبدیل در فصل‏های‬ ‫بعدی کتاب نیز مفید خواهد بود‪.‬‬ ‫توجیه دوم برای اســتفاده از تبدیل لگاریتمی کامــا کاربردی و عملی‬ ‫اســت‪ :‬برای بسیاری از داده‏ها‪ ،‬اگر از متغیرهای وابسته و توضیحی لگاریتم‬ ‫بگیرید آن‏گاه نمودار ‪XY‬‏ ارتباط دو متغیر‪ ،‬شــکل خطی خواهد داشت‪ .‬این‬ ‫موضوع در نمودارهای ‪ 4-3‬و ‪ 4-4‬نشــان داده شــده است‪ .‬در شکل ‪4-3‬‬ ‫نمودار ‪ XY‬دو ســری از داده‏های ‪ Y‬و ‪ X‬رسم شده است که روی هیچ‏کدام‬ ‫از این دو هیچ تبدیلی صورت نگرفته است‪ .‬شکل ‪ 4-4‬نمودار ‪XY‬‏ داده‏های‬ ‫دو ســری )‪ ln(X‬و )‪ ln(Y‬اســت‪ .‬مالحظه کنید که به‏نظر نمی‏رسد که نقاط‬ ‫نمودار اول روی یک خط مســتقیم قرار داشــته باشند‪ .‬برای مقادیر کوچک‬ ‫‪ ،X‬خــط گذرنده از نقاط تقریبا عمودی اســت و با افزایش تدریجی مقدار‬ ‫‪ ،X‬این خط فرضی تقریبا صاف می‏شــود‪ .‬وجود این الگوی شایع در داده‏ها‬ ‫به این معناســت کــه باید از آن‏ها لگاریتم گرفت‪ .‬نمــودار ‪ 4-4‬این تبدیل‬

‫لگاریتمــی را نشــان می‏دهد که در نتیجه آن الگویــی خطی در نمودار‬ ‫ایجاد شده است‪ .‬حال اگر برای نقاط نمودار اخیر ‪ OLS‬را برآورد کنیم‪ ،‬یک‬ ‫خط مســتقیم با دقت باال برازش می‏شود‪ .‬اما برازش کردن یک خط مستقیم‬ ‫از بین نقاط نمودار ‪ 4-3‬بسیار دشوار است‪.‬‬ ‫‪XY‬‬

‫نمودار ‪ .4-3‬متغیرهای ‪ X‬و ‪ Y‬نیاز به لگاریتم‏گیری دارند‬

‫نمودار ‪ ln (X) .4-4‬در مقابل‬

‫)‪ln (Y‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫‪119‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪120‬‬

‫بر چه اساسی باید تشخیص دهیم که از تبدیل لگاریتمی (و نه سایر تبدیل‏ها)‬ ‫برای داده‏ها اســتفاده کنیم؟ دستور ساده‏ای وجود ندارد که همواره درست باشد اما‬ ‫امتحان کردن تبدیل‏های مختلف روی داده‏ها و دیدن تاثیر آن بر نمودار ‪ XY‬اغلب‬ ‫مفید اســت‪ .‬کارتان را با نگاه کردن به نمودار پراکنش ‪ X‬در مقابل ‪ Y‬شروع کنید‪.‬‬ ‫ممکن است نمودار خطی به‏نظر برسد؛ در این‏صورت نیاز به ایجاد تغییر نیست و‬ ‫می‏توانید ‪ Y‬را روی ‪ X‬رگرس کنید‪ .‬اگر نمودار خطی به‏نظر نرســد‪ ،‬ممکن است‬ ‫الگوهای دیگری داشته باشد که شما آن را تشخیص بدهید (مثال الگوی درجه دوم‬ ‫مثل نمودار ‪ 4-2‬یا الگوی لگاریتمی مثل نمودار ‪ .)4-3‬اگر این‏طور باشــد‪ ،‬نمودار‬ ‫پراکنش یا همان ‪XY‬‏ متغیرهای تبدیل‏شده (مثال )‪ ln(Y‬در مقابل )‪ )ln(X‬را رسم کنید‬ ‫تا ببینید که آیا خطی به‏نظر می‏رسند یا نه‪ .‬این استراتژی زمانی که رگرسیون‪ ،‬ساده و‬ ‫فقط شامل یک متغیر توضیحی باشد‪ ،‬جواب می‏دهد‪ .‬در فصل ‪ ،6‬در مورد رگرسیون‬ ‫با چندین متغیر توضیحی بحث می‏کنیم‪ .‬در آن شــرایط‪ ،‬آزمون نمودار ‪XY‬‏ دشوار‬ ‫است زیرا می‏توان چندین نمودار ‪ XY‬مختلف رسم کرد‪.‬‬

‫مترین ‪4-5‬‬

‫با اســتفاده از داده‏های فایــل ‪ FOREST.XLS‬نمودارهای ‪ XY‬مختلفی را برای‬ ‫‪ Z‬رســم کنید (اگر تعریف این متغیرها را نمی‏دانید‪ ،‬تمرین‬ ‫متغیرهای ‪ X، Y، W‬و ‏‬ ‫‪ 4-1‬را ببینید)‪ .‬آیا رابطه‏ای غیرخطی بین هر جفت متغیری وجود دارد؟ تمرین را‬

‫با استفاده از داده‏های مثال تبلیغات (‪ )ADVERT.XLS‬تکرار کنید‪.‬‬

‫مترین ‪4-6‬‬

‫مجموعه داده ‪ EX46.XLS‬شامل دو متغیر به نام‏های ‪ Y‬و ‪ X‬است‪.‬‬

‫(الــف) نمودار پراکنش یا ‪ XY‬این دو متغیر را رســم کنید‪ .‬آیا ارتباط بین ‪ Y‬و ‪X‬‬

‫به‏نظر خطی می‏آید؟‬

‫(ب) ریشــه دوم متغیر ‪ X‬را محاســبه کنید‪ .‬از دستور ‪ SQRT‬در اکسل برای این‬ ‫کار استفاده کنید‪.‬‬

‫(ج) نمودار ‪ XY‬ریشــه دوم ‪ X‬را در مقابل ‪ Y‬رســم کنید‪ .‬آیا این ارتباط به‏نظر‬ ‫خطی می‏آید؟‬

‫مترین ‪4-7‬‬

‫از داده‏های مثال هزینه تولید صنعت برق (‪ )ELECTRIC.XLS‬اســتفاده کنید که‬ ‫در آن هزینه تولید =‪ Y‬و تولید =‪ X‬است‪.‬‬

‫(الف) ‪ Y‬را روی ‪ X‬رگرس کنید‪.‬‬

‫(ب) از هر دو متغیر لگاریتم بگیرید‪.‬‬

‫(ج) رگرسیون )‪ ln(Y‬را بر )‪ ln(X‬انجام دهید و نتاج را به‏صورت شفاهی تفسیر کنید‪.‬‬

‫‪ -1‬رگرسیون ساده تاثیر یک متغیر توضیحی‪ ،X ،‬را بر متغیر وابسته‪ ،Y ،‬به‏صورت‬ ‫کمی و عددی اندازه می‏گیرد و در واقع‪ ،‬ارتباط بین دو متغیر را می‏سنجد‪.‬‬ ‫‪ -2‬فرض می‏شــود که ارتباط بین ‪ Y‬و ‪ X‬به فرم ‪ Y = α + βX‬باشد که در‬ ‫آن ‪ α‬را جزء ثابت (عرض از مبدا) و ‪ β‬را شیب خط می‏نامند‪ .‬این فرمول خط‬ ‫رگرسیون است‪.‬‬ ‫‪ -3‬خط رگرسیون بهترین خط برازش‏شده از میان نقاط نمودار ‪( XY‬یا همان‬ ‫نمودار پراکنش) است‪.‬‬ ‫‪ -4‬هیــچ خطی وجــود ندارد که از تمــام نقاط موجــود در نمودار ‪ Y‬‏‬ ‫‪X‬‬ ‫بگذرد (برازش کامل داشــته باشد)‪ .‬فاصله بین هر نقطه و خط (رگرسیون) را‬ ‫جزءپسماند می‏نامند‪.‬‬ ‫ن َزنی) اســت که‬ ‫‪ -5‬حداقــل مربعات معمولی (‪OLS‬‏) برآوردگری (تخمی ‏‬ ‫مجموع مربعات پسماندها را حداقل می‏کند‪.‬‬ ‫∧‬ ‫∧‬ ‫‪ O‬برآوردی از ‪ α‬و ‪ β‬ارائه می‏کند که آن‏ها را ‪ α‬و ‪ β‬می‏نامیم‪.‬‬ ‫‪ -6‬روش ‪ LS‬‏‬ ‫‪ -7‬ضرایب رگرسیون را باید به‏عنوان تاثیر نهایی یا مارژینال (یعنی تغییر در‬ ‫‪ Y‬در اثر یک تغییر کوچک در‪ )X‬تفسیر کرد‪.‬‬

‫‪121‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫خالصه فصل‬

‫‪ R2 -8‬معیاری برای میزان خوب بودن (نیکویی) خط برازش‏شــده از میان‬ ‫‪ X‬است‪.‬‬ ‫نقاط نمودار ‪ Y‬‏‬ ‫‪ -9‬برآوردهای ‪ OLS‬و ‪ R2‬توسط بســته‏های نرم‏افزار رایانه‏ای مثل اکسل‬ ‫محاسبه می‏شوند‪.‬‬ ‫‪ -10‬خط رگرســیون حتما نباید خطی باشــد‪ .‬برای اجرای یک رگرسیون‬ ‫غیرخطی تنها کافی است ‪ Y‬و‪/‬یا ‪X‬‏ در مدل رگرسیون را با یک تبدیل غیرخطی‬ ‫مناسب آن‏ها (مثال )‪ ln(Y‬یا ‪ ) X2‬جایگزین کنید‪.‬‬

‫ضمیمه ‪ :4-1‬جزییات ریاضی‬ ‫تحلیل داده‌های اقتصادی‬

‫‪ O‬بهترین خط برازش از میان نقاط نمودار ‪ XY‬را نشــان می‏دهد‪.‬‬ ‫برآوردگر ‪ LS‬‏‬ ‫∧‬ ‫∧‬ ‫از نظر ریاضی‪ ،‬می‏خواهیم مقداری برای ‪ α‬و ‪ β‬به‏دســت بیاوریم که مجموع‬ ‫مربعات پسماندها را حداقل کند‪SSR .‬‏ را می‏توان به‏شکل زیر نوشت‪:‬‬ ‫‪2‬‬

‫‪122‬‬

‫مترین اختیاری‬

‫∧‬

‫‪N‬‬

‫∧‬ ‫∧‬ ‫‪‬‬ ‫‪‬‬ ‫=‬ ‫‪SSR ∑  Yi − α− β Xi ‬‬ ‫‪‬‬ ‫‪i =1 ‬‬

‫∧‬

‫از ‪( SSR‬عبارت باال) نســبت به ‪ α‬و ‪ β‬مشــتق اول و دوم بگیرید‪ .‬از پاسخ خود‬ ‫∧‬ ‫بــرای یافتن مقادیر ∧‪ α‬و ‪ β‬ای که ‪ SSR‬را حداقل می‏کند اســتفاده کنید‪ .‬مطمئن‬ ‫شوید که جواب به‏دست آمده‪ SSR ،‬را حداقل می‏کند نه حداکثر‪.‬‬

‫اگر تمرین قبلی را درست حل کرده باشید باید عبارت زیر را به‏دست آورده‬ ‫باشید‪:‬‬

‫) ‪∑ ( Y − Y )( X − X‬‬ ‫=‪β‬‬ ‫)‪∑ ( X − X‬‬ ‫‪N‬‬

‫و‬

‫‪i‬‬

‫‪i‬‬

‫‪2‬‬

‫‪i =1‬‬

‫∧‬

‫‪N‬‬

‫‪i‬‬

‫‪i =1‬‬

‫∧‬

‫∧‬

‫‪α= Y − β X‬‬

‫که ‪ Y‬و ‪ X‬میانگین ‪ Y‬و ‪ X‬هســتند (فصل ‪ 2‬را ببینیــد)‪ .‬دو فرمول اخیر‪،‬‬ ‫‪ O‬برای ‪ α‬و ‪ β‬هستند‪ .‬مطلع باشید که روش‏های گوناگونی برای‬ ‫برآوردهای ‪ LS‬‏‬ ‫∧‬ ‫نوشــتن فرمول ‪ β‬وجود دارد‪ .‬اگر به سایر کتاب های درسی نگاه کنید ممکن‬ ‫∧‬ ‫∧‬ ‫است شکل‏های دیگر فرمول ‪ α‬و ‪ β‬را ببینید‪.‬‬ ‫می‏توان نتایج این معادالت را بر حســب انحــراف از میانگین‪ 1‬متغیرها نیز‬ ‫نشــان داد‪ .‬فرض ضمنی برای به‏دســت آوردن معادالت باال این بوده است که‬ ‫متغیرهای وابســته و توضیحی‪ Y ،‬و ‪ ،X‬بر حســب داده‏های خام هستند‪ .‬اما در‬ ‫برخی موارد محقق فقط با داده‏های خام‪ ،‬یعنی ‪ Y‬و ‪X‬‏ کار نمی‏کند بلکه با ‪ Y‬و‬ ‫‪ X‬منهای میانگین‏شان کار می‏کند‪:‬‬ ‫‏‬ ‫‪x=i Xi − X‬‬

‫فرض کنید که بخواهیم از ‪ OLS‬برای برآورد رگرسیون زیر استفاده کنیم‪:‬‬ ‫‪y =a + bX + e‬‬

‫که در آن از عالمت‏های ‪ a‬و ‪b‬‏ برای نشان دادن تفاوت آن‏ها با ضرایب ‪ α‬و‬ ‫‪ X‬استفاده کرده‏ایم‪.‬‬ ‫‪ β‬در رگرسیون شامل متغیرهای ‪ Y‬و ‏‬ ‫به‏نظر می‏رســد که درک ارتباط بین برآوردهای ‪ OLS‬از رگرسیون اصلی و‬ ‫آن رگرسیونی که با متغیرهای انحراف از میانگین نوشته شده است آسان باشد‪.‬‬ ‫∧‬ ‫برآورد ‪ OLS‬از ‏‪ b‬همیشــه دقیقا برابر با ‪ β‬و برآورد ‪ OLS‬از ‪ a‬همیشــه برابر‬ ‫صفر است‪ .‬به‏عبارت دیگر‪ ،‬انحراف از میانگین گرفتن‪ ،‬مدل رگرسیون را ساده‬ ‫می‏کند زیرا در چنین رگرسیونی دیگر جزء ثابت یا همان عرض از مبدا وجود‬ ‫ندارد (یعنی دلیلی برای وجود آن نیســت زیرا ضریب آن همیشه صفر است)‪.‬‬ ‫این ساده‏سازی تاثیری بر ضریب شیب مدل رگرسیون ندارد‪ .‬ضریب شیب پس‬ ‫از انحراف از میانگین گرفتن بدون تغییر می‏ماند و تفســیر آن هم‏چنان مثل قبل‬ ‫‪1- Deviations from means‬‬

‫‪123‬‬

‫فصل ‪ :4‬معرفی رگرسیون ساده‬

‫و‬

‫‪xy=ii Yi − Y‬‬

‫و نشــان‏دهنده تاثیر نهایی یا مارژینال است‪ .‬اثبات ادعای پاراگراف قبل سخت‬ ‫نیســت و اگر ریاضی‏تان خوب باشد می‏توانید خودتان انجامش دهید‪ .‬به‏عنوان‬ ‫راهنما‪ ،‬به این نکته توجه کنید که میانگین ‪ y‬و ‪x‬‏ صفر است‪.‬‬ ‫در فصل ‪ ،6‬مدل رگرسیونی را در نظر می‏گیریم که چندین متغیر توضیحی‬ ‫داشته باشــند‪ .‬در این حالت اگر از متغیر وابســته و تمام متغیرهای توضیحی‬ ‫انحراف از میانگین بگیرید‪ ،‬نتیجه یکســانی به‏دست می‏آورید‪ .‬یعنی جزء ثابت‬ ‫از رگرسیون ناپدید می‏شود ولی باقی ضرایب رگرسیون بدون تغییر می‏مانند‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪124‬‬

‫فصل ‪5‬‬ ‫جنبه‏های آماری رگرسیون‬

‫‪1- Introductory statistics for business and economics‬‬ ‫‪2- Thomas Wonnacut‬‬ ‫‪3- Ronald‬‬ ‫ ‬ ‫‪4- Undergraduate econometrics‬‬ ‫‪5- R. Carter Hill‬‬ ‫ ‬ ‫‪6- William Griffiths‬‬ ‫ ‬ ‫‪7- George Judges‬‬

‫‪125‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫علم آمار‪ ،‬رشــته‏‏ای است مبتنی بر ریاضیات و نظریه احتمال‪ .‬اما از آن‌جاکه‬ ‫پیش‏فرض این کتاب آن اســت که شما دانشــی در این حوزه‏ها ندارید‪ ،‬درک‬ ‫ِ‬ ‫آماری مدل رگرســیون‪ ،‬منوط به مطالعات بیشتر شما خواهد‬ ‫کامل موضوعات‬ ‫‪2‬‬ ‫‪1‬‬ ‫بود‪ .‬کتاب مقدمه‏ای بر آمار برای بازرگانی و اقتصاد نوشــته توماس واناکات‬ ‫و رونالد‪ 3‬واناکات (چاپ چهارم‪ ،‬انتشــارات جان وایلی اند سانز‪ )1990 ،‬یک‬ ‫کتاب آمار پایه مناسب است‪ .‬همچنین کتاب اقتصادسنجی کارشناسی‪ 4‬نوشته آر‪.‬‬ ‫کارتر هیل‪ ،5‬ویلیام گریفیتز‪ 6‬و جرج جاجز‪(7‬چاپ دوم‪ ،‬انتشارات جان وایلی اند‬ ‫سانز‪ )2000 ،‬یک کتاب درسی مقدماتی مناسب برای درس اقتصادسنجی است‪.‬‬ ‫امــا به‏جای منتظر ماندن برای انجام مطالعات بیشــت ِر شــما‪ ،‬در فصل حاضر‬ ‫ایــن کارها را انجام می‏دهیم‪ )1( :‬بحث در مورد این‌که در مدل رگرســیون از چه‬ ‫روش‏های آماری استفاده می‏شود؛ (‪ )2‬نشان دادن این‌که چگونه می‏توان با استفاده‬ ‫از این روش‏های آماری تحلیل رگرسیون را انجام داد و نتایج به‏دست آمده را تفسیر‬ ‫کرد؛ و (‪ )3‬استفاده از نمودار برای درک و کشف این‌که نتایج آماری مزبور از کجا‬

‫می‏آیند و چرا این‏‏طور تفسیر می‏شوند (یعنی کجا و چرای تحلیل آماری)‪ .‬کارمان‬ ‫را با تاکید بر تمایزی که در فصل قبل بین ضرایب رگرسیون ‪ α‬و ‪ ، β‬و برآوردهای‬ ‫∧‬ ‫∧‬ ‫روش ‪ OLS‬از آن‏ها یعنی ‪ α‬و ‪ β‬به‏وجود آمد آغاز می‏کنیم‪ .‬به‌خاطر بیاورد که فصل‬ ‫‪ 4‬با یک مدل رگرسیون به‏شکل زیر شروع شد‪:‬‬ ‫‪Yi = α + βXi + ei‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪126‬‬

‫که ‪ i=1‬تا ‪N‬‏ تعداد مشــاهدات است‪ .‬همان‏طور که قبال گفتیم‪ α ،‬و ‪ β‬ارتباط‬ ‫‪ X‬را اندازه می‏گیرند‪ .‬به این موضوع هم اشــاره کردیم که ما نمی‏دانیم که‬ ‫بین ‪ Y‬و ‏‬ ‫این ارتباط چگونه است‪ ،‬یعنی ‪ α‬و ‪ β‬دقیقا چند هستند‪ .‬سپس به روشی که حداقل‬ ‫∧‬ ‫∧‬ ‫مربعات معمولی یا ‪ OLS‬نامیده می‏شــود‪ ،‬برآورد آن‏‏ها یعنی ‪ α‬و ‪ β‬را به‏دســت‬ ‫آوردیم‪ .‬همچنین تاکید کردیم که ‪ α‬و ‪ β‬ضرایب واقعی اما ناشناخته‏اند در حالی‏که‬ ‫∧‬ ‫∧‬ ‫‪ α‬و ‪ β‬صرفا برآورد هستند (و به احتمال زیاد دقیقا برابر ‪ α‬و ‪ β‬نیستند)‪.‬‬ ‫این مالحظات ما را به این پرســش می‏رساند که آیا می‏توانیم بفهمیم که این‬ ‫برآوردها چقدر دقیق هستند؟ خوشبختانه می‏توانیم‪ ،‬البته با استفاده از تکنیک‏های‬ ‫آماری‪ .‬به بیان دقیق‏تر‪ ،‬این تکنیک‏ها ما را قادر می‏سازند تا برای ضرایب رگرسیون‏مان‬ ‫فاصله اطمینان‪ 1‬بسازیم و روی آن‏ها آزمون فرضیه‪ 2‬انجام دهیم‪.‬‬ ‫‪ ،O‬بــرآورد نقطه‏ای‪ 3‬از ‪ β‬ارائــه می‏کند (یعنی‬ ‫به‏اصطــاح می‏گوییم که ‪ LS‬‏‬ ‫∧‬ ‫‪ β = 0 / 000842‬برآورد نقطه‏ای ‪ β‬در رگرسیون جنگل‏زدایی بر تراکم جمعیت‬ ‫در فصل قبل اســت)‪ .‬می‏توان تصور کرد که برآورد نقطه‏ای بهترین حدس ما از‬ ‫مقدار ‪ β‬است‪ .‬فاصله اطمینان‪ ،‬برآورد فاصله‏ای‪ 4‬ارائه می‏کند که به ما اجازه می‏دهد‬ ‫تــا عدم اطمینان خــود در مورد مقدار واقعی ‪ β‬را با یــک جمله بیان کنیم (مثال‬ ‫«مطمئن هستیم که ‪ β‬بزرگ‏تر از ‪ 0/0006‬و کوچک‏تر از ‪ 0/0010‬است»)‪ .‬متناظر با‬ ‫سطوح اطمینان متفاوت‪ ،‬می‏توانیم فواصل اطمینان متفاوتی به‏دست آوریم‪ .‬مثال با‬ ‫فاصله اطمینان ‪ %95‬می‏توانیم بگوییم که «‪ %95‬اطمینان داریم که ‪ β‬در این فاصله‬ ‫قرار می‏گیرد»؛ در مورد فاصلــه اطمینان ‪ %90‬می‏توانیم بگوییم که «‪ %90‬اطمینان‬ ‫‪2- Hypothesis tests‬‬ ‫‪4- Interval estimate‬‬

‫ ‬

‫‪1- Confidence interval‬‬ ‫‪3- Point estimate‬‬ ‫ ‬

‫داریــم که ‪ β‬در این فاصله قرار می‏گیرد» و به‏همیــن ترتیب‪ .‬درجه اطمینانی که‬ ‫در فاصله مدنظرمان داریم (مثال ‪ )%95‬معموال سطح اطمینان‪ 1‬نامیده می‏شود‪ .‬کار‬ ‫عمده دیگری که محققین در عمل انجام می‏دهند‪ ،‬آزمون فرضیه اســت‪ .‬یک مثال‬ ‫از فرضیه‏ای که یک محقق ممکن است بخواهد آزمون کند ‪ β =0‬است‪ .‬اگر این‬ ‫فرضیه درســت باشد به این معناست که متغیر توضیحی‪ ،‬قدرت توضیح‏دهندگی‬ ‫ندارد‪ .‬روش آزمون فرضیه به ما امکان می‏دهد که چنین آزمون‏هایی را انجام دهیم‪.‬‬ ‫هر دو روش فاصله اطمینان و آزمون فرضیه در ادامه همین فصل بیشتر توضیح داده‬ ‫می‏شوند‪ .‬از آن‌جاکه در مسائل اقتصادی ‪ β‬معموال بیش از ‪ α‬اهمیت دارد‪ ،‬تمرکز ما‬ ‫بر آن خواهد بود‪ .‬اما تمام بحث‏‏هایی که برای ‪ β‬انجام می‏شود‪ ،‬به‏طور مشابه برای‬ ‫‪ α‬نیز مورد توجه قرار می‏گیرد‪.‬‬

‫ما چهار مجموعه داده مختلف برای ‪ X‬و ‏‬ ‫‪ Y‬در مدل رگرسیون با ‪ α =0‬و‪β =1‬‬

‫را خودمان به‏طور مصنوعی شبیه‏ســازی کردیم‪ .‬نمودار ‪XY‬‏ این چهار مجموعه‬ ‫داده مختلف در نمودارهای ‪ 5-3 ،5-2 ،5-1‬و ‪ 5-4‬نشان داده شده‏اند‪ .‬تمام این‬ ‫مجموعه داده‏ها دارای مقدار ضرایب واقعی مشابه برابر ‪ α =0‬و‪ β =1‬هستند‬ ‫(چون خودمان آن‏ها را ســاخته‏ایم) و امیدواریم هنگامی که مدل رگرسیون را‬ ‫∧‬ ‫برای هر کدام از این چهار مجموعه داده تخمین می‏زنیم‪ ،‬برآوردهای ما از ‪ α‬و‬ ‫∧‬ ‫‪ β‬تقریبا به‏ترتیب برابر ‪ 0‬و ‪ 1‬باشد‪ .‬اما تصور کنید که بخواهید یک خط مستقیم‬ ‫از میان نمودار ‪ XY‬برازش کنید (همانند آن‏چه ‪ OLS‬انجام می‏دهد)‪ ،‬نباید انتظار‬ ‫داشته باشــید که تمام این چهار خط به‏طور یکسانی دقیق باشند‪ .‬از دقت خط‬ ‫مستقیمی که االن برازش کرده‏اید چقدر اطمینان دارید؟ به‏آسانی می‏توان دید که خط‬ ‫‪ Y‬در این نمودار‬ ‫برازش نمودار ‪ 5-3‬دقیق‏ترین است‪ .‬یعنی به‏راستی ارتباط بین ‪ X‬و ‏‬ ‫به همان شکل خط صافی است که باال می‏رود؟ حتی اگر از خط‏کش استفاده کنید و‬ ‫‪1- Confidence level‬‬

‫‪127‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫∧‬

‫چه عواملی بر دقت برآورد ‪ β‬تاثیر می‏گذارند؟‬

‫بهترین خط برازش از میان نمودار ‪ XY‬را با دست رسم کنید‪ ،‬می‏بینید که جزء ثابت‬ ‫(عرض از مبدا) یا همان ‪ α‬بسیار نزدیک به صفر و شیب یا ‪ β‬نزدیک به ‪ 1‬است‪ .‬بر‬ ‫خالف این نمودار‪ ،‬در مورد دقت خط برازش مستقیمی که در نمودارهای ‪5-2 ،5-1‬‬ ‫و ‪ 5-4‬ترسیم می‏کنید اطمینان کمتری خواهید داشت‪.‬‬ ‫نمودار ‪ .5-1‬حجم مثال بسیار کوچک‬

‫تحلیل داده‌های اقتصادی‬

‫‪128‬‬

‫نمودار ‪ .5-2‬حجم مثال بزرگ‪ ،‬واریانس خطای بزرگ‬

‫این نمودارها سه عامل اصلی تاثیرگذار بر دقت برآوردهای ‪ OLS‬و به‏طور‬ ‫متناظر‪ ،‬عدم اطمینان و فقدان دانش ما در مورد مقدار واقعی ‪ β‬را نشان می‏دهند‪:‬‬ ‫‪ -1‬داشتن داده‏های بیشــتر دقت برآورد را افزایش می‏دهد‪ .‬این موضوع را‬ ‫می‏توان با مقایسه نمودار ‪ )N=5( 5-1‬و نمودار ‪ )N=100( 5-3‬دید‪.‬‬ ‫نمودار ‪ .5-3‬حجم مثال بزرگ‪ ،‬واریانس خطای کوچک‬

‫نمودار ‪ .5-4‬مقادیر ‪ x‬مشاهدات به یک ناحیه کوچک محدود است‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫‪129‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪130‬‬

‫‪ -2‬داشتن خطاهای کوچک‏تر دقت برآورد را افزایش می‏دهد‪ .‬به‏طور مشابه‪،‬‬ ‫اگر ‪ SSR‬کوچک باشد یا واریانس خطاها کوچک باشد‪ ،‬دقت برآورد افزایش‬ ‫خواهد یافت‪ .‬این موضوع را می‏توان با مقایســه نمودار ‪( 5-2‬واریانس خطای‬ ‫بزرگ) با نمودار ‪( 5-3‬واریانس خطای کوچک) مالحظه کرد‪ .‬اگر در فهم این‬ ‫نکته به مشــکل برخوردید‪ ،‬خط مســتقیمی با جزء ثابت صفر و شیب یک در‬ ‫نمودارهای ‪ 5-2‬و ‪ 5-3‬رســم کنید و سپس به پســماندها دقت کنید (همانند‬ ‫آن‏چــه در نمودار ‪ 4-1‬وجود دارد)‪ .‬باید بتوانید ببینید که اغلب پســماندها در‬ ‫نمودار ‪ 5-2‬بسیار بزرگ‏تر (قدر مطلق‏شان) از پسماندهای نمودار ‪ 5-3‬هستند‪.‬‬ ‫این باعث بزرگ‏تر شــدن ‪( SSR‬فرمول مربوطه را در فصل ‪ 4‬ببینید) می‏شود‪،‬‬ ‫و چون پسماندها و اجزای خطا چیزهای مشابهی هستند‪ ،‬باعث بزرگ‏تر شدن‬ ‫واریانس اجزای خطا نیز می‏شــود (فرمول محاسبه انحراف معیار متغیرها را در‬ ‫بخش آمار توصیفی فصل ‪ 2‬مالحظه کنید و به‏یاد داشته باشید که واریانس همان‬ ‫توان دوم انحراف معیار است)‪.‬‬ ‫‪ -3‬داشــتن محدوده‏ای بزرگ‏تر (یا واریانــس بزرگ‏تر) برای مقادیر متغیر‬ ‫توضیحی (‪ )X‬دقت برآورد را افزایش می‏دهد‪ .‬این موضوع را می‏توان با مقایسه‬ ‫نمودار ‪( 5-3‬مقادیر متغیر توضیحی در تمام نمودار از ‪ 0‬تا ‪ 6‬گسترده شده‏اند)‬ ‫با نمودار ‪( 5-4‬مقادیر متغیر توضیحی در محدوده‏ای کوچک توزیع شــده‏اند و‬ ‫همه آن‏ها به‏شکل یک خوشه حول عدد ‪ 3‬متمرکز هستند) مالحظه کرد‪.‬‬ ‫تاثیر این ســه عامل منطقی و بدیهی اســت‪ .‬با توجه به دو عامل اول‪ ،‬قابل‬ ‫فهم است که با در اختیار داشتن داده‏های بیشتر یا خطاهای کوچک‏تر باید دقت‬ ‫برآورد افزایش یابد‪ .‬عامل سوم احتماال کمتر بدیهی به‏نظر می‏رسد اما یک مثال‬ ‫ساده کمک می‏کند تا موضوع را درک کنید‪.‬‬ ‫فرض کنید که عالقه‏مند به بررســی تاثیر سطح آموزش (سال‏های تحصیل‬ ‫=‪ )X‬بــر درآمد افراد هســتید (درآمد =‪ .)Y‬برای فهم طبیعــت چنین ارتباطی‪،‬‬ ‫قصد دارید با افراد گوناگونی (یعنی افراد بی‏ســواد‪ ،‬افراد دارای مدرک متوسطه‬ ‫یا دیپلمه‪ ،‬افراد دیپلمه‏ای که برخی آموزش‏های حرفه‏ای پس از دبیرســتان را‬

‫^‬ ‫محاسبه فاصله اطمینان برای ‪α‬‬

‫تاثیر سه عامل باال در تخمین فاصله‏ای ‪ β‬یا همان فاصله اطمینان منعکس می‏شود‪.‬‬ ‫∧‬ ‫این فواصل نشــان‏دهنده عدم اطمینان در مورد دقت برآورد ‪ β‬هستند‪ .‬هرچه‬ ‫فاصله اطمینان کوچک‏تر باشد‪ ،‬نشان‏دهنده دقت بیشتر است‪ .‬به‏طور معکوس‪،‬‬ ‫یک فاصله اطمینان بزرگ نشــان‏‏دهنده عدم اطمینان زیاد در مورد مقدار واقعی‬ ‫∧‬ ‫‪ β‬اســت‪ .‬در اغلب موار محققین فاصله اطمینان را عالوه بر (یا حتی به جای)‬ ‫بــرآورد نقطه‏ای ‪ OLS‬گزارش می‏کنند‪ .‬فرمول ریاضی فاصله اطمینان ‪ β‬عبارت‬ ‫است از‪]3[ :‬‬ ‫∧‬ ‫∧‪‬‬ ‫‪‬‬ ‫‪β− t b sb . β+ t b sb ‬‬

‫گــزاره «متغیر ‪ W‬بیــن ‪ a‬و ‪ b‬قرار می‏گیرد» یا «‪ W‬بزرگ‏تر مســاوی ‪ a‬و‬ ‫کوچک‏تر مســاوی ‪ b‬است» را به‏شکل ریاضی می‏توان این‏گونه نوشت که‪W« :‬‬

‫‪131‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫گذرانده‏اند‪ ،‬افراد دارای مدرک دانشــگاهی‪ ،‬افراد دارای مدرک دکتری و غیره‬ ‫) مصاحبــه کنید‪ .‬ب ‏ه عبارت دیگر‪ ،‬می‏خواهید با طیف گســترده‏ای از جمعیت‬ ‫مصاحبه کنید تا بتوانید تا جای ممکن اطالعات بیشــتری از سطوح تحصیالت‬ ‫افراد مختلف جمع‏آوری کنید‪ .‬به اصالح آماری‪ ،‬این یعنی شــما می‏خواهید ‪X‬‬ ‫واریانس بزرگی داشــته باشد‪ .‬اگر از این استراتژی پیروی نکنید ‪-‬مثال اگر فقط‬ ‫بــا افراد دارای مدرک دکتری مصاحبه کنیــد‪ -‬تصویر غیرقابل‏اعتمادی از تاثیر‬ ‫آموزش بر تحصیالت خواهید داشت‪ .‬در این مورد‪ ،‬شما احتماال نمی‏فهمید که‬ ‫آیا ارتباط بین آموزش و درآمد مثبت بوده است‪ .‬مثال بدون جمع‏آوری داده‏های‬ ‫مربوط به افرادی که در ‪ 16‬ســالگی مدرسه را ترک کرده‏اند احتماال نمی‏فهمید‬ ‫که آنان درآمد کمتری از افراد دارای مدرک دکتری کسب می‏کنند‪.‬‬ ‫داشــتن گستره‏ای بزرگ از مقادیر (یعنی واریانس بزرگ‏تر) متغیر توضیحی یا‬ ‫همان ‪ ،X‬یک ویژگی مطلوب هر تحلیل است‪ ،‬در حالی‏که داشتن گستره‏ای بزرگ از‬ ‫مقادیر (یعنی واریانس بزرگ‏تر) خطا یا همان ‪ ،e‬یک ویژگی نامطلوب است‪.‬‬

‫در بازه یا فاصله [‪ ]a.b‬قرار می‏گیرد»‪ .‬از این نماد ریاضی به تناوب در این کتاب‬ ‫استفاده شده اســت‪ .‬روش دیگر بیان فرمول باال این است که بگوییم اطمینان‬ ‫زیادی وجود دارد که مقدار واقعی ‪ β‬در نابرابری زیر صدق کند‪:‬‬ ‫∧‬

‫∧‬

‫‪β− t b sb ≤ β ≤ β+ t b sb‬‬ ‫∧‬

‫در معادله باال از ســه عدد استفاده شده است که باید محاسبه شوند‪t b ، β :‬‬ ‫∧‬

‫تحلیل داده‌های اقتصادی‬

‫‪132‬‬

‫و ‪ . sb‬اولیــن عدد یعنی ‪ β‬را قبال بــا جزییات توضیح دادیم اما با دو تای دیگر‬ ‫تاکنون آشنا نشده‏اید‪ .‬بســته‏های نرم‏افزار رایانه‏ای مثل اکسل می‏توانند به‏طور‬ ‫یتوانید مقدار فاصله اطمینان‬ ‫اتوماتیک فاصله اطمینان را حســاب کنند‪ .‬پس م ‪‎‬‬ ‫را حتی بدون دانســتن فرمول باال و تعاریف ‪ tb‬و ‪ sb‬حساب کنید‪ .‬ساده‏ترین‬ ‫∧‬ ‫چیزی که در مورد ‪ tb ، β‬و ‪ sb‬می‏توان گفت این است که این‏ها سه عدد هستند‬ ‫که توســط رایانه محاسبه می‏شــوند‪ .‬اما ارزش دارد که درک و دانشی اولیه در‬ ‫مورد این‌که فاصله اطمینان از کجا می‏آید داشته باشید و این دانش به فهم نتایج‬ ‫کمک می‏کند‪ .‬در ادامه هر یک از ســه عددی که برای محاسبه فاصله اطمینان‬ ‫نیاز است را توضیح می‏دهیم و این توضیحات را با موضوعی که قبال در مورد‬ ‫∧‬ ‫∧‬ ‫عوامل موثر بر دقت برآورد ‪ β‬وجود داشت پیوند می‏دهیم‪ .‬اولین عدد ‪ β‬است‬ ‫که همیشــه در فاصله اطمینان وجود دارد (در واقع‪ ،‬درســت در وسط آن قرار‬ ‫∧‬ ‫دارد)‪ .‬دومین عدد ‪ sb‬یا انحراف معیار ‪ β‬اســت‪ .‬موضو ِع اندکی گیج‏کننده این‬ ‫اســت که ‪ sb‬اغلب به نام پارامتر مقابل انحراف معیار خوانده می‏شود؛ همچنان‬ ‫که خطای استاندارد هم این‏طور اســت‪ .‬در فصل ‪ ،2‬انحراف معیار را به‏عنوان‬ ‫مقیاسی برای پراکندگی (یعنی گستره یا تغییرپذیری) یک متغیر تعریف کردیم‪.‬‬ ‫مثال نمودار ‪ 2-2‬هیستوگرام متغیر ‪ GDP‬سرانه برای مجموعه داده بین کشوری‬ ‫‪ GDPPC.XLS‬اســت‪ .‬در همان فصل ‪ 2‬بحــث کردیم که انحراف معیار‪GDP‬‬ ‫سرانه مقیاس میزان تغییرات ‪ GDP‬سرانه بین کشورهای مختلف است‪ .‬هرچند‬ ‫∧‬ ‫ممکن اســت کمی عجیب به‏نظر برسد اما می‏توان ‪ β‬را نیز یک متغیر دانست‬ ‫همان‏طور که ‪ GDP‬ســرانه یک متغیر است‪ .‬به عبارت دیگر می‏توانیم انحراف‬ ‫معیار آن را حســاب کنیــم و از آن به‏عنوان معیاری بــرای عدم‏اطمینان‏مان در‬

‫مورد دقت برآوردش اســتفاده کنیم‪ .‬مقادیر بزرگ ‪ sb‬دال بر عدم اطمینان زیاد‬ ‫∧‬ ‫اســت‪ .‬در این مورد‪ β ،‬ممکن است تخمینی بسیار نادقیق از ‪ β‬باشد‪ .‬در مقابل‬ ‫مقادیر کوچک ‪ sb‬نشان‏دهنده عدم‏اطمینان کمتر است‪ .‬اگر این‏طور باشد آن‏گاه‪،‬‬ ‫∧‬ ‫‪ β‬تخمینــی دقیق از ‪ β‬خواهد بود‪ .‬در فصل‏های دیگــر فرمول‏های ریاضی را‬ ‫در ضمیمــه قرار می‏دهیم اما این‌جا به‏منظور درک چگونگی ارتباط بین فرمول‬ ‫فاصله اطمینان و نمودارهای ‪ 5-1‬تا ‪ ،5-4‬به کمی فرمول ریاضی نیاز است‪ .‬از‬ ‫∧‬ ‫فرمول زیر برای انحراف معیار ‪ β‬استفاده می‏کنیم‪:‬‬ ‫‪SSR‬‬

‫‪2‬‬

‫) ‪( N − 2 ) ∑ ( Xi − X‬‬

‫= ‪sb‬‬

‫∧‬

‫‪133‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫ایــن فرمــول‪ ،‬تغییرپذیری یا عــدم اطمینان ‪ β‬را انــدازه می‏گیرد و تمام‬ ‫موضوعاتــی که قبال در مورد نمودارهای ‪ 5-3 ،5-2 ،5-1‬و ‪ 5-4‬بحث کردیم‬ ‫را شامل می‏شود‪ .‬با دقت به فرمول فاصله اطمینان معلوم می‏شود که هرچه ‪sb‬‬ ‫بزرگ‏تر باشــد‪ ،‬فاصله اطمینان نیز گسترده‏تر (عریض‏تر) می‏شود‪ .‬به این نکته‬ ‫دقت کنید؛ سپس به جمالت فرمول ‪ sb‬نگاه کنید‪ ،‬می‏توانیم نتیجه بگیریم که‪:‬‬ ‫‪ sb -1‬و در نتیجــه عرض فاصله اطمینان‪ ،‬به‏طور مســتقیم با ‪ SSR‬ارتباط‬ ‫دارد (یعنی هرچه خطای‪/‬پسماند متغیرها بیشتر باشد‪ ،‬دقت برآورد کمتر است)‪.‬‬ ‫‪ sb -2‬و در نتیجــه عرض فاصله اطمینان‪ ،‬به‏طور معکوس با ‪ N‬ارتباط دارد‬ ‫(یعنی هرچه تعداد مشاهدات بیشتر باشد‪ ،‬دقت برآورد بیشتر است)‪.‬‬ ‫‪2‬‬ ‫‪ sb -3‬و در نتیجــه عرض فاصله اطمینان‪ ،‬به‏طور معکوس با ) ‪∑ ( Xi − X‬‬ ‫ارتباط دارد (یعنی هرچه تغییرپذیری ‪ X‬بیشتر باشد‪ ،‬دقت برآورد بیشتر است)‪.‬‬ ‫‪2‬‬ ‫همان‏طور که در فصل ‪ 2‬توضیح داده شــد‪ ،‬می‏دانیم که ) ‪ ∑ ( Xi − X‬مولفه‬ ‫اصلی انحراف معیار ‪ X‬است‪ .‬به‏شکل دقیق‏‏تر‪ ،‬هرچه این عبارت بزرگ‏تر باشد‪،‬‬ ‫انحراف معیار ‪ X‬هم بزرگ‏تر خواهد بود‪.‬‬ ‫تاکید می‏کنیم که این ســه فاکتور (یعنــی ‪ N، SSR‬و انحراف معیار ‪ )X‬که‬ ‫بر عرض فاصلــه اطمینان تاثیر می‏گذارند‪ ،‬همان عواملی هســتند که بر دقت‬

‫∧‬

‫روش ‪ OLS‬برای برآورد ‪ β‬هم تاثیر می‏گذارند‪ .‬سومین عدد در فرمول فاصله‬ ‫اطمینان‪ tb ،‬است‪ .‬بدون داشتن زمینه و مطالعه قبلی در آمار‪ ،‬سخت بتوان درکی‬ ‫شــهودی و مستقیم از این مفهوم به‏دست آورد‪ .‬برای خوانندگانی که اندک آمار‬ ‫می‏دانند‪ ،‬یادآوری می‏کنیم که ‪ tb‬مقداری است که از جداول آماری ‪ t‬استیودنت‬ ‫به‏دست می‏آید‪ .‬در ضمیمه ‪ 5-1‬در مورد ‪ tb‬بحث شده است‪ .‬در مثال زیر سعی‬ ‫کردیم به‏طور ضمنی معنای آن را بیان کنیم‪.‬‬

‫مثال‪ :5-1‬نظرسنجی‏های انتخاباتی‬

‫در نظرســنجی‏های سیاســی که معموال در هفته‏هــا و ماه‏های پیش از‬

‫تحلیل داده‌های اقتصادی‬

‫انتخابات برگزار می‏شــوند‪ ،‬ممکن اســت با مفهوم «بــرآورد نقطه‏ای»‬ ‫و فاصله اطمینان مواجه شــوید‪ .‬در چنین نظرســنجی‏هایی معموال از‬

‫‪134‬‬

‫چندصد نفر از رای‏دهندگان بالقوه طی تماس تلفنی پرسیده می‏شود که‬ ‫به کدام حزب یا کاندیدا رای خواهند داد‪ .‬فرض کنید که حزب الف در‬

‫انتخابات شــرکت کرده است‪ .‬روزنامه گزارش می‏دهد که ‪ %43‬از افراد‬ ‫بررسی شــده به حزب الف رای خواهند داد‪ .‬این عدد تخمین نقطه‏ای‬

‫روزنامه از تصمیم رای‏دهندگان در روز انتخابات اســت‪ .‬البته به‏ندرت‬ ‫اتفاق می‏افتد که نتیجه واقعی انتخابــات دقیقا منطبق بر پیش‏بینی‏های‬ ‫قبلی باشد‪ .‬این اختالف‪ ،‬نکته‏ای را نشان می‏دهد که قبال در همین فصل‬ ‫∧‬

‫در زمینه مدل رگرســیون بر آن تاکید کردیم‪ :‬تخمین نقطه‏ای (یعنی ‪) β‬‬ ‫اگر نگوییم هیچ‏وقت‪ ،‬به‏ندرت با مقدار واقعی (یعنی ‪ ) β‬یکسان می‏شود‪.‬‬

‫روزنامه‏ها معموال می‏دانند که نظرسنجی‏شان کامال دقیق نخواهد بود و‬

‫اغلب اوقات جمالتی مانند «دقت این نتایج‪ %±2‬اســت» را به گزارش‬

‫خود اضافه می‏کنند‪ .‬این نتایج از فاصله اطمینان (معموال فاصله اطمینان‬

‫‪ )95%‬به‏دســت می‏آینــد هرچند در روزنامه اشــاره‏ای به این موضوع‬ ‫نمی‏شود‪ .‬اگر روزنامه بخواهد نتایج خود را با جمالتی علمی بیان کند‬

‫باید بگوید» ما ‪ %95‬اطمینان داریم که رای حزب الف در انتخابات بین‬ ‫‪ %41‬و ‪ 45%‬خواهد بود‪( ».‬فاصله اطمینان ‪ %95‬بســیار متداول است و‬

‫هرجا مالحظه کردید که فاصله اطمینان دقیقا تصریح نشــده است‪ ،‬آن‬ ‫را ‪ %95‬فــرض کنید‪).‬این مثال درک شــما از فاصله اطمینان را افزایش‬ ‫می‏دهد‪ .‬نکته این مثال آن اســت که سطوح اطمینان متفاوت‪ ،‬منجر به‬

‫فواصل اطمینان متفاوتی می‏شوند‪ .‬مثال بیایید به سطح اطمینان ‪ %100‬فکر‬ ‫کنیم؛ این سطح اطمینان یعنی مطمئن هستیم حزب الف بین ‪ %0‬و ‪%100‬‬

‫اطمینان ‪ %100‬برای درصد آرای حزب الف عبارت اســت از [‪.]100/0‬‬ ‫حاال به مثالی دیگر توجه کنید‪ :‬چقدر می‏توانیم مطمئن باشیم که حزب‬

‫الف دقیقا ‪ %43‬از آرا را به‏دست خواهد آورد؟ احتماال خیلی نمی‏توانیم‬

‫مطمئن باشیم زیرا همان‏طور که گفته شد در عمل به‏ندرت اتفاق می‏افتد‬ ‫که نتیجه نظرسنجی‏ها و نتایج واقعی انتخابات دقیقا بر هم منطبق باشند‪.‬‬

‫به این دلیل است که یک فاصله اطمینان کم‏عرض یا کوچک حول عدد‬ ‫‪( %43‬مثال [‪ )]42.9.43.1‬ســطح اطمینان بسیار کوچکی خواهد داشت‬

‫(مثال ‪ .)%10‬پس نتیجه می‏گیریم که هرچه اطمینان بیشــتری به فاصله‬ ‫تعیین‏شده داشته باشیم‪ ،‬عرض آن بیشتر خواهد شد‪ .‬مثال فاصله اطمینان‬

‫‪ %99‬همیشــه عریض‏تر از فاصله اطمینان ‪ %95‬خواهد بود‪ .‬عدد ‪ tb‬در‬

‫واقع سطح اطمینان را کنترل می‏کند‪ .‬اگر سطح اطمینان زیاد باشد (مثال‬ ‫گ خواهد بود اما اگر ســطح اطمینان کم باشد (مثال‬ ‫‪ )%99‬آن‏گاه ‪ tb‬بزر ‏‬ ‫‪ tb )%10‬نیز کوچک خواهد بود‪.‬‬

‫‪135‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫آرا را در روز فاصله انتخابات به خود اختصاص خواهد داد‪ .‬پس فاصله‬

‫تحلیل داده‌های اقتصادی‬

‫‪136‬‬

‫مطابق نظریه آماری رگرسیون باید بر نکات تاکید کنیم (بدون فراتر رفتن از‬ ‫توضیحاتی که در مثال قبل گفتیم)‪:‬‬ ‫‪ tb -1‬با ‪ N‬افزایش می‏یابد (یعنی هرچه داده‏های بیشــتری در اختیار داشته‬ ‫باشیم‪ ،‬فاصله اطمینان کوچک‏تر خواهد شد)‪.‬‬ ‫‪ tb -2‬با سطح اطمینانی که انتخاب می‏کنید‪ ،‬افزایش می‏یابد‪.‬‬ ‫محققین اغلب از فاصله اطمینان ‪ %95‬اســتفاده می‏کنند هرچند از ســایر‬ ‫فواصل نیز می‏توان اســتفاده کرد (مثال گاه از فواصل اطمینان ‪ %99‬یا ‪ %90‬هم‬ ‫استفاده می‏شود)‪.‬‬ ‫عبارت زیر یک تعریف مفید (اما نادقیق) فاصله اطمینان ‪ %95‬است‪%95« :‬‬ ‫احتمال دارد که مقدار واقعی ‪ β‬در فاصله اطمینان ‪ %95‬واقع شــود‪ ».‬تفســیر‬ ‫دقیق و درســت (اما کتابی و دشوار) عبارت فوق این است‪ :‬اگر برای محاسبه‬ ‫فاصلــه اطمینان به‏طور مکرر (و در مجموعه داده‏های متفاوت) از فرمول باال‬ ‫اســتفاده کنید‪ %95 ،‬از فواصل اطمینانی که ساخته می‏شوند دربرگیرنده مقدار‬ ‫واقعی ‪ β‬هستند‪ ».‬همین عبارت را می‏توان برای فواصل اطمینان ‪ %99‬یا ‪%90‬‬ ‫هم بیان کرد‪.‬‬ ‫واضح است که تفسیر فاصله اطمینان نسبتا ساده است (و در مثال‏های ِ‬ ‫بعدی‬ ‫همین فصل بیشــتر توضیح داده خواهد شــد)‪ .‬انتظار می‏رود که با توضیحات‬ ‫قبلی‪ ،‬اندکی با نظریه آماری موجود در فاصله اطمینان آشــنا شده باشید‪ .‬حتی‬ ‫اگر این توضیحات را به‏طور کامل نفهمیده باشــید باز هم می‏توانید با استفاده‬ ‫از اغلب بسته‏های نرم‏افزاری اســتاندارد رایانه‏ای‪ ،‬فاصله اطمینان را به‏سادگی‬ ‫محاسبه کنید‪ .‬مثال‪ ،‬وقتی رگرسیونی را در اکسل اجرا می‏کنید‪ ،‬نرم‏افزار به‏طور‬ ‫پیش‏فرض فاصله اطمینان را محاســبه می‏کند و حد بــاال و پایین آن را با نام‬ ‫«‪ »%lower 95‬و «‪ »%upper 95‬نمایش می‏دهد‪ .‬عالوه بر این در اکسل می‏توانید‬ ‫سطح اطمینان را از ‪ %99‬تا ‪ %90‬تغییر دهید‪.‬‬

‫مثال ‪ :5-2‬فاصله اطمینان برای مجموعه داده‏های‬ ‫منودارهای ‪ 5-1‬تا ‪5-4‬‬

‫شــکل‏های ‪ 5-1‬تا ‪ 5-4‬شامل چهار مجموعه داده مختلف است که در‬

‫همه آن‏ها ‪ α =0‬و‪ β =1‬است‪ .‬داده‏های شکل ‪ 5-3‬ویژگی‏های مطلوبی‬ ‫دارند‪ :‬حجم مثال بزرگ اســت‪ ،‬مقادیر متغیــر توضیحی در آن به‏طور‬

‫مناســبی پراکنده و اجزای خطا کوچک هســتند‪ .‬هر یک از سه نمودار‬ ‫دیگــر‪ ،‬یکی یا چند تا از این ویژگی‏هــای مطلوب را دارند‪ .‬در جدول‬ ‫∧‬

‫‪ 5-1‬تخمین نقطه‏ای ‪ β‬به روش ‪ OLS‬در فواصل اطمینان ‪ %95 ،%90‬و‬ ‫‪ % 99‬برای این چهار مجموعه داده است‪.‬‬

‫∧‬

‫مجموعه داده‬

‫‪β‬‬

‫فاصله اطمینان ‪%99‬‬

‫فاصله اطمینان‬ ‫‪%95‬‬

‫فاصله اطمینان‬ ‫‪%99‬‬

‫نمودار ‪5-1‬‬

‫‪0/91‬‬

‫[‪]-0/92 ,2/75‬‬

‫[‪]-1/57 ,3/39‬‬

‫[‪]-3/64 ,5/47‬‬

‫نمودار ‪5-2‬‬

‫‪1/04‬‬

‫[‪]0/75 ,1/32‬‬

‫[‪]0/70 ,1/38‬‬

‫[‪]0/59 ,1/49‬‬

‫نمودار ‪5-3‬‬

‫‪1/00‬‬

‫[‪]0/99 ,1/01‬‬

‫[‪]0/99 ,1/02‬‬

‫[‪]0/98 ,1/03‬‬

‫نمودار ‪5-4‬‬

‫‪1/52‬‬

‫[‪]-1/33 ,4/36‬‬

‫[‪]-1/88 ,4/91‬‬

‫[‪]-2/98 ,6/02‬‬

‫به نکات زیر توجه کنید‬

‫‪ -1‬اگر به اعداد هر سطر توجه کنید می‏بینید که با بزرگ‏تر شدن سطح‬

‫اطمینان‪ ،‬فاصلــه اطمینان نیز عریض‏تر می‏شــود‏‪ .‬عریض‏ترین فاصله‬

‫مربوط به سطح اطمینان ‪ %99‬داده‏های نمودار ‪ 5-4‬است‪ .‬در این مورد‪،‬‬ ‫اگر بخواهید ‪ %99‬اطمینان داشته باشید‪ ،‬باید قبول کنید که ‪ β‬هر مقدار‬

‫دلخواهی بین ‪ -2/98‬و ‪ 6/02‬را داشته باشد‪.‬‬

‫‪ -2‬مجموعه داده نمــودار ‪ - 5-3‬همان که بهترین ویژگی‏ها را در بین‬

‫‪137‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫جدول ‪ .5-1‬برآورد ‪ OLS‬و فواصل اطمینان‬

‫تمام مجموعه داده‏های دیگر دارد‪ -‬به برآورد ‪ OL‬ای برابر ‪ 1/00‬منجر‬

‫می‏شــود که با دو رقم اعشــار برابر با مقدار واقعی است (مقدار دقیق‬ ‫∧‬

‫‪ β = 1/ 002577‬است)‪.‬‬ ‫‪ -3‬مجموعه داده نمودار ‪ 5-3‬نسبت به داده‏های نمودارهای ‪ 5-1‬و ‪5-2‬‬

‫و ‪ ،5-4‬به فاصله اطمینانی باریک‏تر (عرض کمتر) منجر می‏شــود‪ .‬این‬

‫نتیجه منطقی است چون استفاده از داده‏های نمودار ‪ ،5-3‬نسبت به سایر‬ ‫داده‏ها‪ ،‬به برآورد ‪ OLS‬دقیق‏تری هم منجر شد‪.‬‬

‫‪ -4‬مجموعه داده‏های استفاده‏شــده در ســه نمودار ‪ 5-2 ،5-1‬و ‪5-4‬‬ ‫نتایج مختلفی را به‏بار آورده اســت‪ .‬در پروژه‏های تجربی که به‏درستی‬

‫طراحی شــده‏اند‪ ،‬معموال داده‏هایی مانند داده‏های نمودار ‪ 5-2‬به‏دست‬ ‫تحلیل داده‌های اقتصادی‬

‫می‏آیــد (و به‏ندرت مجموعه داده‏ای مانند آن‏چه در نمودار ‪ 5-3‬وجود‬

‫‪138‬‬

‫دارد به‏دست می‏آید)‪ .‬این مجموعه داده هم ویژگی‏های مناسبی دارد اما‬

‫ایراد آن‪ ،‬خطاهای نسبتا بزرگ است که نشان‏دهنده خطای اندازه‏گیری و‬

‫نقص در نظریه اقتصادی است که گاهی اوقات خود را در امور تجربی‬ ‫نشان می‏دهد‪ .‬برای این مجموعه‬

‫∧‬

‫داده‪β = 1/ 04 ،‬‬

‫به‏دست می‏آید که از‬

‫مقــدار واقعی‪ β =1‬چندان فاصله ندارد‪ .‬با توجه به این مجموعه داده‪،‬‬ ‫می‏توان گزاره‏ای به شکل زیر بیان کرد‪« :‬مقدار ‪ β‬در سطح اطمینان ‪%95‬‬ ‫در فاصله بین [‪ ]0/70 ,1/38‬قرار می‏گیرد» یا «‪ 99%‬مطمئن هستیم که ‪β‬‬

‫بین ‪ 0/59‬و ‪ 1/49‬قرار می‏گیرد»‪.‬‬

‫مترین ‪5-1‬‬

‫مجموعه داده‏های استفاده‏شــده برای ترســیم نمودارهای ‪ 5-3 ،5-2 ،5-1‬و ‪ 5-4‬در‬ ‫فایل‏های ‪ FIG51.XLS، FIG52.XLS، FIG53.XLS‬و ‪ FIG54.XLS‬موجود است‪.‬‬ ‫∧‬

‫∧‬

‫(الف) برآورد ‪ OLS‬از ‪ α‬و ‪ β‬را برای این چهار مجموعه داده به‏دســت آورید‪.‬‬

‫برآوردها چقدر به مقادیر واقعی یعنی ‪ 0‬و ‪ 1‬نزدیک هستند (یعنی مقادیری که ما‬

‫بر مبنای آن‏ها مجموعه داده را ساختیم)؟‬

‫(ب) فاصله اطمینان ‪ %95‬را در هر چهار مجموعه داده حساب کنید‪ .‬ارتباط عرض‬ ‫این فاصله اطمینان با تعداد مشاهدات ‪ N‬و تغییرات جزءخطا را آزمون کنید‪.‬‬

‫(ج) فاصله اطمینان ‪ %99‬و ‪ %90‬را برای تمام مجموعه داده‏ها حســاب کنید‪ .‬نتایج‬

‫به‏دست آمده را با نتیجه فاصله اطمینان بند (ب) مقایسه کنید‪.‬‬

‫مثال ‪ 5-3‬الف‪ :‬رگرسیون جنگل‏زدایی بر تراکم جمعیت‬

‫یعنی داده‏های ‪ FOREST.XLS‬توجــه کنید‪ .‬در فصل قبل دیدیم که‬ ‫∧‬

‫‪ β = 0 / 000842‬بود‪ .‬ب ‏ه عبارت دیگــر تاثیر نهایی یا مارژینال تراکم‬ ‫جمعیت بر جنگل‏زدایی ‪ 0/000842‬اســت‪ .‬فاصله اطمینان ‪ %95‬برای‬ ‫این مقدار [‪ ]0/00061 ,0/001057‬اســت و نشان می‏دهد (با اطمینان‬

‫زیاد) که تاثیر نهایی جمعیت بــر جنگل‏زدایی بزرگ‏تر از ‪ 0/00061‬و‬ ‫کوچک‏تر از ‪ 0/001057‬است‪.‬‬

‫مثال ‪ 5-4‬الف‪ :‬رگرسیون اندازه خانه بر قیمت آن‬

‫در فصل قبل تاثیر اندازه خانه =‪ X‬بر قیمت فروش خانه =‪ Y‬را با استفاده‬ ‫از ‪ 564‬خانه به فروش رفته در وینســور کانادا بررسی کردیم (داده‏های‬

‫‪ HPRICE.XLS‬را مالحظــه کنید)‪ .‬با رگرس کــردن ‪ Y‬بر ‪ X‬معادله‬

‫برآوردی زیر به‏دست می‏آید‪:‬‬

‫=‬ ‫‪Y 34 / 136 + 6 / 59X‬‬

‫‪139‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫دوبــاره به مجموعه داده مثال جنگل‏زدایــی (‪ )Y‬و تراکم جمعیت (‪)X‬‬

‫∧‬

‫∧‬

‫یا به‏طور مشابه‪ α =34 / 136 ،‬و ‪ β = 6 / 59‬است‪ .‬می‏توانیم بگوییم که‬ ‫برآورد ‪ OLS‬از تاثیر نهایی ‪ X‬بر ‪ Y‬برابر ‪ 6/59‬اســت‪ .‬بهترین حدسی‬ ‫که می‏توان زد این اســت که افزایش اندازه خانــه به اندازه یک فوت‬

‫مربع (حــدودا ‪ 0/092‬متر مربع)‪ ،‬باعث ‪ 6/59‬دالر افزایش قیمت خانه‬ ‫می‏شود‪.‬‬

‫فاصله اطمینان ‪ %95‬برای ‪ β‬برابر با [‪ ]5/72 , 7/47‬اســت‪ .‬هرچند تاثیر‬ ‫اندازه خانه بر قیمت آن ‪ 6/59‬دالر برآور ‏د شده است اما مطمئن نیستیم‬

‫که این عدد دقیقا درست باشد‪ .‬اما بسیار مطمئن هستیم ‪ %95-‬اطمینان‪-‬‬ ‫که تاثیر اندازه خانه بر قیمت آن حداقل ‪ 5/72‬دالر و حداکثر ‪ 7/47‬دالر‬

‫باشــد‪ .‬ب ‏ه نظر می‏رســد که این فاصله به هر خریدار یا فروشنده بالقوه‬ ‫تحلیل داده‌های اقتصادی‬

‫معیار و مظنه‏ای از ارزش هر فوت مربع خانه را بدهد‪.‬‬

‫‪140‬‬

‫مترین ‪5-2‬‬

‫فایل ‪ ADVER.XLS‬شامل داده‏های فروش ساالنه=‪ Y‬و مخارج تبلیغات =‪( X‬هر‬ ‫دو به میلیون دالر) برای ‪ 84‬شرکت در آمریکا است‪.‬‬

‫(الف) رگرسیون ‪ Y‬بر ‪ X‬و فاصله اطمینان ‪ %95‬برای ‪ α‬و ‪ β‬را به‏دست آورید‪.‬‬

‫(ب) با اســتفاده از مفهوم حداکثر و حداقل تاثیر ممکن متغیر توضیحی بر متغیر‬ ‫وابسته و طی یک جمله توضیح دهید که فاصله اطمینان ‪ β‬یعنی چه؟‬

‫مترین ‪5-3‬‬

‫فایل ‪ ELECTRIC.XLS‬شامل داده‏های هزینه تولید =‪( Y‬به میلیون دالر) و تولید =‪X‬‬

‫(به هزار کیلووات ساعت) برای ‪ 123‬شرکت فعال در صنعت برق آمریکاست‪ .‬تمرین‬

‫‪ 5-2‬را برای این مجموعه داده تکرار کنید‪.‬‬

‫آزمون فرضیه‬

‫‪141‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫آزمون دیگری که معموال توســط اقتصاددانان تجربی انجام می‏شــود‪ ،‬آزمون‬ ‫فرضیه است‪ .‬مثل فاصله اطمینان‪ ،‬در مورد آزمون فرضیه هم وارد بحث نظری‬ ‫آماری نمی‏شــویم‪ .‬در عوض‪ ،‬روی جزییات کاربردی آن تمرکز می‏کنیم‪ ،‬یعنی‬ ‫این موضوع که چطور آزمون فرضیه را انجام دهیم و نتایج آن را چگونه تفسیر‬ ‫کنیم‪ .‬آزمون فرضیه با تعیین یک فرضیه برای آزمون کردن آغاز می‏شــود‪ .‬این‬ ‫ینامند و با ‪ H0‬نشان می‏دهند‪ .‬این فرضیه با فرضیه مقابل‬ ‫فرضیه را فرضیه صفر م ‪‎‬‬ ‫یا ‪ H1‬مقایسه می‏شود‪ .‬یک فرضیه صفر پرکاربرد‪ ،‬فرضیه صفر ‪ β =0‬است‪ .‬این‬ ‫آزمون به‏شکل رسمی این‏گونه بیان می‏شود که ‪ H0 : β =0‬در مقابل ‪H1 : β ≠ 0‬‬ ‫آزموده می‏شود‪.‬‬ ‫نکته این اســت که اگر ‪ β =0‬باشد آن‏گاه ‪ X‬نباید در مدل رگرسیونی وارد‬ ‫شــود یعنی متغیر توضیحی اصال نمی‏تواند متغیر وابسته را توضیح دهد‪ .‬اگر به‬ ‫نوع سواالت مورد عالقه اقتصاددانان فکر کنید (مثال «آیا سطح تحصیالت باعث‬ ‫افزایش میزان دستمزد بالقوه افراد خواهد شد؟» یا «آیا یک استراتژی مشخص‬ ‫بــرای تبلیغات باعث افزایش فروش خواهد شــد؟» یا «آیا برنامه دولت جدید‬ ‫برای آمــوزش باعث کاهش بیکاری خواهد شــد؟» و غیره) مالحظه خواهید‬ ‫کرد که اغلب این ســواالت دارای فرمی به‏صورت «آیا متغیر توضیحی تاثیری‬ ‫بر متغیر وابســته دارد؟» یا «آیا در رگرســیون ‪ Y‬روی ‪ ،X‬مقدار ‪ β‬مساوی صفر‬ ‫است؟» هدف آزمون فرضیه ‪ β =0‬پاسخ به این سوال است‪.‬‬ ‫اولین نکته مهم این اســت که آزمون فرضیه و فاصله اطمینان ارتباط نزدیکی‬ ‫بــا یکدیگر دارند‪ .‬در حقیقت یک روش بــرای آزمودن این فرضیه که آیا ‪β =0‬‬ ‫است‪ ،‬دقت به فاصله اطمینان ‪ β‬و مشاهده این موضوع است که آیا این فاصله شامل‬ ‫صفر اســت یا خیر؟ اگر چنین نباشــد‪ ،‬ضمن معرفی یک اصطالح آماری‪ ،‬آن‏گاه‬ ‫می‏توانیــم فرضیه ‪ β =0‬را رد کنیم و نتیجه بگیریم که «‪ X‬به‏طور معناداری قدرت‬ ‫توضیح‏دهندگی ‪ Y‬را دارد» یا « ‪ β‬به‏طور معناداری متفاوت از صفر است» یا « ‪ β‬از نظر‬ ‫آماری معنادار است»‪ .‬اگر فاصله اطمینان شامل صفر باشد آن‏گاه واژه «رد می‏کنیم» را‬

‫تحلیل داده‌های اقتصادی‬

‫‪142‬‬

‫به «می‏پذیریم» و عبارت «به‏طور معناداری قدرت توضیح‏دهندگی دارد» را به «به‏طور‬ ‫معناداری قدرت توضیح‏دهندگی ندارد» تغییر می‏دهیم و به‌همین ترتیب‪ .‬این روش‬ ‫اســتفاده از فاصله اطمینان برای آزمودن فرضیه‏ها دقیقا معادل روش رسمی آزمون‬ ‫فرضیه است که در ادامه توضیح داده می‏شود‪.‬‬ ‫همان‏طور که فاصله اطمینان را می‏توان به‏ازای سطوح مختلف اطمینان (که‬ ‫‪ %95‬فاصله اطمینان معمول اســت) محاسبه کرد‪ ،‬آزمون فرضیه را نیز می‏توان‬ ‫به‏ازای ســطوح مختلف معناداری محاســبه کرد‪ .‬اگر از روش فاصله اطمینان‬ ‫برای آزمون فرضیه اســتفاده کنیم‪ ،‬آن‏گاه ســطح معناداری برابر خواهد بود با‬ ‫‪ %100‬منهای ســطح اطمینان‪ .‬یعنی اگر فاصله اطمینان ‪ %95‬شامل صفر نباشد‪،‬‬ ‫آن‏گاه می‏تــوان گفت که «می‏توان فرضیه ‪ β =0‬را در ســطح معناداری ‪ %5‬رد‬ ‫کرد» (یعنی ‪ .)%100-%95=%5‬اگر از فاصله اطمینان ‪ %90‬استفاده شده باشد (و‬ ‫این فاصله اطمینان شامل صفر نباشد) آن‏گاه می‏توان گفت که «می‏توان فرضیه‬ ‫‪ β =0‬را در سطح معناداری ‪ %10‬رد کرد‪».‬‬ ‫روش جایگزین برای آزمودن فرضیه‪ ،‬محاســبه آماره آزمون است‪ .‬در مورد‬ ‫آزمودن فرضیه ‪ ، β =0‬آماره آزمون را آماره ‪ t‬یا نســبت ‪ t‬می‏نامند که به‏شــکل‬ ‫زیر محاسبه می‏شود‪:‬‬ ‫∧‬

‫‪β‬‬ ‫=‪t‬‬ ‫‪sb‬‬

‫اگر مقدار آماره ‪ t‬محاسبه‏شــده بزرگ باشــد به آن معناســت که ‪ β ≠ 0‬است‬ ‫در حالی‏که مقادیر کوچک آن نشــان می‏دهد که ‪ β =0‬است‪ .‬مفهوم ریاضی این‬ ‫∧‬ ‫نتیجه‏گیری‏ها به این شکل است که‪ :‬اگر ‪ β‬در مقایسه با انحراف معیار خودش یعنی‬ ‫‪ sb‬بزرگ باشد‪ ،‬آن‏گاه می‏توانیم نتیجه بگیریم که ‪ β‬به‏طور معناداری مخالف صفر‬ ‫است‪ .‬حال سوالی که پیش می‏آید این است که منظور از دو واژه بزرگ و کوچک‬ ‫چیست؟ چقدر بزرگ یا کوچک کافی است؟ بزرگ یا کوچک بودن آماره آزمون در‬ ‫مقایسه با یک «مقدار بحرانی» ‪-‬که از جدول‏‏های آماری ‪ t‬استیودنت گرفته می‏شود‪-‬‬ ‫معنا می‏یابد‪ .‬جزییات بیشتر در این مورد در ضمیمه ‪ 5-1‬ارائه شده است‪ .‬خوشبختانه‬

‫‪143‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫نیاز نیست خودمان را درگیر جدول‏های آماری کنیم چون اغلب بسته‏های نرم‏افزاری‬ ‫رایانه‏ای مثل اکسل مقداری به‏نام ‪ P-value‬را به‏طور خودکار محاسبه می‏کنند‪ .‬مقدار‬ ‫‪ P-value‬به‏شکلی سرراست مشخص می‏کند که آیا ‪ t‬بزرگ است یا کوچک‪ .‬یک‬ ‫تفسیر مفید (اما به‏شــکل رسمی نادرست) این است که ‪ P-value‬احتمال ‪β =0‬‬ ‫را اندازه می‏گیرد‪ .‬اگر ‪ P-value‬کوچک باشد‪ ،‬بعید است که ‪ β =0‬درست باشد‪.‬‬ ‫بنابراین‪:‬‬ ‫‪ .1‬اگر ‪ P-value‬کوچک‏تر از ‪ %5‬باشد (در رایانه معموال به‏شکل ‪ 0/05‬نشان‬ ‫داده می‏شود) یعنی ‪« t‬بزرگ» است و نتیجه می‏گیریم که ‪ β ≠ 0‬است‪.‬‬ ‫‪ .2‬اگر ‪ P-value‬بزرگ‏تر از ‪ %5‬باشــد‪ ،‬یعنی ‪« t‬کوچک» اســت و نتیجه‬ ‫می‏گیریم که ‪ β =0‬است‪.‬‬ ‫در آزمون قبلی از ســطح اطمینان ‪ %5‬اســتفاده شده است‪ .‬اما اگر بخواهیم‬ ‫به‏جای ســطح اطمینان ‪ %5‬از سطح اطمینان ‪ %1‬اســتفاده کنیم (یعنی ‪ β =0‬را‬ ‫رد کنیم اگر ‪ P-value‬کمتر از ‪ %1‬باشــد) آن‏گاه آزمون فرضیه ما باید در سطح‬ ‫معناداری ‪ %1‬انجام شود‪.‬‬ ‫الزم به ذکر اســت که یک دلیل بــرای تمرکز بر آزمون فرضیه ‪ ، β =0‬به‏دلیل‬ ‫اهمیت آن است‪ ،‬اما به این دلیل هم هست که بسته‏های نرم‏افزاری رایانه‏ای اغلب‬ ‫نتیجه این آزمون فرضیه را نشان می‏دهند‪ .‬حتی بدون داشتن پیش‏زمینه آماری مورد‬ ‫نیاز‪ ،‬می‏توان از نتایج این آزمون فرضیه استفاده کرد‪ .‬اما برای آزمودن فرضیه‏های دیگر‬ ‫(مثل‪ H0 :β =1‬یا فرضیه‏ای که شامل چندین ضریب در رگرسیون چندگانه باشد‬ ‫که در فصل بعد به آن پرداخته می‏شود) نیاز به دانش آماری بیشتری هست (برای‬ ‫جزییات بیشــتر به ضمیمه ‪ 5-1‬مراجعه کنید)‪ .‬ساختار کلی آزمون فرضیه همیشه‬ ‫به‏شــکلی است که در باال توضیح داده شد‪ .‬یعنی (‪ )i‬فرضیه‏ای که باید آزمون شود‬ ‫مشــخص می‏شود‪ )ii( ،‬آماره آزمون محاسبه می‏شود و (‪ )iii‬آماره آزمون محاسباتی‬ ‫با مقدار بحرانی مقایســه می‏شود‪ .‬اولین مرحله از این مراحل سه‏گانه معموال آسان‬ ‫اســت اما دو مرحله دیگر دشوارتر هستند‪ .‬می‏توان گفت که به‏دست آوردن آماره‬ ‫آزمون برای آزمون فرضیه‏های پیچیده‏تر نیازمند انجام محاسباتی است که فراتر از‬

‫تحلیل داده‌های اقتصادی‬

‫‪144‬‬

‫فقط برآورد رگرسیون اســت‪ .‬مقدار بحرانی از جدول‏های آماری به‏دست می‏آید‪.‬‬ ‫در نتیجه برای آزمودن فرضیه‏های پیچیده‏تر‪ ،‬الزم است کتاب‏های آمار مقدماتی یا‬ ‫کتاب‏های درسی اقتصادسنجی را مرور کنید (در پانویس ‪ 1‬در انتهای همین فصل‬ ‫برخی کتاب‏های مفید در این زمینه پیشنهاد شده‏اند)‪.‬‬ ‫در ادامــه خالصه‏ای کاربردی از اطالعاتی که تکنیک رگرســیون در مورد‬ ‫ضریب ‪ β‬به‏دست می‏دهد لیست شده است‪:‬‬ ‫∧‬ ‫‪ β .1‬تخمین نقطه‏ای روش ‪ OLS‬یا بهترین حدس در مورد مقدار واقعی ‪ β‬است‪.‬‬ ‫‪ .2‬فاصله اطمینان ‪ %95‬یعنی یک فاصله (بازه بین دو عدد) که ‪ %95‬اطمینان‬ ‫داریم ‪ β‬در آن قرار دارد‪.‬‬ ‫∧‬ ‫‪ .3‬انحراف استاندارد (یا خطای اســتاندارد یا همان انحراف معیار) ‪ β‬یعنی‬ ‫∧‬ ‫‪ ، sb‬مقیاســی از میزان دقت ‪ β‬است‪ .‬همچنین ‪ sb‬جزء اصلی در محاسبه فرمول‬ ‫ریاضی فاصله اطمینان و آماره آزمون برای آزمودن فرضیه ‪ β =0‬است‪.‬‬ ‫‪ .4‬آماره آزمون ‏‪ t‬برای آزمودن فرضیه ‪. β =0‬‬ ‫‪ .5‬مقدار ‪ P-value‬برای آزمودن فرضیه ‪. β =0‬‬ ‫∧‬ ‫در بسته‏های نرم‏افزاری مثل اکسل‪ ،‬پنج مولفه اصلی رگرسیون یعنی ‪ ، β‬فاصله‬ ‫اطمینان‪ t ، sb ،‬و ‪ P-value‬معموال در یک ســطر نمایش داده می‏شوند‪ .‬از بین این‬ ‫∧‬ ‫عوامل‪ ، β ،‬فاصله اطمینان و ‪ P-value‬مهم‏تر هستند‪ .‬یعنی در اغلب موارد می‏شود‬ ‫بدون اشــاره مستقیم به ‪ sb‬و ‪t‬‏‪ ،‬یافته‏های تجربی را تفسیر کرد‪ .‬مثال‏های زیر نشان‬ ‫می‏دهند که چگونه می‏توان نتایج رگرسیون را ارائه و تفسیر کرد‪:‬‬

‫مثال ‪ 5-3‬ب‪ :‬رگرسیون جنگل‏زدایی بر تراکم جمعیت‬

‫اگر با استفاده از نرم‏افزار اکسل جنگل‏زدایی=‪ Y‬را روی تراکم جمعیت =‪X‬‬

‫رگرس کنیم‪ ،‬نتایج موجود در جدول ‪ 5-2‬به‏دست می‏آیند (سایر بسته‏های‬

‫نرم‏افزاری نتایجی با فرم مشابه تولید می‏کنند)‪:‬‬

‫جدول ‪ .5-2‬رگرسیون جنگل‏زدایی بر تراکم جمعیت‬ ‫ضریب‬

‫خطای‬ ‫استاندارد‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین‬ ‫در سطح‬ ‫‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫جزء ثابت ‪0/112318 0/599965‬‬

‫‪0/375837 1/15 E-06 5/341646‬‬

‫‪0/824093‬‬

‫‪0/000117 0/000842‬‬

‫‪0/00061‬‬

‫‪0/001075‬‬

‫متغیر ‪X‬‬

‫‪5/5 E-10 7/227937‬‬

‫ســطری که با نام «جزء ثابت» مشخص شده است‪ ،‬شامل نتایج برآورد‬ ‫‪ α‬اســت و ســطر با نام متغیر ‪ X‬شــامل نتایج برآورد ‪ β‬است‪ .‬بیشتر‬

‫توضیحاتی که در ادامه می‏آید بر این ســطر اخیر متمرکز است‪ .‬ستون‬

‫با عنوان «ضریب» نشــان‏دهنده برآورد روش ‪ OLS‬است و همان‏طور‬

‫کــه اگر تراکم جمعیت به میزان یک نفــر در هکتار افزایش یابد‪ ،‬نرخ‬ ‫جنگل‏زدایی به اندازه ‪ 0/000842‬افزایش می‏یابد‪ .‬ســتون با عنوان «حد‬ ‫پایین در ســطح ‪ »%95‬و «حد باال در سطح ‪ »%95‬نشان‏دهنده حد پایین‬

‫و باال در فاصله اطمینان ‪ 95‬درصدی اســت‪ .‬در این داده‏ها‪ ،‬همان‏طور‬

‫کــه از جدول پیداســت‪ ،‬فاصله اطمینــان ‪ %95‬برای ‪ β‬برابر اســت با‬ ‫[‪ .]0/00061 , 0/001075‬بنابراین ما ‪ 95‬درصد مطمئن هستیم که تاثیر‬ ‫نهایی تراکم جمعیت بر جنگل‏زدایــی بین ‪ % 0/001075‬و ‪0/00061‬‬ ‫‪ %‬اســت‪ .‬ســتون با عنوان «خطای اســتاندارد» (یا انحــراف معیار) و‬

‫«آماره ‪ »t‬نشــان می‏دهنــد‬

‫که ‪sb = 0 / 000117‬‬

‫و‬

‫‪t = 7 / 227937‬‬

‫اســت‪ .‬وقتی مقدار ‪ P-value‬را در اختیار داشــته باشیم‪ ،‬برای آزمون‬

‫فرضیه ‪ β =0‬به انحراف معیار و آمــاره ‪ t‬احتیاج نداریم‪ .‬از این‏رو در‬

‫اغلب اوقات می‏توانیم از این دو ستون صرف‏نظر کنیم‪ .‬در مثال‏های این‬ ‫کتاب‪ ،‬هرگز از ‪ sb‬استفاده نکرده‏ایم و از ‏‪ t‬نیز به‏ندرت استفاده کرده‏ایم‪.‬‬ ‫در ادامه کتاب نیز‪ ،‬تنها جایی که از ‪ t‬اســتفاده کرده‏ایم‪ ،‬در آزمون‏های‬

‫‪145‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫که پیشتر دیدیم‪ β =0 / 000842 ،‬اســت‪ .‬این ضریب به این معناست‬

‫دیکی‪-‬فولر‪ 1‬و انگل‪-‬گرنجر‪ 2‬اســت که به‏ترتیب در فصل‏های ‪ 9‬و ‪10‬‬ ‫توضیح داده خواهند شد‪.‬‬

‫آزمودن فرضیه ‪ β =0‬را می‏توان به دو روش با نتایج یکسان انجام داد‪ .‬در‬

‫روش اول می‏توانیم از فاصله اطمینان ‪ %95‬برای ‪ β‬استفاده کنیم که عبارت‬ ‫اســت از [‪ .]0/00061 , 0/001075‬از آن‌جاکه این فاصله اطمینان شامل‬

‫صفر نیســت‪ ،‬پس می‏توانیم فرضیه ‪ β =0‬را در سطح معناداری ‪ %5‬رد‬ ‫کنیم‪ .‬به عبارت دیگر‪ ،‬شواهدی قوی دال بر این وجود دارد که ‪ β‬مخالف‬

‫صفر اســت و تراکم جمعیت به‏طرز معنــاداری قدرت توضیح‏دهندگی‬

‫جنگل‏زدایی را داراســت‪ .‬در روش دوم می‏توانیم از ‪ P-value‬استفاده‬ ‫کنیم که برابر با ‪5 / 5 × 10−6‬‬

‫و بســیار کوچک‏تر از ‪ 0/05‬است‪ .‬بنابراین‬

‫تحلیل داده‌های اقتصادی‬

‫می‏توانیم فرضیه تاثیر نداشتن تراکم جمعیت بر جنگل‏زدایی را در سطح‬

‫‪146‬‬

‫معناداری ‪ %5‬رد کنیم‪ .‬ب ‏ه عبارت دیگر‪ ،‬شــواهدی قوی در دست داریم‬

‫که نشــان می‏دهند تراکم جمعیت واقعا بر نرخ جنگل‏زدایی موثر است‪.‬‬ ‫الزم به ذکر است که بیشتر نرم‏افزارهای رایانه‏ای عدد ‪5 / 5 × 10 ^ −10‬‬

‫یا ‪ 0/00000000055‬را به‏شکل ‪ 5/5E-10‬نشان می‏دهند‪.‬‬

‫مترین ‪5-4‬‬

‫با اســتفاده از نتایــج جدول ‪( 5-2‬یا بــرآورد رابطه رگرســیونی روی داده‏های‬ ‫‪ )FOREST.XLS‬فرضیه ‪ α =0‬را آزمون کنید‪.‬‬

‫مترین ‪5-5‬‬

‫مجموعه داده‏های ‪ FOREST.XLS‬عالوه بر متغیر نرخ جنگل‏زدایی =‪ Y‬شــامل‬

‫داده‏های متغیر درصد افزایش در گندم‏زار =‪( W‬تحت عنوان «‪ )»Crop ch‬و درصد‬ ‫‪2- Engle-Granger‬‬

‫‪1- Dicky-Fuller‬‬

‫تغییرات در چراگاه =‪( Z‬تحت عنوان «‪ )»Pasture ch‬نیز هست‪.‬‬

‫(الف) ‪ Y‬را روی ‪ W‬رگرس و نتایج را تفسیر کنید‪ .‬آیا می‏توانید این فرضیه را رد‬ ‫کنید که توسعه گندم‏زار‏ها تاثیری بر نرخ‏های جنگل‏زدایی ندارد؟‬

‫‪ Z‬رگرس و نتایج را تفســیر کنید‪ .‬آیا می‏توانید این فرضیه را رد‬ ‫(ب) ‪ Y‬را روی ‏‬ ‫کنید که توسعه چراگاه‏ها تاثیری بر نرخ‏های جنگل‏زدایی ندارد؟‬

‫مترین ‪5-6‬‬

‫از مجموعــه داده‏هــای ‪ FIG51.XLS، FIG52.XLS، FIG53.XLS‬و ‪FIG54.‬‬

‫‪ XLS‬استفاده کنید‪.‬‬

‫(الــف) در هر یک از چهار مجموعه داده و با اســتفاده از روش فاصله اطمینان‪،‬‬

‫(ب) در هــر یک از چهار مجموعه داده و با اســتفاده از روش ‪ ،P-value‬آزمون‬ ‫کنید که آیا ‪ β =0‬است؟ از سطح معناداری ‪ %5‬استفاده کنید‪.‬‬

‫(ج) بند الف و ب را برای ‪ α‬تکرار کنید‪.‬‬

‫(د) بندهای الف‪ ،‬ب‪ ،‬و ج را با سطح معناداری ‪ %1‬تکرار کنید‪.‬‬

‫(ه) با توجــه به توضیحات این فصل در مورد عوامــل موثر بر دقت برآوردهای‬ ‫‪ ،OLS‬آیا نتایج‏تان معقول هستند؟‬

‫مثال ‪ 5-4‬ب‪ :‬رگرسیون اندازه خانه بر قیمت آن‬

‫قبال دیدیم که در رگرسیون قیمت خانه =‪ Y‬بر اندازه خانه =‪ ،X‬فاصله اطمینان‬ ‫‪ %95‬برابر با [‪ 7/47‬و ‪ ]5/27‬است‪ .‬از آن‌جاکه این فاصله اطمینان شامل عدد‬

‫صفر نیست‪ ،‬می‏توانیم فرضیه ‪ β =0‬را در سطح معناداری ‪ %5‬رد کنیم‪ .‬یعنی ب ‏ه‬ ‫نظر می‏رسد که تاثیر اندازه خانه بر قیمت آن واقعا از نظر آماری معنادار است‪.‬‬

‫همچنین مقدار ‪ P-value‬برابر با ‪ 6 / 77 × 10−42‬است که بسیار کوچک‏تر‬

‫‪147‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫آزمون کنید که آیا ‪ β =0‬است؟‬

‫از ‪ 0/05‬است‪ .‬همان‏طور که قبال هم اشاره شد‪ ،‬می‏توانیم فرضیه ‪ β =0‬را در‬ ‫سطح معناداری ‪ %5‬رد کنیم‪ .‬توجه داشته باشید از آن‌جاکه مقدار ‪P-value‬‬

‫یعنی ‪ 6 / 77 × 10 −42‬از ‪ 0/01‬نیز کوچک‏تر است‪ ،‬می‏توانیم فرضیه ‪β =0‬‬

‫را در سطح معناداری ‪ %1‬نیز رد کنیم‪ .‬این‏ها شواهدی قوی دال بر این هستند‬

‫که اندازه خانه واقعا بر قیمت آن موثر است‪.‬‬

‫مترین ‪5-7‬‬

‫قبال از فایل ‪ ADVERT.XLS‬استفاده کرده بودیم‪ .‬به یاد بیاورید که این فایل شامل‬

‫داده‏های متغیرهای فروش و مخارج تبلیغات برای ‪ 84‬شرکت است‪ .‬با استفاده از‬ ‫تحلیل داده‌های اقتصادی‬

‫این داده‏ها‪ ،‬رگرسیونی را طراحی و برآورد کنید و در مورد نتایج آن به‏طور شفاهی‬

‫‪148‬‬

‫بحث کنید‪ ،‬انگار که می‏خواهید این نتایج را برای فرد دیگری توضیح دهید‪ .‬بهتر‬ ‫اســت توضیحات‏تان شامل تاثیر نهایی مخارج تبلیغات بر فروش این شرکت‏ها و‬ ‫معناداری آماری این تاثیر باشد‪.‬‬

‫آزمون فرضیه ‪ :R2‬آماره ‪F‬‬

‫بیشتر بسته‏های نرم‏افزاری که رابطه رگرسیونی را برآورد می‏کنند‪ ،‬مانند اکسل‪،‬‬ ‫در خروجی‏های خــود نتایج مربوط به آزمون فرضیه ‪ H0 : R2 = 0‬را نیز ارائه‬ ‫می‏کنند‪ .‬تعریف و تفســیر ‪ R 2‬در فصل پیش ارائه شــد‪ .‬به یاد بیاورید که ‪R 2‬‬ ‫مقیاسی برای میزان نیکویی برازش خط رگرسیون است یا به‏طور مشابه‪ ،‬مقداری‬ ‫از تغییرپذیری در ‪ Y‬که توسط ‪ X‬توضیح داده می‏شود‪ .‬اگر ‪ R2 = 0‬باشد‪ ،‬آن‏گاه‬ ‫‪ Y‬ندارد‪ .‬بنابراین آزمون فرضیه ‪ R2 = 0‬را‬ ‫‪ X‬هیچ قدرت توضیح‏دهندگی برای ‏‬ ‫می‏توان به‏مثابه آزمونی برای این فرضیه تفسیر کرد که آیا رگرسیون اصال قدرت‬ ‫توضیح‏دهندگی دارد یا خیر؟ در مورد رگرسیون ساده‪ ،‬این آزمون معادل آزمون‬ ‫فرضیه ‪ β =0‬است‪ .‬در فصل آتی‪ ،‬رگرســیون چندگانه را توضیح خواهیم داد‬

‫‪N − 2 ) R2‬‬ ‫(‬ ‫=‪F‬‬ ‫‪1 − R2‬‬

‫اکسل به‏طور خودکار این رابطه را محاسبه می‏کند و تحت عنوان «‪ »F‬نمایش‬ ‫می‏دهد‪ .‬مثل قبل‪ ،‬مقادیر «بزرگ» آماره آزمون به این معناست که ‪ R2 ≠ 0‬است‬ ‫و مقادیــر «کوچک» آن ب ‏ه معنای ‪ R2 = 0‬اســت‪ .‬همان‏طور که در مورد آزمون‬ ‫‪ β =0‬دیدیم‪ ،‬برای تصمیم‏گیری در مورد این‌که چه مقداری از آماره به‏دســت‬

‫‪149‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫(که در آن چند متغیر توضیحی وجود دارد)‪ .‬در چنین رگرســیونی‪ ،‬این آزمون‬ ‫متفــاوت خواهد بود‪ .‬به‏عنوان مقدمه‏ای از توضیحات فصل آتی‪ ،‬می‏توان گفت‬ ‫که آزمون ‪ R2 = 0‬را می‏توان به‏عنوان آزمونی برای این موضوع در نظر گرفت‬ ‫که آیا تمام متغیرهای توضیحی ب ‏ه همراه یکدیگر‪ ،‬قدرت توضیح‏دهندگی متغیر‬ ‫وابســته را دارند؟ برای مقایسه موضوع در نظر داشــته باشید که آماره‪ t‬آزمون‬ ‫‪ β =0‬به این منظور اســتفاده می‏شود که مشخص شود آیا تنها متغیر توضیحی‬ ‫موجود در رگرسیون ساده (تک‏متغیره) قدرت توضیح‏دهندگی متغیر وابسته را‬ ‫دارد؟ مفهوم و تکنیک آزمودن فرضیه ‪ R2 = 0‬همانند آن‏چیزی اســت که در‬ ‫مورد آزمون فرضیه ‪ β =0‬در رگرسیون ســاده مطرح شد‪ .‬یعنی بسته نرم‏افزار‬ ‫رایانه‏ای آماره آزمون را محاسبه می‏کند که در ادامه باید با مقدار بحرانی مقایسه‬ ‫شود‪ .‬البته می‏توان از مقدار ‪ P-value‬نیز استفاده کرد که کار را راحت‏تر می‏کند‬ ‫و نیاز به مقایســه آماره محاسباتی با مقدار بحرانی را از بین می‏برد‪ .‬می‏‏دانیم که‬ ‫‪ P-value‬مقیاسی است از میزان معناداری فرضیه صفر ‪ R2 = 0‬در برابر فرضیه‬ ‫مقابل یعنی ‪ . R 2 ≠ 0‬بیشتر بسته‏های نرم‏افزاری به‏طور خودکار مقدار ‪P-value‬‬ ‫را محاســبه می‏کنند‪ ،‬بنابراین الزم نیست که برای استخراج مقدار بحرانی آماره‬ ‫در سطوح معناداری مختلف سراغ جدول‏های آماری بروید‪ .‬رابطه ریاضی آماره‬ ‫آزمون‪ ،‬یعنی آماره ‪F‬‏ به‏شــکل زیر اســت‪ .‬در میان تمام آماره‏های آزمون‪ ،‬تنها‬ ‫آماره ‏‪ F‬است که مقادیر بحرانی‏اش از آن‏چه «توزیع ‪F‬‏ » نامیده می‏شود به‏دست‬ ‫می‏آید‪ .‬ضمیمه ‪ 11-1‬برخی توضیحات تکمیلی در این مورد ارائه می‏کند‪.‬‬

‫آمده «بزرگ» یا «کوچک» اســت‪ ،‬از ‪ P-value‬اســتفاده می‏کنیم (یعنی آیا ‪R 2‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪150‬‬

‫به‏طور معناداری متفاوت از صفر اســت یا نیســت)‪ .‬دقت کنید که در خروجی‬ ‫اکســل مقدار ‪ P-value‬تحت عنوان «معناداری ‪ »F‬نمایش داده می‏شود‪ .‬برای‬ ‫تفسیر نتایج می‏توان از قواعد زیر استفاده کرد‪:‬‬ ‫‪ .1‬اگر «معناداری ‪ »F‬کوچک‏تر از ‪( %5‬یا ‪ )0/05‬باشــد‪ ،‬نتیجه می‏گیریم که‬ ‫‪ R2 ≠ 0‬است‪.‬‬ ‫‪ .2‬اگــر «معناداری ‪ »F‬بزرگ‏تر از ‪( %5‬یا ‪ )0/05‬باشــد‪ ،‬نتیجه می‏گیریم که‬ ‫‪ R2 = 0‬است‪.‬‬ ‫در قواعد باال از سطح معناداری ‪ %5‬استفاده شده است‪ .‬برای انجام آزمون در‬ ‫سطح معناداری ‪ ،%1‬می‏توان به‏جای ‪( %5‬یا ‪ )0/05‬از ‪( %1‬یا ‪ )0/01‬استفاده کرد‪.‬‬ ‫سایر سطوح معناداری (مثال ‪ )%10‬را هم می‏توان به‌همین ترتیب محاسبه کرد‪.‬‬ ‫ســایر بسته‏های نرم‏افزاری ممکن است از نماد‏هایی اندکی متفاوت استفاده‬ ‫کنند‪ .‬مثال نرم‏افزار ‪ ،MicroFit‬آماره ‏‪ F‬را «‪ »F-stat‬می‏نامد و ‪ P-value‬آن را بین‬ ‫دو قالب (کروشه) در کنار آن نمایش می‏دهد‪.‬‬

‫مثال ‪ 5-3‬ج‪ :‬رگرسیون جنگل‏زدایی روی تراکم جمعیت‬

‫در داده‏های جنگل‏زدایی و تراکم جمعیت‪ 4308/ 52 ،‬‏‪ F= 2‬اســت‪ .‬آیا‬ ‫این مقدار برای ‪F‬‏ «بزرگ» محسوب می‏شود؟ اگر پاسخ‏تان مثبت است‪،‬‬

‫درست فکر می‏کنید؛ زیرا معناداری آماره ‪ F‬برابر ‪ 5 / 5 × 10−10‬و بسیار‬ ‫کوچک‏تر از ‪ 0/05‬است‪ .‬پس می‏توانیم نتیجه بگیریم که تراکم جمعیت‬

‫قدرت توضیح‏دهندگی متغیر مستقل ‪ Y‬را دارد‪ .‬به‏عبارت دیگر می‏توان‬

‫اظهار کرد که « ‪ R2‬در سطح معناداری ‪ %5‬به‏شکل معناداری متفاوت از‬ ‫صفر اســت»‪ ،‬یا «متغیر ‪ X‬به لحاظ آماری قدرت توضیح‏دهندگی متغیر‬ ‫‪Y‬‏ را دارد» یا «رگرســیون معنادار است»‪ .‬فراموش نکنید که معناداری ‪F‬‏‬

‫معادل ‪ P-value‬در آزمون فرضیه ‪ β =0‬اســت که تاکیدی اســت بر‬ ‫یکسان بودن این دو آزمون در رگرسیون ساده‪.‬‬

‫مترین ‪5-8‬‬

‫از مجموعــه داده‏هــای ‪ FIG51.XLS، FIG52.XLS، FIG53.XLS‬و ‪FIG54.‬‬

‫‪ XLS‬استفاده کنید‪.‬‬

‫برای هر کدام از این ‪ 4‬مجموعه داده‪ ،‬آزمون کنید که آیا ‪ R2 = 0‬است؟ نتایج این‬

‫تمرین را با نتایج تمرین ‪ 5-6‬مقایسه کنید‪.‬‬

‫از داده‏های فایل ‪ ELECTRIC.XLS‬در فصل ‪ 4‬اســتفاده کردیم‪ .‬این‬ ‫فایل شــامل داده‏های متغیرهای هزینه تولید =‪Y‬و تولید =‪ X‬برای ‪123‬‬ ‫شــرکت فعال در صنعت برق بود‪ .‬نتایج برآورد رگرسیون ‪ Y‬را روی ‪X‬‏‬

‫با استفاده از اکسل‪ ،‬در جدول‪ 5-3‬وجود دارد‪.‬‬

‫جدول ‪ .5-3‬رگرسیون هزینه تولید روی تولید‬ ‫ضریب‬

‫خطای‬ ‫استاندارد‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین‬ ‫در سطح‬ ‫‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫جزء ثابت ‪1/534354- 0/246958 1/163395 1/879484 2/186583‬‬

‫‪5/90752‬‬

‫‪0/004528 5/36 E-67 36/37623 0/000132 0/004789‬‬

‫‪0/005049‬‬

‫متغیر ‪X‬‬

‫همچنین ‪ R2 = 0 / 916218‬اســت‪ .‬مقــدار ‪ P-value‬بــرای آزمون‬ ‫‪( R2 = 0‬که اکســل تحت عنوان «معنــاداری ‪ »F‬نمایــش می‏دهد)‬

‫نیز برابر ‪ 5/36E-67‬اســت‪ .‬خالصــه‏ای از موضوعات مطروحه در‬

‫‪151‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫مثال ‪ :5-5‬هزینه تولید در صنعت برق‬

‫فصل‏هــای ‪ 4‬و‪ 5‬آموختیم که چگونه نتایج جدول باال را به‏شــکلی‬

‫خالصه‏شده در گزارشــی استاندارد و رســمی ارائه کنیم‪ .‬گزارشی‬

‫معمول باید شــامل خالصه نتایجــی مانند جدول باال باشــد که با‬ ‫مالحظه اعداد آن بتوان مفهوم اقتصادی رگرســیون برآورد‏شــده را‬

‫درک کرد‪ .‬مثال‏ای از چنین گزارشــی در ادامه ارائه شده است‪.‬‬

‫جدول ‪ 5-3‬نتایج رگرســیون ‪ OLS‬با استفاده از داده‏های شرکت‏های‬

‫فعال در صنعت برق آمریکا را نشــان می‏دهــد‪ .‬از آن‌جاکه ما به‏دنبال‬ ‫تعییــن چگونگی تاثیرگذاری مقدار تولید بــر هزینه‏های تولید بنگاه‏ها‬

‫هستیم‪ ،‬هزینه‏های تولید را متغیر وابسته و میزان تولید را متغیر توضیحی‬ ‫در نظر گرفتیم‪ .‬ضریب برآورد‏شــده برای تولید برابر ‪ 0/004789‬است‬

‫تحلیل داده‌های اقتصادی‬

‫و نشــان می‏دهد که بنگاه‏های با مقدار تولید بیشــتر‪ ،‬گرایش به داشتن‬

‫‪152‬‬

‫هزینه‏های تولید بیشتر دارند‪ .‬به بیانی دقیق‏تر می‏توان گفت که افزایش‬ ‫مقدار تولید بــه اندازه هزار کیلووات ســاعت‪ ،‬هزینه‏ها را ‪ 4789‬دالر‬

‫افزایــش می‏دهد‪ .‬می‏توان دید که تاثیر نهایــی مقدار تولید بر هزینه‏ها‪،‬‬ ‫از نظر آماری قویا معنادار اســت زیرا ‪ P-value‬بســیار کوچک است‬

‫(حتی از ‪ %1‬نیز کوچک‏تر اســت)‪ .‬آزمون فاصلــه اطمینان ‪ %95‬ما را‬

‫کامال مطمئن می‏کند که افزایش تولید ب ‏ه اندازه ‪ 1000‬کیلووات ساعت‬ ‫بــا حداقل ‪ 4528‬و حداکثر ‪ 5049‬دالر افزایش هزینه‏ها همراه اســت‪.‬‬ ‫آزمون ‪ R2‬نیــز این ایده را تقویت می‏کند که مقدار تولید‪ ،‬بخش بزرگی‬ ‫از تغییرات هزینه‏ها بین بنگاه‏ها را توضیح می‏دهد‪ .‬ب ‏ه عبارت دیگر‪92 ،‬‬

‫درصد از تغییرات هزینه‏های تولید بین بنگاه‏ها می‏تواند توســط مقادیر‬ ‫‪ F‬نیز بسیار‬ ‫متفاوت تولید بنگاه‏ها توضیح داده شــود‪ P-value .‬آماره ‏‬

‫کوچک‏تر از ‪ %1‬و به این معناســت که ‪ R2‬به‏دســت آمده در سطح ‪%1‬‬ ‫معنادار است‪.‬‬

‫خالصه فصل‬

‫‪153‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫‪ .1‬دقــت برآورد ‪ OLS‬به تعداد مشــاهدات (حجم داده‏ها)‪ ،‬میزان یا گســتره‬ ‫تغییرپذیری متغیر توضیحی و اجزای خطا بستگی دارد‪.‬‬ ‫‪ .2‬فاصلــه اطمینان‪ ،‬برآوردی فاصله‏ای برای ‪ β‬به‏دســت می‏دهد (یعنی‬ ‫فاصله‏ای که می‏توانیم مطمئن باشــیم ‪ β‬در آن قرار می‏گیرد)‪ .‬فاصله اطمینان‬ ‫در اغلب بســته‏های نرم‏افزارهای محاســبه و به همراه ســایر نتایج نمایش‬ ‫داده می‏شود‪.‬‬ ‫‪ .3‬همــان عواملی که دقت برآورد ‪ OLS‬را تحت تاثیر قرار می‏دهد‪ ،‬عرض‬ ‫فاصلــه اطمینان را نیز متاثر می‏کند‪ .‬به عالوه‪ ،‬عرض فاصله اطمینان به ســطح‬ ‫اطمینان نیز بستگی دارد (یعنی درجه اطمینانی که می‏خواهیم برآورد فاصله‏ای‬ ‫ما داشته باشد)‪.‬‬ ‫‪ .4‬بــرای آزمودن معناداری حضور متغیر توضیحی در رگرســیون‪ ،‬آزمون‬ ‫فرضیــه ‪ β =0‬به‏کار می‏آید‪ .‬برای رد یا پذیرفتن این فرضیه می‏توانیم از مقدار‬ ‫‪( P-value‬که به‏طور خودکار توســط اغلب بســته‏های نرم‏افزاری محاســبه‬ ‫می‏شود) استفاده کنیم‪.‬‬ ‫‪ .5‬اگــر ‪ P-value‬آزمون فرضیه ‪ β =0‬کمتر از ‪ %5‬باشــد‪ ،‬آن‏گاه می‏توانیم‬ ‫فرضیــه را در ســطح معنــاداری ‪ 95%‬رد کنیم و نتیجه بگیریــم که ‪ X‬باید در‬ ‫رگرسیون حضور داشته باشد‪.‬‬ ‫‪ .6‬اگر ‪ P-value‬آزمون فرضیه ‪ β =0‬بیشــتر از ‪ %5‬باشد‪ ،‬آن‏گاه نمی‏توانیم‬ ‫فرضیه را در ســطح معناداری ‪ 95%‬رد کنیم‪ ،‬پس نتیجه می‏شود که ‪ X‬نباید در‬ ‫رگرسیون حضور داشته باشد‪.‬‬ ‫‪ .7‬می‏توان از آزمون فرضیه ‪ R2 = 0‬برای تعیین این موضوع اســتفاده کرد‬ ‫که آیا متغیر توضیحی‪ ،‬متغیر وابســته را توضیح می‏دهد؟ ‪ P-value‬این آزمون‬ ‫توســط اغلب بســته‏های نرم‏افزاری صفحه گســترده و آماری به‏طور خودکار‬ ‫محاسبه می‏شود و می‏توان از آن به‏شکل مشابه نکات ‪ 5‬و ‪ 6‬استفاده کرد‪.‬‬

‫ضمیمه ‪ :5-1‬استفاده از جدول‏های آماری برای آزمون فرضیه ‪β=0‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪154‬‬

‫‪ P-value‬برای آزمودن فرضیه ‪ β =0‬کافی است‪ .‬بیشتر بسته‏های نرم‏افزاری رایانه‏ای‬ ‫(مثل اکسل‪ ،‬میکروفیت یا َش َزم ‪ P-value )SHAZAM‬را به‏شکل خودکار محاسبه‬ ‫و ارائه می‏کنند‪ .‬اما اگر چنین نرم‏افزارهایی را در اختیار ندارید یا مقاله‏ای می‏خوانید‬ ‫که فقط آماره ‪ t‬ضرایب را ارائه کرده است و ‪ P-value‬ضرایب در آن وجود نداشته‬ ‫باشد‪ ،‬آن‏گاه چگونگی آزمون فرضیه با استفاده از جدول‏های آماری ب ‏ه کارتان می‏آید‪.‬‬ ‫احتماال در اغلب کتاب‏های درســی آمار یا اقتصادسنجی این جدول‏ها به تفصیل‬ ‫وجود دارند‪ .‬در این بخش شرحی جزیی از قاعده سرانگشتی ارائه می‏شود که زمانی‬ ‫مفید است که حجم مثال یا ‪ ،N‬بزرگ باشد‪.‬‬ ‫قبال گفتیم که در آزمون فرضیه‪ ،‬آماره آزمون با یک عدد که مقدار بحرانی نامیده‬ ‫می‏شود‪ ،‬مقایسه می‏شود‪ .‬اگر (قدر مطلق) آماره آزمون از (قدر مطلق) مقدار بحرانی‬ ‫بزرگ‏تر باشد‪ ،‬فرضیه رد می‏شــود‪ .‬در آزمون فرضیه حاضر‪ ،‬آماره آزمون‪ ،‬آماره ‪t‬‬ ‫است‪ .‬این مقدار باید با عددی که از جدول آماری ‪ t‬استیودنت اخذ می‏شود‪ ،‬مقایسه‬ ‫شــود‪ .‬در فصل جاری‪ ،‬هنگام توضیح فاصله اطمینان‪ ،‬این عدد یا مقدار بحرانی را‬ ‫‪ tb‬نامیدیم‪ .‬اگر ‪ N‬بزرگ باشد و شما از سطح معناداری ‪ %5‬استفاده می‏کنید‪ ،‬آن‏گاه‬ ‫‪ tb = 1/ 96‬است‪ .‬در نتیجه قاعده سرانگشتی زیر را داریم‪:‬‬ ‫اگر قدر مطلق آماره ‪ t‬بزرگ‏تر از ‪ 1/96‬باشــد (یعنی ‪ ،) t > 1/ 96‬فرضیه‬ ‫‪ β =0‬در ســطح معناداری ‪ %5‬رد می‏شود‪ .‬اگر قدر مطلق آماره ‪ t‬کوچک‏تر از‬ ‫‪ 1/96‬باشد‪ ،‬فرضیه ‪ β =0‬در سطح معناداری ‪ %5‬پذیرفته می‏شود‪.‬‬ ‫اگر فرضیه ‪ β =0‬رد شــود‪ ،‬می‏توانیم ادعا کنیم که «‪ X‬معنادار است» یا «‪X‬‬ ‫قدرت توضیح‏دهندگی از نظر آماری معناداری برای ‪ Y‬دارد»‪.‬‬ ‫اگر حجم مثال بزرگ باشــد‪ ،‬این قاعده سرانگشــتی دقیق خواهد بود‪ .‬در‬ ‫واقع مقدار بحرانی زمانی برابر ‪ 1/96‬اســت که حجم مثال بی‏نهایت باشد‪ .‬اما‬ ‫مثال‏های نسبتا بزرگ نیز دارای مقدار بحرانی مشابهی هستند‪ .‬مثال اگر ‪N=120‬‬ ‫باشــد‪ ،‬مقدار بحرانی ‪ 1/98‬اســت‪ .‬با ‪ ،N=40‬مقدار بحرانی ‪ 2/02‬است‪ .‬حتی‬ ‫مثال‏ای کوچک با ‪ 20‬مشاهده هم دارای مقدار بحرانی ‪ 2/09‬است که از ‪1/96‬‬

‫∧‬

‫‪β− c‬‬ ‫=‪t‬‬ ‫‪sb‬‬

‫بســته‏های نرم‏افزاری این آماره را به‏شــکل خودکار محاســبه نمی‏کنند اما‬ ‫می‏توان آن‏را به‏سادگی به‏وسیله ماشین حساب یا نرم‏افزارهای صفحه گسترده‬ ‫∧‬ ‫حســاب کرد‪ β .‬و ‪ sb‬و را که نرم‏افزار خودکار حساب می‏کند و شما تنها باید‬ ‫با توجه به فرضیه‏ای که متمایل به آزمودن آن هســتید‪ ،‬مقدار ‪ c‬را تعیین کنید‪.‬‬ ‫این ســه عدد را در فرمول باال جایگذاری کنید و آماره مورد نیازتان را محاسبه‬ ‫کنید‪ .‬اگر قدر مطلق آماره محاسباتی بزرگ‏تر از ‪ 1/96‬است‪ ،‬در سطح معناداری‬ ‫‪ %5‬نتیجه خواهید گرفت که ‪ β ≠ c‬است‪ .‬فقط اگر حجم مثال‏تان کوچک است‪،‬‬ ‫هشدارهای مربوط به استفاده از قاعده سرانگشتی را فراموش نکنید‪.‬‬

‫‪155‬‬

‫فصل ‪ :5‬جنبه‏های آماری رگرسیون‬

‫خیلی فاصله ندارد‪ .‬اما زمانی که حجم مثال‏تان کوچک است یا آماره ‪ t‬به‏دست‬ ‫آمده نزدیک به ‪ 2/00‬باشــد‪ ،‬باید با احتیاط از قاعده سرانگشتی استفاده کنید‪.‬‬ ‫اگر به مثال‏های ارائه‏شــده در این فصل دقت کنید‪ ،‬متوجه می‏شــوید که این‬ ‫قاعده به‏خوبی کار می‏کند‪ .‬در مثال با عنوان «هزینه‏های تولید در صنعت برق»‪،‬‬ ‫آمــاره ‪ t‬برای آزمون فرضیه ‪ β =0‬برابر ‪ 36/4‬به‏دســت آمد که به میزان کافی‬ ‫از ‪ 1/96‬بزرگ‏تر اســت‪ .‬پس نتیجه می‏گیریم که مقدار تولید‪ ،‬متغیر توضیحی‬ ‫از لحاظ آماری معناداری برای هزینه‏های تولید اســت‪ .‬در این مثال (و ســایر‬ ‫مثال‏ها)‪ ،‬هر دو روش ‪ P-value‬و فاصله اطمینان‪ ،‬منجر به نتایجی یکســان با‬ ‫روش تقریبی ارائه‏شده در این ضمیمه می‏شوند‪.‬‬ ‫توضیحات باال برای ســطح معناداری ‪ %5‬صدق می‏کنند‪ .‬در ســطح معناداری‬ ‫‪ ،%10‬مقدار بحرانی مثال‏های بزرگ برابر ‪ 1/65‬است و در سطح معناداری ‪ %1‬برابر‬ ‫‪ 2/58‬است‪ .‬تاکنون تمام آزمون‏ها برای فرضیه ‪ H0 :β =0‬بوده است‪ .‬با استفاده از‬ ‫تکنیک ارائه‏شده در این ضمیمه‪ ،‬می‏توانیم این آزمون را برای فرضیه‏هایی به‏شکل‬ ‫‪ H0 :β =c‬تعمیم بدهیم که ‪ c‬یک عدد مخالف صفر اســت (مثال ‪ .)c=1‬در این‬ ‫شرایط‪ ،‬آماره آزمون اندکی تغییر می‏کند اما مقدار بحرانی دقیقا همان است که برای‬ ‫آزمون فرضیه ‪ β =0‬بود‪ .‬تعریف دقیق آماره آزمون به‏شکل زیر است‪:‬‬

‫منابع‬

156

‫تحلیل داده‌های اقتصادی‬

Hill, C., Griffiths, W. and Judge, G. (1997) Undergraduate Econometrics, John Wiley and Sons, Chichester. Koop, G. (2008) Introduction to Econometrics, John Wiley and Sons, Chichester. Wonnacott, T. and Wonnacott R. (1990) Introductory Statistics for Business and Economics, Fourth edition. John Wiley and Sons, Chichester.

‫فصل ‪6‬‬ ‫رگرسیون چندگانه‬

‫‪157‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫بحث رگرسیون ساده در فصل ‪ 5‬شامل دو متغیر بود‪ :‬متغیر وابسته یا ‪ Y‬و متغیر‬ ‫توضیحی یا ‪ .X‬همان‏طور که در ابتدای فصل ‪ 4‬دیدیم‪ ،‬اغلب پرســش‏های تجربی‬ ‫در اقتصاد شامل چندین متغیر هستند‪ .‬رگرسیون چندگانه بسط رگرسیون ساده به‬ ‫حالتی است که در آن چندین متغیر توضیحی وجود دارد‪ .‬از آن‌جاکه اغلب معادالت‬ ‫برآورد‏شــده در پژوهش‏های کاربردی اقتصادسنجی از این نوع هستند‪ ،‬این فصل‬ ‫بسیار مهم است‪ .‬خوشبختانه بیشتر مفاهیم و تکنیک‏های آماری رگرسیون چندگانه‬ ‫مشابه رگرسیون ساده هستند‪ .‬نکات کلیدی فصل‏های ‪ 4‬و‪ 5‬عبارتند از‪:‬‬ ‫• بهبود درک نموداری از تکنیک رگرســیون برای برازش خط مستقیم در‬ ‫نمودار ‪XY‬؛‬ ‫• معرفی ضرایب رگرسیون به‏عنوان معیاری برای اندازه‏گیری تاثیر نهایی؛‬ ‫• توصیــف برآورد حداقل مربعات معمولــی (‪ )OLS‬به‏عنوان بهترین خط‬ ‫برازش‏شده (با حداقل کردن مجموع مجذور پسماندها) در نمودار ‪XY‬؛‬ ‫• معرفی ‪ R2‬به‏عنوان معیار اندازه‏گیری نیکویی برازش مدل رگرسیون؛‬ ‫• معرفی تکنیک‏های آماری مثل فاصله اطمینان و آزمون فرضیه‪.‬‬ ‫به‏جز چند استثنا (که در ادامه به آن‏ها اشاره خواهد شد)‪ ،‬این پنج مولفه در‬ ‫رگرسیون چندگانه هم مشابه رگرسیون ساده هستند‪ .‬اگر نکات اصلی یا جزییات‬

‫آماری رگرســیون را فراموش کرده‏اید‪ ،‬باید مجددا فصل‏های ‪ 4‬و ‪ 5‬را مطالعه‬ ‫کنید‪ .‬در این فصل‪ ،‬ما نکات کلیدی که در باال به آن‏ها اشــاره کردیم را به‏طور‬ ‫خالصه برای حالت رگرسیون چندگانه بحث و بر مشابهت‏ها و تفاوت‏های آن‬ ‫با رگرسیون ساده تاکید خواهیم کرد‪ .‬بخش عمده فصل را با مثالی پیش می‏بریم‬ ‫که هدف آن توضیح چگونگی تفسیر نتایج رگرسیون چندگانه است‪.‬‬

‫مثال ‪ 6-1‬الف‪ :‬توضیح قیمت خانه‬

‫اغلــب تحقیقــات در اقتصــاد خــرد و بازاریابی کاربــردی بر نحوه‬

‫قیمت‏گذاری کاالها تمرکز دارند‪ .‬روشــی معمول برای این کار ساختن‬

‫تحلیل داده‌های اقتصادی‬

‫یک مدل است که در آن قیمت کاال وابسته به ویژگی‏های آن است‪.‬‬

‫فایل ‪ HPRICE.XLS‬شــامل داده‏های مربوط به چنین مدلی است که‬

‫‪158‬‬

‫مدل قیمت‏گذاری هدانیک‪ 1‬در بازار مســکن نامیده می‏شود‪ .‬در فصل‬ ‫پیش با بخش‏هایی از داده‏های این فایل کار کردیم‪ .‬احتماال می‏دانید که‬

‫این داده‏ها مربوط به ‪ N=546‬خانه در وینسور کانادا است‪ .‬متغیر وابسته‬

‫یا ‪ ،Y‬قیمت فروش این خانه‏هــا به دالر کانادا و متغیر توضیحی یا ‪،X‬‬ ‫اندازه خانه بود‪ .‬شــکی وجود ندارد که قیمــت خانه از عواملی غیر از‬

‫اندازه آن نیز تاثیر می‏پذیرد و در نتیجه هر تالشــی برای بررسی عوامل‬ ‫تعیین‏کننده قیمت خانه‪ ،‬باید شامل عواملی عالوه بر اندازه آن نیز باشد‪.‬‬

‫در این فصل‪ ،‬بر چهار متغیر توضیحی زیر متمرکز می‏شویم‪:‬‬ ‫‪ : X1‬اندازه خانه (به فوت مربع)‬ ‫‪ : X2‬تعداد اتاق‏خواب‏ها‬ ‫‪ : X3‬تعداد حمام‏ها‬

‫‪1- Hedonic‬‬

‫‪ : X4‬تعداد طبقات (شامل زیرزمین)‬

‫فایل ‪ HPRICE.XLS‬شــامل داده‏های مورد نیاز برای بررسی مثال این‬ ‫فصل است‪.‬‬

‫مترین ‪6-1‬‬

‫(الف) برای هر یک از چهار متغیر توضیحی فوق‪ ،‬هر دفعه یک نمودار ‪ XY‬رسم‬ ‫کنید (یعنی چهار نمودار‪ Y ،‬با ‪ Y ، X1‬با ‪ X2‬و به‌همین ترتیب)‪.‬‬

‫(ب) برای هر یک از چهار متغیر توضیحی فوق‪ ،‬یک رگرسیون ساده را ران کنید‬

‫ترتیب)‪.‬‬

‫(ج) در مورد روابط یافت‏شده در بندهای الف و ب نظر بدهید‪.‬‬

‫رگرسیون به‏عنوان بهرتین خط برازش‬

‫همان‏طور که در فصل ‪ 4‬دیدیم‪ ،‬مدل رگرسیون ساده را می‏توان به‏عنوان تکنیکی‬ ‫در نظر گرفت که بهترین خط ممکن را در یک نمودار ‪ XY‬ترســیم می‏کند‪ .‬از‬ ‫آن‌جاکه در رگرســیون چندگانه بیــش از دو متغیر وجود دارند (یعنی ‪X2 ، X1‬‬ ‫‪ X4 ، X3 ،‬و ‪ ،)Y‬نمی‏توانیم از یک نمودار دوبعدی (همانند رگرســیون ســاده‬ ‫کــه هر یک از دو متغیر را روی یکــی از دو محور عمودی و افقی نمودار ‪ Y‬‏‬ ‫‪X‬‬ ‫قرار می‏دادیم) اســتفاده کنیم و خط مستقیمی را از میان مشاهدات بگذرانیم‪ .‬با‬ ‫این‏حال همچنان می‏توانیم مفهوم بهترین خط برازش را به‏کار بگیریم (اگر چه‬ ‫این فقط زمانی ممکن است که بتوانیم نموداری چندبعدی‪ ،‬که ابعاد آن ب ‏ه اندازه‬ ‫مجموع تعداد متغیرهای توضیحی و وابســته است را تصور کنیم)‪ .‬مثال اگر سه‬ ‫متغیر توضیحی داشته باشیم‪ ،‬با استفاده از نموداری چهار بعدی‪ ،‬که ‪ Y‬روی یک‬ ‫محور‪ X1 ،‬روی محور دوم‪ X2 ،‬روی محور سوم و ‪ X3‬روی محور چهارم قرار‬

‫‪159‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫(یعنی ابتدا ‪ Y‬را روی ‪ X1‬رگرس کنید‪ ،‬سپس ‪ Y‬را روی ‪X2‬‬

‫رگرس کنید و به‌همین‬

‫دارد‪ ،‬می‏توانیم نشــان دهیم که چطور رگرسیون چندگانه همان مفهوم بهترین‬ ‫خط برازش را به‏کار می‏گیرد‪ .‬البته رسم چنین نموداری غیرممکن است‪( .‬تصور‬ ‫کنید که یک نمودار چهار بعدی چگونه خواهد بود؟)‬

‫برآورد ‪ OLS‬از مدل رگرسیون چندگانه‬

‫مدل رگرسیون چندگانه با ‪ k‬متغیر توضیحی را می‏توان به‏شکل زیر نوشت‪:‬‬ ‫‪Y = α + β1X1 + β2 X2 + … + βk Xk + e‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪160‬‬

‫به‏طور رســمی بــرای نشــان دادن هر مشــاهده‪ ،‬می‏توانیم یــک اندیس‬ ‫‪ i‬را بــه تمــام متغیرها نســبت دهیــم‪ .‬به‏عبارت دیگــر می‏توانیم بنویســیم‪:‬‬ ‫‪ . Yi = α + β1X1i + β2 X2i + … + βk Xki + ei‬اما اضافه کــردن تعداد زیادی‬ ‫اندیس می‏تواند باعث شلوغ‏کاری شود و خواندن معادله را سخت کند‪ .‬پس هم‬ ‫این‌جا و هم در ادامه کتاب‪ ،‬گاهی اوقات اندیس ‪ i‬را حذف می‏کنیم (و اندیس‬ ‫‪t‬‏ را زمانی که با داده‏های ســری‏زمانی سر و کار داریم) مگر این‌که اشاره کردن‬ ‫به یک مشاهده خاص مدنظرمان باشد‪.‬‬ ‫به‏جای این‌که فقــط ‪ α‬و ‪ β‬را برآورد کنیم‪ ،‬اکنــون باید ‪ βk ... β2 ، β1 ، α‬را‬ ‫برآورد کنیم‪ .‬اما استراتژی برآورد این ضرایب دقیقا مانند استراتژی است که در‬ ‫رگرسیون ساده از آن اســتفاده کردیم‪ .‬یعنی ابتدا مجموع مجذور پسماندها را‬ ‫به‏شکل زیر تعریف می‏کنیم‪:‬‬ ‫‪2‬‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫‪‬‬ ‫‪‬‬ ‫‪SSR = ∑  Yi − α− β1 X1i − … − βk Xki ‬‬ ‫‪‬‬ ‫‪‬‬

‫که در آن ‪ X1i‬عبارت اســت از ‪ i‬امین مشاهده برای متغیر توضیحی اول (برای‬ ‫‪ i=1. … .N‬مشاهده‪ ،‬یعنی اندازه خانه ‪i‬ام که تعداد خانه‏ها ‪ i=1,…,546‬است) سایر‬ ‫متغیرهای توضیحی به‌همین ترتیب تعریف می‏شوند‪ .‬برآورد ‪( OLS‬که می‏توان آن‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫‏را بهترین خط برازش نامید) عبارت اســت از تعیین یا انتخاب ‪ α‬و ‪βk ... β2 ، β‬‬ ‫‪ S‬را حداقل کند‪ .‬از نظر مفهومی‪ ،‬حداقل کردن ‪ SSR‬مساله ریاضی‬ ‫به‏ترتیبی که ‪ SR‬‏‬ ‫ساده‏ای محسوب می‏شود‪ .‬فرمول نهایی اندکی پیچیده است و این‌جا آورده نشده‬

‫∧‬

‫∧‬

‫∧‬

‫‪ O‬از ‪ α . β1 .…βk‬را به‏طور خودکار‬ ‫اســت اما نرم‏افزارهای آماری برآوردهای ‪ LS‬‏‬ ‫حساب می‏کنند‪ .‬خوانندگان آشنا به حساب دیفرانسیل و انتگرال باید توجه داشته‬ ‫باشــند که برآوردهای ‪ OLS‬از ضرایب رگرســیون چندگانه را می‏توانیم با روش‬ ‫مرسوم حداقل کردن توابع به‏دست بیاوریم‪ .‬یعنی می‏توانیم مشتق اول تابع را نسبت‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫به ‪ βk ... β2 ، β1 ، α‬به‏دست بیاوریم‪ ،‬این مشتق را مساوی صفر قرار دهیم و معادله‬ ‫را حل کنیم‪ .‬برای به‏دست آوردن ضرایب رگرسیون چندگانه یا اثبات فرمول‏های‬ ‫آن نیاز به جبر ماتریس‏ها است‪ ،‬چون بدون استفاده از ماتریس‏ها‪ ،‬فرمول‏های روش‬ ‫‪OLS‬‏ بسیار پیچیده می‏شــوند‪ .‬جبر ماتریس‏ها در این کتاب مطرح نمی‏شوند اما‬ ‫اگر خودتان بخواهید مطالعه اقتصادسنجی را ادامه بدهید حتما باید با ماتریس‏ها و‬ ‫عملیات جبری آن‏ها آشنا شوید‪.‬‬

‫همان‏طور که اشــاره شــد‪ ،‬جنبه‏های آماری رگرســیون چندگانه کامال مشابه‬ ‫رگرســیون ســاده هســتند (فصل ‪ 5‬را ببینید)‪ .‬به‏طور خاص می‏توان گفت که‬ ‫‪ R2‬هم‏چنان معیاری برای اندازه‏گیری نیکویی برازش است و به همان ترتیب‬ ‫قبل محاسبه می‏شود‪ .‬البته ‪ R2‬در رگرســیون چندگانه‪ ،‬قدرت توضیح‏دهندگی‬ ‫تمــام متغیرهای توضیحی ب ‏ه همراه همدیگر را نشــان می‏دهد در حالی‏که در‬ ‫رگرســیون ســاده قدرت توضیح‏دهندگی تنها متغیر توضیحی موجود را نشان‬ ‫می‏داد‪ .‬فرمول آماره ‪ F‬برای آزمون فرضیه ‪ R2 = 0‬اندکی متفاوت است (یعنی‬ ‫در فرمــول به‏جای ‪ N-k-1 ، N-2‬را جایگذاری می‏کنیم) اما مفهوم آن یکســان‬ ‫است و همچنان می‏توانیم از ‪ P-value‬محاسبه‏شده توسط نرم‏افزار برای آزمون‬ ‫فرضیه اســتفاده کنیم‪ .‬اگر نتیجه بگیریم که ‪ R2 ≠ 0‬است‪ ،‬می‏توانیم ادعا کنیم‬ ‫ِ‬ ‫توضیحی رگرســیون‪ ،‬ب ‏ه همراه هم قادر به توضیح متغیر وابسته‬ ‫که «متغیرهای‬ ‫‪2‬‬ ‫هستند» اما اگر ‪ R = 0‬باشد‪ ،‬می‏توان ادعا کرد که «متغیرهای توضیحی معنادار‬ ‫نیستند و قدرت توضیح‏دهندگی متغیر وابسته را ندارند‪».‬‬ ‫فرمول‏های عمومی محاســبه فاصله اطمینان برای ضرایب رگرسیون و آزمون‬

‫‪161‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫جنبه‏های آماری رگرسیون چندگانه‬

‫تحلیل داده‌های اقتصادی‬

‫‪162‬‬

‫فرضیه مســاوی صفر بودن آن‏ها دقیقا مشابه فصل ‪ 5‬است‪ .‬اما محاسبه اعدادی که‬ ‫باید در فرمول‏ها جایگذاری شوند (یعنی ‪ )Sb‬اندکی پیچیده‏تر هستند‪ .‬با وجود این‬ ‫تفاوت اندک‪ ،‬مفهوم عملی این فرمول‏ها همانند قبل است‪ .‬به‏عبارت دیگر‪ ،‬فاصله‬ ‫اطمینان ‪ %95‬نشان‏دهنده برآوردی فاصله‏ای است‪ ،‬به‏نحوی که می‏‏توانیم ادعا کنیم‬ ‫«‪ %95‬مطمئن هستم که ضرایب برآورد‏شده در فاصله اطمینان ‪ %95‬قرار می‏گیرند‪».‬‬ ‫اغلب نرم‏افزارها ‪ P-value‬ضرایب را محاســبه می‏کنند که به کمک آن‏ها می‏توان‬ ‫فرضیه‏های مســاوی صفر بودن ضرایب برآورد‏شده را آزمود‪ .‬اگر ‪ P-value‬کمتر‬ ‫از ‪ 0/05‬باشــد می‏توانیم نتیجه بگیریم که آن متغیر توضیحی در سطح ‪ %5‬معنادار‬ ‫است‪ .‬الزم به ذکر است که در رگرسیون چندگانه‪ ،‬برای ضریب هر متغیر توضیحی‪،‬‬ ‫یعنی ‪ ، β1 ….βk‬یک ‪ P-value‬و فاصله اطمینان محاســبه می‏شود در حالی‏که در‬ ‫رگرسیون ســاده که فقط یک ضریب یعنی ‪ β‬وجود داشت‪ ،‬تنها یک ‪ P-value‬و‬ ‫فاصله اطمینان نیز محاسبه می‏شد‪ .‬از دید محققی که به دنبال تفسیر خروجی‏های‬ ‫نرم‏افزار برای درج در پژوهش خود است‪ ،‬جنبه‏های آماری رگرسیون چندگانه کامال‬ ‫شبیه رگرسیون ســاده است‪ .‬روش آزمون فرضیه یک متغیر توضیحی (برای مدل‬ ‫رگرسیون ســاده) که در ضمیمه ‪ 5-1‬توضیح داده شد را می‏توان برای متغیرهای‬ ‫مدل رگرسیون چندگانه نیز به‏کار گرفت‪ .‬یعنی برای هر ضریب یک آماره ‪ t‬محاسبه‬ ‫می‏شود که می‏توان آن‏را با مقدار بحرانی مقایسه کرد‪ .‬در همان ضمیمه توضیح دادیم‬ ‫که اگر حجم مثال بزرگ باشــد مقدار بحرانی آماره ‪ t‬برابر ‪ 1/96‬است‪ .‬در شرایطی‬ ‫که تعداد زیادی متغیر توضیحی وجود داشته باشند‪ ،‬می‏توان فرضیه‏های پیچیده‏تری‬ ‫را آزمود که در آن چندین ضریب با هم ترکیب شده‏اند (مثال ‪.) H0 :β1 + β2 = β3‬‬ ‫انجام این آزمون‏ها دشوارتر از آزمون‏های مطرح‏شده در این فصل هستند‪ .‬در ضمیمه‬ ‫‪ 12-1‬آزمودن چنین فرضیه‏هایی اندکی توضیح داده شده است‪.‬‬

‫تفسیر برآوردهای ‪OLS‬‬

‫فقط با تفسیر دقیق برآوردهای روش ‪OLS‬‏ است که می‏توان برخی تفاوت‏های‬ ‫ظریف (اما مهم) بین رگرســیون ساده و چندگانه را درک کرد‪ .‬در این فصل در‬

‫مثال ‪6-1‬ب ‪ :‬ترشیح قیمت خانه‬

‫در جــدول ‪ 6-1‬نتایج رگرســیون قیمــت خانــه (‪ )Y‬روی اندازه آن‬

‫( ‪ ،) X1‬تعداد اتاق‏خواب‏ها ( ‪ ،) X2‬تعداد حمام‏ها ( ‪ ) X3‬و تعداد طبقات‬ ‫( ‪ ) X4‬وجود دارد‪ .‬شــکل این جدول همانند خروجی نتایج رگرسیون‬ ‫در اغلب نرم‏افزارهای آماری است‪ .‬در جدول ‪ ،6-1‬مانند سایر مطالب‬ ‫این کتاب اعداد را دقیقا مانند خروجی‏های نرم‏افزاری نوشته‏ایم؛ یعنی با‬ ‫حداکثر تعداد اعشار موجود و نشان دادن توان با ‪ .E‬شما در گزارش‏تان‬

‫‪163‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫مورد تفســیر ضرایب برآورد‏شده در مدل رگرسیون چندگانه صحبت می‏کنیم‪.‬‬ ‫پیش از آغاز‪ ،‬الزم اســت راجع به نمادهایی که به‏کار می‏بریم توافق کنیم‪ β j .‬را‬ ‫زمانــی به‏کار می‏بریم که بخواهیم به ویژگــی عامی که در تمام ضرایب وجود‬ ‫دارد اشــاره کنیم (یعنی ضریب ‪j‬امین متغیــر توضیحی که‪ j‬می‏تواند هر عددی‬ ‫بین ‪ 1‬تا ‪ k‬باشــد)‪ .‬اما اگر بخواهیم در مورد ضریب خاصی صحبت کنیم‪ ،‬یک‬ ‫عدد خاص نیز به ‪ j‬نسبت می‏دهیم (مثال ‪ β1‬که در آن ‪ j=1‬است؛ ‪ β1‬نشان‏دهنده‬ ‫ضریب اولین متغیر توضیحی است)‪.‬‬ ‫در رگرســیون ساده‪ β ،‬را به‏عنوان تاثیر نهایی تفسیر کردیم یعنی مقیاسی برای‬ ‫نشان دادن تاثیری که تغییر ‪ X‬بر ‪ Y‬برجا می‏گذارد یا مقیاسی برای تاثیر ‪ X‬بر ‪ .Y‬در‬ ‫رگرسیون چندگانه هم می‏توان ‪ β j‬را به‏عنوان تاثیر نهایی تفسیر کرد‪ ،‬اما نحوه تفسیر‬ ‫اندکی متفاوت است‪ .‬به‏طور دقیق باید گفت که ‪ β j‬عبارت است از تاثیر نهایی ‪ X j‬بر‬ ‫‪ Y‬ب ‏ه شرطی که سایر متغیرهای توضیحی ثابت در نظر گرفته شوند‪ .‬این جمله آخر‬ ‫اهمیت بسیار زیادی در تفسیر دقیق نتایج رگرسیون دارد؛ به‌همین دلیل در مورد این‬ ‫جمله بیشتر بحث خواهیم کرد و این کار را با دنبال کردن مثال قیمت خانه انجام‬ ‫خواهیم داد‪ .‬فعال همین‏قدر کافی است بدانیم که عبارت به‏شرط ثبات سایر شرایط‪،‬‬ ‫عبارتی التین و بسیار پرکاربرد در اقتصاد است‪.‬‬

‫می‏توانید از تعداد کمتری اعشــار اســتفاده کنید یا بــرای توان‏ها از ‪E‬‬

‫استفاده نکنید‪ ،‬مثال ‪ 1/57E-13‬را به صورت ‪ 1/ 57 × 10−13‬نشان دهید‪.‬‬

‫در ســتون اول متغیرهای توضیحی لیست شده‏اند که در این مثال چهار‬

‫تا (به عالوه جزء ثابت) هستند‪ .‬هر سطر شامل اطالعاتی مشابه جدول‬ ‫نتایج رگرســیون ساده اســت (یعنی برآورد ‪OLS‬‏ از ضرایب متغیرها‪،‬‬ ‫انحراف معیار ضرایب‪ ،‬آمــاره ‪ t‬آن‏ها و مقدار ‪ P-value‬برای آزمودن‬

‫فرضیه ‪β j =0‬‬

‫و ســرانجام‪ ،‬حدود باال و پایین فاصله اطمینان ضرایب‬

‫در سطح ‪ .)%95‬همان‏گونه که پیشتر تاکید کردیم‪ ،‬هر کدام از این نتایج‬ ‫آماری برای هر یک از ضرایب ارائه شده است و بدیهی است که نتایج‬

‫بــرای ضرایب با یکدیگر متفاوتند (مثال ‪ P-value‬برای آزمون فرضیه‬ ‫تحلیل داده‌های اقتصادی‬

‫با ‪ P-value‬برای آزمون‬

‫‪β1 =0‬‬

‫‪164‬‬

‫فرضیه ‪β3 =0‬‬

‫فرق دارد)‪.‬با استفاده از‬

‫نتایج این جدول‪ ،‬می‏توانیم رابطه رگرسیونی را به‏شکل زیر بنویسیم‪:‬‬ ‫∧‬

‫=‪Y‬‬ ‫‪−4009.55 + 5.43X1 + 2824.61X2 + 17105.17X3 + 7634.90X 4‬‬

‫جدول ‪ 6-1‬رگرســیون قیمت فروش خانه روی انــدازه خانه‪ ،‬تعداد اتاق‏های خواب‪ ،‬تعداد‬ ‫حمام‏ها و تعداد طبقات‪ R = 0.54 ،‬و ‪ P-valeue‬برای آزمون فرضیه ‪ R = 0‬برابر ‪1.18E -88‬‬ ‫‪2‬‬

‫‪2‬‬

‫ضریب‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین‬ ‫در سطح‬ ‫‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫جزء ثابت‬

‫‪-4009 .5500‬‬

‫‪3603 .109‬‬

‫‪-1 .1128‬‬

‫‪0 .266287‬‬

‫‪-11087 .3‬‬

‫‪3068 .248‬‬

‫‪2.05E -41 14 .70325 0 .369250‬‬

‫‪X1‬‬

‫‪5 .4291737‬‬

‫‪X2‬‬

‫‪2824 .61379‬‬

‫‪2 .325153 1214 .808‬‬

‫‪X3‬‬

‫‪17105 .1745‬‬

‫‪3.29E -21 9 .862107 1734 .434‬‬

‫‪13698 .12‬‬

‫‪X4‬‬

‫‪7634 .897‬‬

‫‪1.57E -13 7 .574494 1007 .974‬‬

‫‪5654 .874‬‬

‫‪0.020433‬‬

‫‪4 .703835‬‬

‫‪6 .154513‬‬

‫‪438 .2961‬‬

‫‪5210 .931‬‬ ‫‪20512 .22‬‬ ‫‪9614 .92‬‬

‫برآورد ضریب متغیر توضیحی اول یعنی اندازه خانه را در نظر بگیرید‪،‬‬ ‫مقدار‬

‫∧‬

‫آن ‪β1 = 5 / 43‬‬

‫است‪ .‬در ادامه چند جمله در تفسیر و معنای این‬

‫ضریب آمده است‪:‬‬

‫• ب ‏ه شرط ثبات سایر شرایط‪ ،1‬یک فوت مربع (‪ 0/092‬متر مربع) افزایش‬ ‫در اندازه خانه گرایش دارد تا قیمت آن را ‪ 5/43‬دالر افزایش دهد‪.‬‬

‫• در خانه‏هایی با تعداد اتاق‏های خواب‪ ،‬حمام و طبقات یکســان‪ ،‬یک‬ ‫فــوت مربع (‪ 0/092‬متر مربع) افزایــش در اندازه خانه گرایش دارد تا‬ ‫قیمت آن را ‪ 5/43‬دالر افزایش دهد‪.‬‬

‫• اگــر خانه‏هایی با تعداد اتاق‏های خواب‪ ،‬حمام و طبقات یکســان را‬ ‫مقایســه کنیم‪ ،‬خانه‏هایی که انداز‏ه بزرگ‏تری دارند‪ ،‬گرایش به قیمت‬

‫بیشــتر دارند‪ .‬به‏عبــارت دقیق‏تر‪ ،‬یک فوت مربــع (‪ 0/092‬متر مربع)‬ ‫اســت‪ .‬الزم اســت که در مورد دو عبارت آخر بیشتر توضیح بدهیم‪.‬‬

‫نمی‏توانیم به‏ســادگی ادعا کنیم که «خانه‏های بزرگ‏تر‪ ،‬گران‏تر هستند»‬ ‫زیرا این‏طور نیســت (یعنی خانه‏های نقلی اما مناسبی وجود دارند که‬

‫گران‏تر از خانه‏های بزرگ‏تر از خود هســتند)‪ .‬اما می‏توانیم بگوییم که‬ ‫«اگر خانه‏هایی را در نظر بگیریم که به‏جز اندازه‪ ،‬سایر ویژگی‏های‏شان‬ ‫یکسان است‪ ،‬آن‏هایی که بزرگ‏تر هستند گران‏تر نیز هستند‪ ».‬دو عبارت‬ ‫بــاال صراحتا ویژگی‏های خانه‏ها را در رگرســیون لحــاظ می‏کنند در‬

‫حالی‏که در رگرسیون ساده فصل ‪ ،4‬چیزی در مورد ویژگی‏های خانه‏ها‬

‫نگفتیــم‪ .‬ضریب متغیر تعداد اتاق‏های‬

‫خواب‪β2 ،‬‬ ‫∧‬

‫اســت که مقدار آن‬

‫‪ 2842/61‬به‏دست آمده است‪ .‬عبارت‏های زیر را در تفسیر این ضریب‬

‫می‏توان گفت‪:‬‬

‫• به‏شــرط ثبات سایر شرایط‪ ،‬خانه‏های دارای یک اتاق خواب بیشتر‪،‬‬ ‫گرایش به ‪ 2842/61‬دالر قیمت بیشتر دارند‪.‬‬

‫‪1- Ceteris paribus‬‬

‫‪165‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫افزایش در اندازه خانــه با افزایش قیمت آن به اندازه ‪ 5/43‬دالر همراه‬

‫• اگر خانه‏های با ویژگی‏های یکسان را در نظر بگیریم (یعنی خانه‏هایی‬ ‫با اندازه ‪ 5000‬فوت مربع‪ ،‬دو حمام و دو طبقه)‪ ،‬آن‏هایی که ســه اتاق‬ ‫خواب دارند نســبت بــه خانه‏هایی با دو اتاق خــواب‪ ،‬گرایش دارند‬ ‫‪ 2842/61‬دالر گران‏تر باشند‪.‬‬

‫راه‏های زیادی برای تفسیر این ضرایب وجود دارد اما نکته اصلی مدنظر‬ ‫ما این است که‪ :‬در رگرسیون ساده‪ ،‬می‏گفتیم که « ‪ β‬معیار اندازه‏گیری‬

‫‪ Y‬اســت»؛ در رگرســیون چندگانه می‏گوییم که « ‪β j‬‬ ‫میزان تاثیر ‪ X‬بر ‏‬ ‫معیار اندازه‏گیری میزان تاثیر ‪X j‬‬

‫توضیحی یکسان باشند»‪.‬‬

‫بر ‪ Y‬است‪ ،‬به‏شرطی که سایر متغیرهای‬

‫تحلیل داده‌های اقتصادی‬

‫ضرایب ســایر متغیرهای توضیحی را می‏توان به شیوه‏ای مشابه تفسیر‬ ‫کرد‪ .‬مثال در‬

‫‪166‬‬

‫∧‬

‫مورد ‪β3 = 17105 / 174‬‬

‫می‏توانیم بگوییم که «ب ‏ه شــرط‬

‫ثبات ســایر شــرایط‪ ،‬خانه‏هــای دارای یک حمام بیشــتر گرایش به‬

‫‪ 17105/17‬دالر قیمت بیشتر دارند» و‬

‫چون ‪β4 = 7634 / 897‬‬ ‫∧‬

‫به‏دست‬

‫آمده است می‏توانیم ادعا کنیم که «اگر خانه‏هایی که به‏جز تعداد طبقات‪،‬‬

‫سایر ویژگی‏های‏شان مشابه است را با هم مقایسه کنیم نتیجه می‏گیریم‬

‫که خانه‏های دارای یک طبقه بیشــتر‪ ،‬گرایــش دارند تا ‪ 7634/90‬دالر‬

‫گران‏تر باشند»‪.‬‬

‫در بحث مربوط به ویژگی‏های آماری ضرایب رگرســیون اشاره کردیم‬

‫که فاصله اطمینان و ‪ P-value‬مهم‏ترین اعداد هســتند‪ .‬در رگرسیون‬ ‫ســاده‪ ،‬این اعداد را می‏توان به‏شــکلی مشابه تفســیر کرد‪ .‬مثال چون‬ ‫‪ P-value‬ضرایــب تمام متغیرهای توضیحی (بــه‏غیر از جزء ثابت)‬

‫کوچک‏تر از ‪ 0/05‬اســت می‏توانیم بگوییم که‬

‫«ضرایب ‪ β3 ، β2 ، β1‬و ‪β4‬‬

‫در ســطح ‪ %5‬از لحاظ آماری معنادار هستند» یا به‏طور مشابه می‏توانیم‬

‫بگوییم که «می‏توانیم چهار فرضیه صفر مجزا برای چهار ضریب دال بر‬ ‫مساوی صفر بودن آن‏ها را در سطح معناداری ‪ %5‬رد کنیم»‪.‬‬

‫به‏عنوان مثالی دیگر‪ ،‬اجازه بدهید فاصله اطمینان ‪ %95‬برای ‪ β2‬را در نظر‬ ‫بگیریم که برابر با [‪ 438.2761‬و ‪ ]5210.931‬اســت‪ .‬این اطالعات را‬ ‫می‏توان ب ‏ه این شــکل نیز بیان کرد که اگر چه برآورد نقطه‏ای ما نشان‬

‫می‏دهد که تاثیر نهایی تعــداد اتاق‏های خواب بر قیمت خانه (با ثابت‬

‫فرض کردن ســایر متغیرهای توضیحی) برابر ‪ 2842/61‬دالر است‪ ،‬اما‬ ‫این برآورد کامال دقیق نیست‪ .‬فاصله اطمینان ‪ %95‬نشان می‏دهد که فقط‬

‫می‏توانیم مطمئن باشــیم که این تاثیر نهایی جایی بین ‪ 438/28‬دالر و‬ ‫[‪ 5654.874‬و ‪ ]9614.92‬اســت‪ ،‬می‏توانیم ادعا کنیم که «‪ %95‬مطمئن‬

‫هستیم که تاثیر نهایی تعداد طبقات بر قیمت خانه (با ثابت فرض کردن‬ ‫سایر متغیرهای توضیحی) بین ‪ 5654/87‬دالر و ‪ 9614/92‬دالر است»‪.‬‬

‫‪ P-value‬برای آزمون‬

‫این معناست‬

‫فرضیه ‪R2 = 0‬‬

‫که ‪ X3 ، X2 ، X1‬و ‪X4‬‬

‫را دارند‪ .‬در واقع‬

‫مقدار ‪R2‬‬

‫بسیار کوچک‏تر از ‪ %5‬است و به‬

‫قدرت توضیح‏دهندگی متغیر وابسته‬

‫نشان می‏دهد که تغییرات اندازه خانه‪ ،‬تعداد‬

‫اتاق‏خواب‏هــا‪ ،‬حمام‏ها و طبقات‪ %54 ،‬تغییرات قیمت خانه را توضیح‬

‫می‏دهند‪.‬‬

‫تفاوت‏های بین تفسیرهای نتایج رگرسیون ساده و چندگانه‬

‫برای تاکید بر تفاوت‏های بین رگرسیون ساده و چندگانه‪ ،‬رگرسیون ساده قیمت‬ ‫فروش خانــه (‪ )Y‬روی تعداد اتاق‏خواب‏ها ( ‪ ) X2‬را انجام می‏دهیم‪ .‬نتایج این‬ ‫∧‬ ‫رگرســیون در جدول ‪ 6-2‬گزارش شده اســت‪ .‬از آن‌جاکه ‪β = 13269.98‬‬ ‫اســت‪ ،‬می‏توانیم چنین ادعا کنیم‪« :‬تاثیر نهایی تعداد اتاق‏های خواب بر قیمت‬

‫‪167‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫‪ 5210/93‬دالر قرار دارد‪ .‬ب ‏ه همین ترتیب چون فاصله اطمینان ‪ β4‬برابر‬

‫خانه‪ 13269/98 ،‬دالر است» یا «خانه‏های دارای یک اتاق خواب بیشتر گرایش‬ ‫به ‪ 13269/98‬دالر قیمت بیشتر نیز دارند»‪ .‬باید به تفاوت این عبارت با عبارتی‬ ‫∧‬ ‫که در مورد ‪ β2‬در مثال ‪ b 6 -1‬گفتیم‪ ،‬توجه کنید‪ .‬در رگرسیون ساده‪ ،‬چیزی در‬ ‫مورد ثبات سایر شرایط نگفتیم در حالی‏که این موضوع به‏طور ضمنی در عبارت‬ ‫«اگر خانه‏های با ویژگی‏های یکسان را در نظر بگیریم» وجود دارد‪ .‬توجه داشته‬ ‫باشید ضریب متغیر تعداد اتاق‏های خواب در رگرسیون ساده بسیار بزرگ‏تر از‬ ‫ضریب همین متغیر در رگرسیون چندگانه است‪ .‬چرا این‏طور است؟‬ ‫جدول ‪ .6-2‬رگرسیون قیمت فروش خانه بر تعداد اتاق‏های خواب‬ ‫انحراف معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در سطح‬ ‫‪%95‬‬

‫حدباال در سطح ‪%95‬‬

‫جزء ثابت ‪28773.4327‬‬

‫‪4413.753‬‬

‫‪6.519‬‬

‫‪1.60E -10‬‬

‫‪20103.34‬‬

‫‪37443.53‬‬

‫‪13269.9801‬‬

‫‪1444.598‬‬

‫‪8.50E -19 9.186‬‬

‫‪10432.30‬‬

‫‪16107.66‬‬

‫ضریب‬

‫تحلیل داده‌های اقتصادی‬

‫‪X2‬‬

‫‪168‬‬

‫برای پاسخ دادن به این پرسش‪ ،‬تصور کنید دوستی در وینسور کانادا دارید‬ ‫که قصد دارد یک اتاق خواب اضافی برای خانه‏اش بســازد و از شما به‏عنوان‬ ‫دوســت اقتصادخوانده‏اش می‏پرسد که با این کار ممکن است چقدر به ارزش‬ ‫خانه‏اش افزوده شود؟ پاسخ شما چیست؟‬ ‫رگرسیون ســاده باال فقط شــامل متغیرهای قیمت خانه و تعداد اتاق‏های‬ ‫خواب است‪ .‬برای پاســخ به پرسش فوق ممکن است تمام مشاهدات مثال را‬ ‫در نظر و نتیجه بگیرید که با افزایش تعداد اتاق‏های خواب‪ ،‬قیمت خانه بیشــتر‬ ‫می‏شــود (یعنی خانه‏های با سه اتاق خواب به‏میزان ‪ 13269/98‬دالر گران‏تر از‬ ‫خانه‏های با دو اتاق خواب هستند)‪.‬‬ ‫اما این نتیجه الزاما ب ‏ه این معنا نیســت که افزودن یک اتاق خواب به خانه‬ ‫حتما قیمت آن را ‪ 13269/98‬دالر بیشــتر خواهد کرد؛ به این دلیل که عالوه بر‬ ‫تعداد اتاق‏های خواب‪ ،‬عوامل متعدد دیگری نیز وجود دارند که بالقوه می‏توانند‬ ‫قیمت خانه را تحت تاثیر قرار دهند‪ .‬همچنین ممکن است این عوامل با یکدیگر‬

‫نیز همبســتگی زیادی داشته باشــند (در عمل خانه‏های بزرگ‏تر معموال تعداد‬ ‫بیشــتری اتاق خواب و حمام دارند و تعداد طبقات‏شان نیز بیشتر است)‪ .‬برای‬ ‫در نظر گرفتن این احتمال بهتر است ماتریس همبستگی (که در فصل ‪ 3‬توضیح‬ ‫داده شد) متغیرهای توضیحی موجود در این مثال را بررسی کنیم که در جدول‬ ‫‪ 6-3‬گزارش شده است‪.‬‬ ‫جدول ‪ .6-3‬ماتریس همبستگی متغیرهای توضیحی مثال قیمت خانه‬ ‫قیمت فروش‬

‫اندازه‬ ‫خانه‬

‫تعداد اتاق‏های‬ ‫خواب‬

‫تعداد حمام‬

‫اندازه خانه‬

‫‪0.535795‬‬

‫‪1‬‬

‫تعداد اتاق‏های خواب‬

‫‪0.366447‬‬

‫‪0.151851‬‬

‫‪1‬‬

‫تعداد طبقات‬

‫‪0.516719‬‬

‫‪0.193833‬‬

‫‪0.373768‬‬

‫‪1‬‬

‫تعداد حمام‬

‫‪0.421190‬‬

‫‪0.083674‬‬

‫‪0.407973‬‬

‫‪0.324056‬‬

‫‪1‬‬

‫چون تمام اعداد ماتریس همبســتگی مثبت هســتند‪ ،‬تمام متغیرها دوبه‏دو‬ ‫همبســتگی مثبت دارند (مثال همبســتگی بین تعداد حمام‏ها و تعداد اتاق‏های‬ ‫خواب ‪ 0/37‬اســت‪ ،‬یعنی خانه‏هایی که حمام‏های بیشــتری دارند‪ ،‬گرایش به‬ ‫داشتن اتاق‏های خواب بیشــتر هم دارند)‪ .‬در چنین شرایطی‪ ،‬رگرسیون ساده‬ ‫نمی‏توانــد بین تاثیرات مجــزای هر یک از متغیرهــای توضیحی روی متغیر‬ ‫وابســته تمایز قائل شود‪ .‬پس چون روش رگرســیون ساده تمام خانه‏ها را در‬ ‫نظــر می‏گیرد و به یاد داریم کــه خانه‏های دارای تعداد اتاق خواب بیشــتر‪،‬‬ ‫گران‏تر هم هستند‪ ،‬الزاما نمی‏توانیم نتیجه بگیریم که تعداد اتاق‏خواب‏ها به‏طور‬ ‫مســتقیم بر ارزش خانه می‏افزایند‪ .‬خریداران ممکن است برای تعداد حمام‏ها‬ ‫یا اندازه خانه نســبت به تعداد اتاق‏خواب‏ها ارزش بیشــتری قائل شــوند‪ .‬به‏‬ ‫عبارت دیگر خانه‏های با تعداد حمام بیشــتر ممکن است ارزشمندتر باشند اما‬ ‫از نتایج ماتریس همبســتگی می‏دانیم که‪ -‬خانه‏های دارای حمام‏های بیشتر‪،‬‬‫اتاق‏خواب‏ها بیشتری هم دارند‪ .‬مدل رگرسیون ساده فقط قیمت خانه و تعداد‬

‫‪169‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫قیمت فروش‬

‫‪1‬‬

‫تعداد‬ ‫طبقات‬

‫تحلیل داده‌های اقتصادی‬

‫‪170‬‬

‫اتاق‏خواب‏هــا را در نظر می‏گیرد و می‏بیند کــه خانه‏هایی که اتاق‏خواب‏های‬ ‫بیشــتری دارند‪ ،‬گران‏تر هستند‪ .‬آن‏‏چه که این مدل نمی‏بیند این است که آن‏چه‬ ‫واقعا برای خریداران مهم است‪ ،‬تعداد حمام‏ها است‪ .‬بنابراین اگر به دوست‏تان‬ ‫توصیه کنید که هر اتاق خواب اضافی ‪ 13269/98‬دالر می‏ارزد‪ ،‬ممکن اســت‬ ‫اشتباه بزرگی را مرتکب شده باشید‪ .‬واقعیت این است که ما در مدل رگرسیون‬ ‫ساده خود‪ ،‬متغیرهای توضیحی مهمی مثل اندازه خانه‪ ،‬تعداد حمام‏ها و تعداد‬ ‫طبقات را از قلم انداخته‏ایم‪ .‬مدل رگرسیون ساده ما‪ ،‬تاثیر تمام این عوامل را با‬ ‫هم ترکیب می‏کند و آن را به تک متغیر توضیحی موجود در مدل‪ ،‬یعنی تعداد‬ ‫∧‬ ‫اتاق‏خواب‏ها‪ ،‬نســبت می‏دهد و نتیجه این می‏شــود که ضریب ‪ β‬برآورد‏شده‬ ‫برای این تک متغیر‪ ،‬بســیار بزرگ می‏شود‪ .‬اگر این استدالل به‏نظرتان سخت‬ ‫اســت‪ ،‬مجددا فصل ‪ 3‬را بخوانید‪ .‬آن‌جا مثالی با متغیرهای اســتعمال سیگار‪،‬‬ ‫مصرف نوشیدنی و سرطان ریه را بررسی کردیم‪ .‬در آن مثال گفتیم که مطالعات‬ ‫علمی نشان داده‏اند که سیگار کشــیدن علت سرطان ریه است‪ .‬اما گرایش به‬ ‫مصرف نوشــیدنی در اغلب سیگاری‏ها بیشتر از غیرسیگاری‏ها است‪ .‬بنابراین‬ ‫همبستگی بین مصرف نوشــیدنی و سرطان ریه مثبت است حتی اگر مصرف‬ ‫نوشیدنی علت سرطان ریه نباشد‪ .‬این نوع مسائل دقیقا چیزی است که در این‬ ‫مثال به آن پرداختیم‪ .‬یعنی رگرسیون ساده‏ای فقط شامل متغیرهای سرطان ریه‬ ‫و مصرف نوشــیدنی‪ ،‬ممکن اســت ما را به این نتیجه برساند که تاثیر مصرف‬ ‫نوشیدنی بر ســرطان ریه زیاد است‪ ،‬حتی اگر مصرف نوشیدنی علت سرطان‬ ‫ریه نباشــد‪ .‬چرا چنین چیزی اتفاق می‏افتد؟ چون ما متغیر استعمال سیگار را‬ ‫از رگرســیون حذف کردیم که متغیر توضیحی مهمی در توضیح ســرطان ریه‬ ‫است‪ .‬متغیر توضیحی حذف‏شده همبستگی قوی با متغیر توضیحی حاضر در‬ ‫رگرسیون ساده دارد (یعنی مصرف نوشیدنی)‪.‬‬ ‫در مقابل‪ ،‬رگرســیون چندگانه به ما اجازه می‏دهد تا تاثیر هر چهار متغیری‬ ‫که گمان می‏بریم بر قیمت خانه موثر باشــند را به‏طور مجزا بررســی کنیم‪ .‬به‏‬ ‫نظر می‏رســد که برای نشان دادن تاثیر افزودن یک اتاق خواب بر قیمت خانه‪،‬‬

‫∧‬

‫عدد ‪ β2 = 2842 / 61 $‬به واقعیت نزدیک‏تر باشــد‪ .‬هرچند به‏ نظر می‏رسد‬ ‫حتی در این رگرســیون ساده هم متغیرهای توضیحی مهمی حذف شده‏اند‪ .‬با‬ ‫پیشــنهاد کردن این عدد به دوست‏تان‪ ،‬می‏توانید مطمئن باشید که اشتباه پیش‬ ‫را تکرار نخواهید کرد‪ .‬یعنی می‏توانید مطمئن باشید که به احتمال زیاد‪ ،‬تعداد‬ ‫اتاق‏خواب‏ها که به قیمت خانه می‏افزاید و شما تاثیر سایر متغیرهای توضیحی‬ ‫را با آن قاطی نمی‏کنید‪.‬‬

‫تورش متغیرهای حذف‏شده‬

‫مشکلی که در بخش قبل به آن اشاره شد را در آمار‪ ،‬تورش متغیر حذف‏شده‬ ‫یــا محذوف می‏نامند‪ .‬ما در این کتاب به مبانــی نظری آماری مورد نیاز برای‬ ‫توضیح معنی دقیق و رســمی این مشــکل نمی‏پردازیم‪ .‬اما به‏طور غیررسمی‬ ‫می‏توانیم بگوییم که اگر متغیرهای توضیحی که می‏بایست در رگرسیون حاضر‬ ‫باشند را جا بیندازیم‪ ،‬و اگر این متغیرهای محذوف با سایر متغیرهای توضیحی‬ ‫حاضر در رگرســیون همبستگی داشته باشند‪ ،‬آن‏گاه ضرایب متغیرهای حاضر‬ ‫در رگرســیون نادرست خواهند بود‪ .‬در رگرسیون ساده قیمت فروش خانه بر‬ ‫تعداد اتاق‏خواب‏ها که نتایج آن در جدول ‪ 6-2‬گزارش شده است‪ ،‬متغیرهای‬ ‫زیادی حذف شــده‏اند کــه در توضیح قیمت خانه مهم هســتند (یعنی اندازه‬ ‫خانه و تعداد حمام‏ها)‪ .‬به‏عالوه‪ ،‬این متغیرهای محذوف با تعداد اتاق‏خواب‏ها‬ ‫∧‬ ‫همبســتگی دارند و در نتیجه رگرسیون ســاده مقدار ‪ β‬را ‪ 13269/98‬برآورد‬ ‫می‏کند که به دلیل تورش متغیرهای محذوف‪ ،‬غیر قابل اعتماد است‪.‬‬ ‫مفهوم ضمنی و دلیل ایجاد تورش ناشی از حذف متغیرها‪ ،‬در بخش پیش‬ ‫توضیح داده شد‪ .‬مثال اندازه خانه متغیر توضیحی مهمی برای قیمت خانه است‬ ‫و در نتیجه «می‏خواهد» در رگرسیون وارد شود‪ .‬اگر آن را از رگرسیون حذف‬ ‫کنیم‪ ،‬این متغیر ســعی می‏کند به تنها شکلی که می‏تواند وارد رگرسیون شود‪،‬‬ ‫‪1‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫‪1- Omitted variable bias‬‬

‫‪171‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪172‬‬

‫یعنی از مسیر همبستگی مثبتش با دیگر متغیر توضیحی‪ ،‬تعداد اتاق‏های خواب‪.‬‬ ‫به‏عبارت دیگر‪ ،‬ضریب متغیر تعداد اتاق‏های خواب ترکیبی اســت از تاثیر دو‬ ‫متغیر تعداد اتاق‏های خواب و اندازه خانه بر قیمت خانه‪.‬‬ ‫درس عملی که می‏توان از مشکل تورش متغیرهای محذوف گرفت این است‬ ‫که محقق باید تالش کند تا تمام متغیرهای توضیحی که بالقوه می‏توانند بر متغیر‬ ‫وابســته موثر باشند را در رگرسیون وارد کند‪ .‬متاســفانه در عمل‪ ،‬انجام این کار‬ ‫به‏ندرت ممکن است‪ .‬مثال قیمت خانه به عوامل دیگری به غیر از متغیرهای موجود‬ ‫در فایل ‪ HPRICE.XLS‬نیز وابسته است (مثال سن بنا‪ ،‬محله‏ای که خانه در آن واقع‬ ‫اســت‪ ،‬جادار بودن خانه‪ ،‬وضعیت راه‏پله و سقف ساختمان‪ ،‬شرایط فضای سبز‬ ‫آن و ‪ .)...‬در عمل متغیرهای زیادی هستند که می‏توان داده‏های مربوط به آن‏ها را‬ ‫جمع‏آوری کرد و اما تعداد زیادی متغیر دیگر نیز ذهنی هستند و حتی اگر بخواهیم‬ ‫هم نمی‏توانیم داده‏های مربوط به آن‏ها را جمع کنیم (مثال محلیت خانه یا کیفیت‬ ‫محله‏ای که خانه در آن واقع اســت را چطور می‏توان اندازه‏گیری و کمی کرد؟)‪.‬‬ ‫بنابراین تقریبا همیشه با مشکل متغیرهای محذوف مواجه هستیم و کار چندانی هم‬ ‫نمی‏توانیم در مورد آن انجام دهیم به‏جز آن‏که امیدوار باشــیم متغیرهای محذوف‬ ‫قدرت توضیح‏دهندگی زیادی نداشته باشند و با سایر متغیرهای توضیحی حاضر‬ ‫در رگرسیون همبستگی نداشته باشند‪.‬‬ ‫نتیجه پاراگراف قبلی این می‏شــود که تا جای ممکن تعداد بیشتری متغیر‬ ‫توضیحی در رگرســیون وارد کنیم‪ .‬اما می‏توان اثبات کرد که ورود متغیرهای‬ ‫بی‏ربــط‪ ،‬دقت برآوردهای تمام ضرایــب را کاهش می‏دهد (حتی آن ضرایبی‬ ‫که بی‏ربط نیســتند)‪ .‬این کاهش دقت‪ ،‬خودش را در بزرگ‏تر شدن فاصله‏های‬ ‫اطمینان و ‪P-value‬ها نشان می‏دهد‪.‬‬ ‫پس چگونه باید بین منافع ورود تعداد زیادی متغیر (به‏دلیل کاهش ریســک‬ ‫وقوع تــورش متغیرهای محذوف) و هزینه‏هــای آن (ورود متغیرهای بی‏ربط و‬ ‫کاهش دقت برآوردها) تعادل برقرار کنیم؟ یک روش مرسوم این است که ابتدا تا‬ ‫جای ممکن متغیرهای توضیحی را وارد مدل رگرسیونی خود کنیم‪ ،‬سپس آن‏هایی‬

‫که از نظر آماری معنادار نیستند را از رگرسیون خارج کنیم و مجددا رگرسیون‏مان‬ ‫را بــا مجموعه جدید متغیرهای توضیحی برآورد کنیم‪ .‬معناداری آماری هر متغیر‬ ‫توضیحی را هم می‏توان با اســتفاده از ‪ P-value‬ضریب آن متغیر بررسی کرد‪ .‬هر‬ ‫دفعه پس از این‌که یک متغیر بی‏معنا از نظر آماری را از رگرسیون خارج می‏کنیم‪،‬‬ ‫می‏توانیم رگرســیون جدیدی را با تعداد کمتری متغیر توضیحی برآورد کنیم که‬ ‫ریسک حضور متغیرهای بی‏ربط در رگرسیون را کاهش می‏دهد‪.‬‬

‫مترین ‪6-2‬‬

‫با استفاده از مجموعه داده‏های فایل ‪ ،HPRICE.XLS‬قیمت خانه را متغیر وابسته‬

‫(‪ )Y‬و متغیرهای زیر را متغیرهای توضیحی در نظر بگیرید‪:‬‬ ‫‪ : X2‬تعداد اتاق‏خواب‏ها‬ ‫‪ : X3‬تعداد حمام‏ها‬

‫‪173‬‬

‫‪ : X4‬تعداد طبقات (با در نظر گرفتن زیرزمین)‬

‫(الــف) ‪ Y‬را روی ‪، X1‬‬

‫‪ X3 ، X 2‬و ‪X 4‬‬

‫برسید) و در مورد نتایج بحث کنید‪.‬‬

‫(ب) ‪ Y‬را روی ترکیب‏های مختلفی از‬

‫بحث کنید‪.‬‬

‫رگرس (یعنی خودتان به نتایج جدول ‪6-1‬‬ ‫‪X3 ، X2 ، X1‬‬

‫و‬

‫‪X4‬‬

‫رگرس و در مورد نتایج‬

‫(ج) نتایج بند الف و ب را مقایســه کنید‪ .‬تاثیــر متغیرهای توضیحی محذوف را‬ ‫آزمون کنید‪.‬‬

‫هم‏خطی‬

‫هم‏خطی مشکلی آماری‏ست که با مشکل مطرح‏شده در بخش قبل ارتباط دارد‪.‬‬ ‫این مشکل زمانی به‏وجود می‏آید که برخی یا تمام متغیرهای توضیحی شدیدا با‬ ‫یکدیگر همبستگی داشته باشند‪ .‬اگر هم‏خطی وجود داشته باشد‪ ،‬مدل رگرسیون‬ ‫به‏سختی می‏تواند تشــخیص دهد که کدام‏یک از متغیرهای توضیحی بر متغیر‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫‪ : X1‬اندازه خانه (به فوت مربع)‬

‫تحلیل داده‌های اقتصادی‬

‫‪174‬‬

‫وابسته تاثیر می‏گذارند‪ .‬مشکل هم‏خطی خودش را با آماره ‪ t‬های کوچک و در‬ ‫نتیجه ‪P-value‬های بزرگ نشــان می‏دهد‪ .‬در این شرایط باید نتیجه گرفت که‬ ‫ضرایب معنادار نیســتند پس باید از رگرسیون خارج شوند‪ .‬در شرایط حادتر‪،‬‬ ‫ممکن اســت با دیدن آماره ‪ t‬ضرایب نتیجــه بگیرید که تمام ضرایب از لحاظ‬ ‫‪2‬‬ ‫آماری بی‏معنا هستند در حالی‏که ‪ R‬به‏اندازه کافی بزرگ و معنادار است‪ .‬معنی‬ ‫مســتقیم این نتایج آن است که همه ضرایب با همدیگر قدرت توضیح‏دهندگی‬ ‫زیادی برای متغیر وابســته دارند اما مشــکل هم‏خطی نمی‏گذارد تا رگرسیون‬ ‫تشخیص بدهد کدام متغیر توضیحی اســت که این قدرت توضیح‏دهندگی را‬ ‫فراهم کرده است‪.‬‬ ‫مهم‏ترین کاری که برای رفع این مشــکل می‏توان انجام داد این است که‬ ‫برخی از متغیرهای توضیحی با همبســتگی زیاد را از رگرسیون خارج کنیم‪.‬‬ ‫اما در بســیاری موارد ممکن اســت مایل به انجام چنین کاری نباشیم‪ .‬مثال‬ ‫در مثال قیمت خانه‪ ،‬اگر معلوم شــود که دو متغیــر تعداد اتاق‏های خواب‬ ‫و تعداد حمام‏ها همبســتگی زیادی دارند‪ ،‬مشکل هم‏خطی پیش می‏آید‪ .‬اما‬ ‫حیف اســت یکی از این دو متغیر را از رگرســیون خارج کنیم چون بدیهی‬ ‫اســت که هر دو بر قیمت خانه تاثیــر می‏گذارند‪ .‬در مثال‏های ‪ 6-2‬و ‪6-3‬‬ ‫مشکل هم‏خطی چگونگی رفع آن به‏وسیله حذف یک متغیر توضیحی شرح‬ ‫داده شده است‪.‬‬

‫مثال ‪ :6-2‬تاثیر نرخ‏های بهره بر نرخ ارز‬

‫فرض کنید که قصد دارید تاثیر سیاست نرخ بهره را بر نرخ ارز بررسی‬

‫کنیــد‪ .‬یک راه برای انجام این کار انتخاب یک نرخ ارز (مثال نرخ پوند‬

‫بر حســب دالر) به‏عنوان متغیر وابســته و رگرس کردن آن بر نرخ ارز‬ ‫اســت‪ .‬اما از نرخ‏های بهره متفاوتی می‏تــوان به‏عنوان متغیر توضیحی‬

‫اســتفاده کرد (مثل نرخ بهره کوتاه‏مدت بانک‏ها و یا نرخ ســود اوراق‬ ‫خزانه) این نرخ‏های بهره بســیار شــبیه همدیگر هستند و همبستگی‬ ‫زیادی با هم دارند‪ .‬اگر از بیشــتر از یکی از آن‏ها استفاده کنیم‪ ،‬احتماال‬

‫دچار مشــکل هم‏خطی می‏شویم‪ .‬راه‏حل این مشکل روشن است‪ :‬فقط‬

‫یکی از این نرخ‏های بهره در رگرســیون وارد شوند‪ .‬اما از آن‌جاکه تمام‬

‫این نرخ‏ها جنبه‏های مختلفی از یک پدیده هســتند‪ ،‬عقل ســلیم حکم‬

‫می‏کند که اســتفاده از فقط یکی از آن‏ها باعث از دســت رفتن قدرت‬ ‫توضیح‏دهندگی نمی‏شود و مشکل هم‏خطی نیز پیش نمی‏آید‪.‬‬

‫برای نشــان دادن مشــکل هم‏خطی بحث در مورد چگونگی حل آن‪،‬‬ ‫خودمان ‪ N=50‬داده برای رگرسیون زیر می‏سازیم‪:‬‬

‫‪Y= 0 / 5X1 + 2X2 + e‬‬ ‫∧‬

‫از روش ‪ OLS‬انتظار داریم که تقریبا چنین برآوردهایی نتیجه بدهد‪α =0 :‬‬ ‫∧‬

‫∧‬

‫‪ β1 = 0 / 5 ،‬و ‪ . β2 = 2‬دلیل هم روشــن است چون خودمان این اعداد را‬

‫بــرای این ضرایب در نظر گرفتیم‪ .‬اما عامدانه داده‏های دو متغیر‬

‫‪X1‬‬

‫و‬

‫‪X2‬‬

‫را به‏نحوی تولید کرده‏ایم که همبستگی زیادی بین‏شان وجود داشته باشد؛‬ ‫مقدار این همبستگی ‪ 0/98‬است و به این نکته اشاره می‏کند که ممکن است‬

‫مشکل هم‏خطی در رگرسیون‏مان پیش بیاید‪ .‬در جدول ‪ 6-4‬نتایج رگرسیون‬

‫برآورد‏شده برای این داده‏ها گزارش شده است‪ .‬نتایج با انتظارات ما بسیار‬ ‫متفاوت است‪ .‬برآوردهای نقطه‏ای ‪ OLS‬با ضرایبی که خودمان داده‏هایش را‬ ‫∧‬

‫تولید کردیم خیلی فرق دارد‪ .‬مثال برآورد ‪ OLS‬عبارت است از ‪β1 = 2.08‬‬

‫‪175‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫مثال ‪ :6-3‬مشکل هم‏خطی در داده‏های مصنوعی‬

‫در حالی‏که ضریبی که ساختیم ‪ β1 =0.5‬است‪ .‬در حقیقت برآورد ‪ OLS‬از‬ ‫‪ β1‬تقریبا برابر مقداری است که برای ‪ β2‬ساختیم! این نتایج نشان می‏دهد که‬

‫چطور وقتی متغیرهای توضیحی همبستگی زیادی داشته باشند‪ ،‬برآوردهای‬

‫‪ OLS‬از تشــخیص درســت نقش و تاثیر هر یک از متغیرهای توضیحی‬

‫بر متغیر وابســته ناتوان می‏شوند‪ .‬نکته دیگر این است که ضرایب یکی از‬ ‫متغیرهای توضیحی در ســطح ‪ %5‬از نظر آماری معنادار نیست و ضریب‬ ‫دیگر به‏سختی در این سطح معنادار اســت‪ .‬به‏عالوه فاصله اطمینان ‪%95‬‬ ‫برای تمام ضرایب بسیار عریض است‪ .‬بر مبنای این نتایج می‏توان گفت که‬ ‫متغیرهای توضیحی قدرت اندکی برای توضیح متغیر وابسته دارند‪ .‬اما مقدار‬ ‫‪ R2‬بسیار بزرگ و از لحاظ آماری قویا معنادار است و به این معناست که‬

‫تحلیل داده‌های اقتصادی‬

‫متغیرهای توضیحی با همدیگر قدرت توضیح‏دهندگی زیادی دارند‪ .‬این‏ها‬

‫‪176‬‬

‫نشانه‏های معمول وجود مشکل هم‏خطی در مدل رگرسیونی هستند‪.‬‬

‫برای حل مشکل هم‏خطی در این مثال‪ ،‬اغلب اقتصاددانان پیشنهاد می‏کنند که‬ ‫متغیر ‪X2‬‬

‫از رگرسیون حذف شود‪ .‬اگر به این توصیه عمل کنیم و رگرسیون‬

‫را مجددا ران کنیم‪ ،‬نتایج جدول ‪ 6-5‬را خواهیم داشت‪ .‬ار نظر آماری‪ ،‬نتایج‬

‫جدول اخیر بسیار بهتر هستند‪ β1 .‬از نظر آماری قویا معنادار است و فاصله‬

‫اطمینان نشان می‏دهد که برآورد آن دقیق است‪.‬‬

‫(‪ R2=0.76‬و ‪P-valeue‬‬

‫جدول ‪ .6-4‬نتایج رگرسیون برای داده‏های ساخته شده‬ ‫برای آزمون فرضیه‪ R =0‬برابر ‪)1/87 E -15‬‬ ‫‪2‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫‪1 .57859 0 .1025278 0 .166191‬‬

‫‪0 .121137‬‬

‫‪-0 .045601‬‬

‫‪0 .377983‬‬

‫‪X1‬‬

‫‪2 .18664 1:0.952938 2 .083733‬‬

‫‪0 .033782‬‬

‫‪0 .16667‬‬

‫‪4 .00080‬‬

‫‪X2‬‬

‫‪0 .153013 0 .965767‬‬

‫ضریب‬ ‫جزء ثابت‬

‫‪0 .147775‬‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪0 .879043‬‬

‫‪-1 .7591‬‬

‫‪2 .09065‬‬

‫( ‪R2 = 0.76‬‬

‫جدول ‪ .6-5‬نتایج رگرسیون برای بخشی از داده‏های ساخته شده‬ ‫‪ R 2 = 0.76‬و ‪ P-valeue‬برای آزمون فرضیه ‪ R =0‬برابر ‪)1/2 E -16‬‬ ‫∧‬

‫یا‬

‫‪2‬‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫جزء ثابت ‪0 .166715‬‬

‫‪0 .104146‬‬

‫‪1 .60078‬‬

‫‪0 .115989‬‬

‫‪-0 .042685‬‬

‫‪0 .376115‬‬

‫‪2 .22690‬‬

‫‪0 .178806‬‬

‫‪12 .4543‬‬

‫‪1/20 E -16‬‬

‫‪1 .86739‬‬

‫‪2 .58641‬‬

‫ضریب‬

‫‪X1‬‬

‫پس از یک نظر‬

‫حذف ‪X2‬‬

‫باعث رفع مشــکل هم‏خطی شده است‪ .‬اما‬ ‫∧‬

‫مشکل موجود این است که ‪ β1‬حتی نزدیک مقدار واقعی‏اش یعنی ‪0/5‬‬

‫هم نیست (و بدتر این‌که فاصله اطمینانش هم شامل ‪ 0/5‬نیست)‪ .‬آن‏چه‬ ‫رخ داده این اســت که پس از حذف ‪ X2‬از رگرســیون‪X1 ،‬‬ ‫∧‬

‫با ‪X2‬‬

‫دارد‪،‬‬

‫می‏تواند جایگزین مناســبی برای آن باشد‪ .‬پس ‪ β1‬تاثیرات هر دو متغیر‬ ‫توضیحــی را ترکیب می‏کند‪ .‬ب ‏ه عبارت دیگر همــان طور که در مثال‬

‫قیمت خانــه حذف یک متغیر توضیحی مهم باعــث ایجاد تورش در‬ ‫نشــان دادن تاثیر تعداد اتاق‏خواب‏ها بر قیمت خانه شــده بود‪ ،‬در این‬

‫مثال هــم حذف ‪ X2‬باعث ایجاد تورش در نشــان دادن تاثیر ‪ X1‬بر ‪Y‬‬

‫شــده است‪ .‬برای حل این مشکل کار چندانی نمی‏توان انجام داد‪ ،‬فقط‬

‫به‏یاد داشــته باشــید که به هنگام وجود مشکل هم‏خطی باید در تفسیر‬ ‫نتایج رگرســیون با احتیاط رفتار کرد‪ .‬برای یادآوری تاکید می‏کنیم که‬

‫هم‏خطی معنای وجود همبســتگی بین خود متغیرهای توضیحی است‪،‬‬ ‫نه همبســتگی بین متغیرهای توضیحی و متغیر وابسته‪ .‬همبستگی زیاد‬

‫بین متغیرهای توضیحی و متغیر وابسته چیز خوبی محسوب می‏شود و‬

‫به این معناســت که متغیرهای توضیحی قدرت توضیح‏دهندگی زیادی‬ ‫برای توضیح متغیر وابسته دارند‪ .‬برای این‌که هم‏خطی مشکل محسوب‬ ‫شــود‪ ،‬باید همبستگی بین متغیرهای توضیحی زیاد باشد‪ .‬اگر دوباره به‬

‫‪177‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫تا جــای آن را پر کند؛ و از‬

‫آن‌جاکه ‪X1‬‬

‫همبســتگی زیادی‬

‫سعی کرده‬

‫مثــال قیمت خانه بازگردیم‪ ،‬می‏توانیم از جــدول نتایج ‪ 6-3‬ببینیم که‬ ‫متغیرهای توضیحی همبســتگی اندکی با یکدیگر دارند (همبستگی‏ها‬

‫بین ‪ 0/3‬تا ‪ 0/4‬اســت)‪ .‬اما این همبســتگی اندک باعث ایجاد مشکل‬

‫هم‏خطی نمی‏شود زیرا تمام ضرایب به‏طور معنادار مخالف صفر هستند‬ ‫(‪P-value‬ها را در جدول ‪ 6-1‬مالحظه کنید)‪.‬‬

‫مترین ‪6-3‬‬

‫با اســتفاده از داده‏هــای ‪ FOREST.XLS‬و متغیرهــای جنگل‏زدایی (‪ ،)Y‬تراکم‬ ‫جمعیت ( ‪ ،) X1‬درصد تغییرات گندم‏زار ( ‪ ) X2‬و درصد تغییرات چراگاه ( ‪ ،) X3‬یک‬

‫تحلیل داده‌های اقتصادی‬

‫رگرسیون چندگانه برآورد کنید و مسائل موجود در این فصل را در این رگرسیون‬

‫‪178‬‬

‫نشان دهید‪ .‬مثال باید‪:‬‬

‫(الف) ‪ Y‬را روی‬

‫‪ X2 ، X1‬و ‪X3‬‬

‫رگرس و در مورد نتایج برآورد بحث کنید‪.‬‬

‫(ب) در مورد معنــاداری آماری ضرایب توضیح دهید‪ .‬آیــا می‏توان هیچ‏یک از‬

‫متغیرهای توضیحی را از رگرسیون حذف کرد؟‬

‫(ج) در مورد نیکویی برازش رگرسیون توضیح دهید‪.‬‬

‫(د) ماتریس همبســتگی متغیرهای توضیحی را محاسبه کنید‪ .‬با استفاده از نتایج این‬

‫ماتریس و نتایج بند الف‪ ،‬در مورد مشکل هم‏خطی رگرسیون برآورد‏شده بحث کنید‪.‬‬

‫مثال ‪ :6-4‬هزینه تولید در صنعت برق‬

‫توانایی تفسیر نتایج رگرسیون چندگانه احتماال مهم‏ترین مهارتی است‬ ‫که یک محقق اقتصاد کاربردی باید کسب کند‪ .‬در ادامه مثال دیگری را‬

‫پی می‏گیریم و خالصه نتایج را ارئه می‏کنیم‪.‬‬

‫نظریه اقتصاد خرد به ما می‏گوید که هزینه‏های تولید یک بنگاه به قیمت‬ ‫نهاده‏های استفاده‏شــده در فرایند تولید و مقدار کاالی تولیدی بستگی‬ ‫دارد‪ .‬پس برای بررسی هزینه‏های تولید‪ ،‬این هزینه‏ها باید متغیر وابسته‬

‫باشــند و مقدار تولید و قیمــت نهاده‏ها نقش متغیرهای توضیحی را بر‬

‫عهده بگیرند‪ .‬ما از داده‏های موجود در فایل ‪ ELECTRIC.XLS‬برای‬

‫این متغیرها اســتفاده کردیم که برای ‪ 123‬بنــگاه فعال در صنعت برق‬ ‫آمریکا در سال ‪ 1970‬جمع‏آوری شده است‪ .‬این متغیر‏ها عبارتند از‪:‬‬

‫‪ :Y‬هزینه تولید (بر حسب میلیون دالر در سال)‬

‫‪ : X1‬مقدار تولید (بر حسب هزار کیلووات ساعت ‪ KWh‬در سال)‬

‫‪ : X3‬قیمت سرمایه (بر حسب دالر به ازای یک واحد سرمایه در سال)‬ ‫‪ : X4‬قیمت سوخت (بر حسب دالر ب ‏ه ازای یک میلیون ‪)BTU1‬‬

‫نتایج رگرسیون متغیرهای فوق در جدول ‪ 6-6‬گزارش شده است‪.‬‬ ‫‪ R2=0.94‬و ‪P-valeue‬‬

‫جدول ‪ .6-6‬نتایج رگرسیون متغیرهای صنعت برق (‬ ‫برای آزمون فرضیه ‪ R2 = 0.94‬برابر ‪)9/73 E -73‬‬ ‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫‪-5 .55298 12 .69501 -70 .49511‬‬

‫‪1/76 E -7‬‬

‫‪-95 .6347‬‬

‫‪-45 .3556‬‬

‫‪X1‬‬

‫‪0 .00474‬‬

‫‪0 .00011‬‬

‫‪43 .22597‬‬

‫‪3/41 E -74‬‬

‫‪0 .004514‬‬

‫‪0 .004948‬‬

‫‪X2‬‬

‫‪0 .00363‬‬

‫‪0 .00106‬‬

‫‪3 .43660‬‬

‫‪0 .000814‬‬

‫‪0.001537‬‬

‫‪0 .005717‬‬

‫‪X3‬‬

‫‪0 .28008‬‬

‫‪0 .12949‬‬

‫‪2 .16301‬‬

‫‪0.032557‬‬

‫‪0 .023663‬‬

‫‪0 .536503‬‬

‫‪X4‬‬

‫‪0 .78346‬‬

‫‪0 .16579‬‬

‫‪4 .72566‬‬

‫‪6/39 E -6‬‬

‫‪0 .455154‬‬

‫‪1 .11177‬‬

‫ضریب‬ ‫جزء ثابت‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪1- British Thermal Unit:‬‬

‫یکا یا واحد شــمارش سنتی گرما در انگلیس است‪ .‬تعریف آن این‏طور است‪ :‬میزان گرمای مورد نیاز برای‬ ‫افزایش یک درجه به حرارت یک پوند (‪ 453‬گرم) آب‪.‬‬

‫‪179‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫‪ : X2‬دستمزد نیروی کار (بر حسب دالر برای هر نفر نیروی کار در سال)‬

‫عالمت تمام ضرایب مطابق انتظار است‪ :‬افزایش تولید یا قیمت هر یک‬

‫از نهاده‏هــا گرایش به افزایش هزینه‏ها دارد‪ .‬بزرگی ضرایب نیز منطقی‬

‫است؛ بنابراین می‏توانیم بگوییم‪:‬‬

‫• به‏شــرط ثبات سایر شــرایط‪ ،‬افزایش تولید به میزان هزار کیلووات‬ ‫ســاعت ( ‪ )KWh1000‬گرایش به افزودن ‪ 4740‬دالر به هزینه‏ها دارد‪.‬‬

‫‪ %95‬مطمئن هستیم که این تاثیر نهایی حداقل برابر ‪ 4514‬دالر و حداکثر‬

‫برابر ‪ 4948‬دالر باشد‪.‬‬

‫• به‏شرط ثبات سایر شــرایط‪ ،‬افزایش دستمزد ساالنه یک کارگر مثال‬

‫به اندازه ‪ 1‬دالر گرایش به افزودن ‪ 3630‬دالر به هزینه‏های ساالنه دارد‪.‬‬ ‫‪ %95‬مطمئن هستیم که این تاثیر نهایی حداقل برابر ‪ 1537‬دالر و حداکثر‬

‫تحلیل داده‌های اقتصادی‬

‫برابر ‪ 5717‬دالر باشــد‪ .‬با وجود این‌که این ضریب قویا معنادار اســت‬

‫‪180‬‬

‫(‪ P-value‬کمتر از ‪ 0/01‬اســت)‪ ،‬چنین فاصله اطمینانی نشــان‏دهنده‬ ‫میزان قابل قبولی از عدم اطمینان در نتایج است‪.‬‬

‫• به‏شــرط ثبات سایر شرایط‪ ،‬افزایش قیمت هر واحد سرمایه به اندازه‬

‫‪ 1‬دالر گرایش به افزودن ‪ 280080‬دالر به هزینه‏های ساالنه دارد‪ .‬فاصله‬

‫اطمینان ‪ %95‬برای این ضریب قابل قبول است‪.‬‬

‫• به‏شرط ثبات سایر شرایط‪ ،‬افزایش قیمت سوخت به اندازه ‪ 1‬دالر به ازای‬

‫یک میلیون ‪ ،BTU‬گرایش به افزودن ‪ 783460‬دالر به هزینه‏های ســاالنه‬ ‫دارد‪.‬‬

‫‪ R2 = 0.94‬به این معناســت که متغیرهای توضیحی به‏همراه یکدیگر‬

‫حــدود ‪ 94‬درصد از تغییرات هزینه‏های تولید را توضیح می‏دهند‪ .‬این‬ ‫عدد بسیار بزرگی است و به‏عالوه قویا معنادار نیز هست‪.‬‬

‫این واقعیت که رگرســیون ما توانسته اســت تغییرات متغیر وابسته را‬ ‫تقریبا به‏طور کامل توضیح دهد نشــان می‏دهد که بعید است هیچ متغیر‬

‫توضیحی از رگرسیون جا مانده و در آن حضور نداشته باشد‪ .‬اگر به هر‬

‫یک از ضرایب دقت کنیم می‏بینیم که ‪P-value‬ها همه در ســطح ‪%5‬‬

‫معنادار هستند‪ .‬ماتریس همبســتگی گزارش‏شده در جدول ‪ 6-7‬نشان‬ ‫می‏دهد که متغیرهای توضیحی دوبه‏دو همبســتگی قوی با هم ندارند‪.‬‬ ‫حداکثر مقدار همبستگی بین دستمزد نیروی کار و قیمت سوخت وجود‬ ‫دارد که تنها برابر ‪ 0/32‬اســت‪ .‬باقی همبســتگی‏ها بسیار کوچک‏تر و‬

‫نشان‏دهنده عدم وجود مشکل هم‏خطی مرکب هستند‪.‬‬

‫جدول ‪ .6-7‬ماتریس همبستگی متغیرهای مثال صنعت برق‬ ‫میزان تولید‬

‫میزان تولید‬

‫دستمزد نیروی کار‬

‫قیمت سرمایه‬

‫قیمت سوخت‬

‫‪1‬‬

‫دستمزد نیروی کار ‪0 .056399‬‬ ‫قیمت سرمایه‬

‫‪0 .021481‬‬

‫‪-0 .078686‬‬

‫‪1‬‬

‫قیمت سوخت‬

‫‪0 .053507‬‬

‫‪0 .318349‬‬

‫‪0 .155224‬‬

‫‪1‬‬

‫جدول ‪ .6-8‬نتایج رگرسیون متغیرهای صنعت برق پس از حذف متغیر قیمت پایه‬ ‫( ‪ R 2 = 0.94‬و ‪ P-valeue‬برای آزمون فرضیه ‪ R ∧ 2=0‬برابر ‪)3/5 E -73‬‬ ‫∧‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫‪8 .449311 -49 .75804‬‬

‫‪-5 .88900‬‬

‫‪3/68 E -8‬‬

‫‪-71 .8765‬‬

‫‪-27 .6396‬‬

‫‪0 .000111‬‬

‫‪42 .6218‬‬

‫‪6/40 E -74‬‬

‫‪0 .004445‬‬

‫‪0 .005027‬‬

‫ضریب‬ ‫جزء ثابت‬ ‫‪X1‬‬

‫‪0 .004736‬‬

‫‪X2‬‬ ‫‪X4‬‬

‫انحراف‬ ‫معیار‬

‫‪0 .0001061 0 .003313‬‬

‫‪3 .12145‬‬

‫‪0 .002259‬‬

‫‪0 .00055‬‬

‫‪0 .006091‬‬

‫‪0 .165266‬‬

‫‪5 .15282‬‬

‫‪1/03 E -6‬‬

‫‪0 .418965‬‬

‫‪1 .284216‬‬

‫‪0 .851586‬‬

‫در بین ضرایب برآورد‏شــده در جــدول ‪ 6-6‬معناداری آماری ضریب‬

‫متغیر ‪ ، X3‬یعنی قیمت ســرمایه‪ ،‬ضعیف‏تر از بقیه است‪ .‬فاصله اطمینان‬

‫ضریب این متغیر نیز اندکی عریض‏تر و ‪ P-value‬برای آزمون فرضیه‬ ‫‪β3 =0‬‬

‫کمی بیشــتر از ‪ %3‬است‪ .‬پس نمی‏توانیم فرضیه صفر‬

‫‪β3 =0‬‬

‫‪181‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫‪1‬‬

‫را در سطح معناداری ‪ %1‬رد کنیم‪ .‬اما در عمل خیلی از سطح معناداری‬

‫‪ %1‬اســتفاده نمی‏شود (‪ %5‬مرسوم‏تر اســت)‪ .‬اما به‏خاطر بررسی بیشتر‬ ‫موضوع‪ ،‬بیایید از سطح معناداری ‪ %1‬استفاده کنیم‪ .‬با این کار باید نتیجه‬

‫بگیریم که ‪ β3‬از نظر آماری معنادار نیســت و باید از رگرســیون حذف‬ ‫شــود‪ .‬پس از حذف متغیر قیمت ســرمایه و برآورد مجدد رگرسیون‪،‬‬

‫نتایجی مانند جدول ‪ 6-8‬به‏دست خواهید آورد‪ .‬توجه کنید که چون از‬ ‫سطح معناداری ‪ %1‬استفاده کرده‏ایم‪ ،‬نتایج جدول دارای فاصله اطمینان‬

‫‪ %99‬خواهند بود‪ .‬جدول ‪ 6-8‬فقط ب ‏ه خاطر بررسی یک استراتژی مرسوم‬ ‫آماری ارائه شده است (یعنی حذف متغیرهای توضیحی که معنادار نیستند و‬

‫برآورد مجدد رگرسیون)‪ .‬چون نتایج رگرسیون جدید (پس از حذف ‪) X3‬‬

‫تحلیل داده‌های اقتصادی‬

‫با نتایج رگرسیون قبلی (با حضور آن) چندان تفاوت ندارد‪ ،‬نتایج رگرسیون‬ ‫‪182‬‬

‫جدید را مجددا تفسیر نمی‏کنیم‪.‬‬

‫خالصه فصل‬

‫‪ -1‬مدل رگرسیون ساده خیلی شبیه مدل رگرسیون چندگانه است‪ .‬در این فصل‬ ‫تفاوت‏های این دو مدل توضیح داده شد‪.‬‬ ‫‪ -2‬تفســیر ضرایب رگرسیون بستگی به عبارت به‏‏شرط ثبات سایر شرایط‬ ‫دارد‪ β j :‬معیار تاثیر نهایی ‪ X j‬بر ‪ Y‬است به‏شرطی که سایر متغیرهای توضیحی‬ ‫ثابت بمانند‪.‬‬ ‫‪ -3‬اگر متغیرهای توضیحی مهمی از رگرسیون حذف شوند آن‏گاه ضرایب‬ ‫برآورد‏شده ممکن اســت گمراه‏کننده باشند‪ ،‬به این مشکل «تورش متغیرهای‬ ‫حذف‏شده» می‏گویند‪ .‬این مشکل زمانی بدتر می‏شود که متغیرهای حذف‏شده‬ ‫همبستگی قوی با متغیرهای حاضر در رگرسیون داشته باشند‪.‬‬ ‫‪ -4‬اگر متغیرهای توضیحی با یکدیگر همبستگی قوی داشته باشند‪ ،‬برآورد‬

‫ضرایب و آزمون‏های آماری ممکن اســت گمراه‏کننده باشــند‪ .‬این را مشکل‬ ‫هم‏خطی مرکب می‏نامند‪.‬‬

‫ضمیمه ‪ :6-1‬تفسیر ریاضی رضایب رگرسیون‬

‫خوانندگانی که کمی از حســاب دیفرانسیل و انتگرال‪( 1‬حسابان) سر در می‏آورند‬ ‫می‏توانند تفاوت‏های ریاضی رگرسیون ساده و چندگانه را بفهمند‪ .‬می‏توان با استفاده‬ ‫از مفهوم مقدماتی مشتق‪ ،‬رابطه ریاضی زیر را برای مدل رگرسیون ساده نوشت‪:‬‬ ‫‪dY‬‬ ‫‪= β‬‬ ‫‪dX‬‬

‫‪∂Y‬‬ ‫‪= βj‬‬ ‫‪∂X j‬‬

‫ب ‏ه عبارت دیگر‪ ،‬این ضریب دیگر مشــتق کامل نیســت بلکه مشتق جزیی‬ ‫است‪ .‬مشتق جزیی را می‏توان این‏طور تفسیر کرد‪ :‬تاثیر یک تغییر کوچک ‪ X j‬بر‬ ‫‪ ،Y‬به‏شرط آن‏که سایر متغیرهای توضیحی تغییر نکنند و ثابت بمانند‪.‬‬

‫‪1- Calculus‬‬

‫‪183‬‬

‫فصل ‪ :6‬رگرسیون چندگانه‬

‫این رابطه می‏گوید که ضریب رگرســیون یا ‪ β‬را می‏توان به‏عنوان مقیاســی‬ ‫برای تغییرات ‪ ،Y‬هنگامی که ‪ X‬اندکی تغییر می‏کند‪ ،‬در نظر گرفت؛ یعنی مشتق‬ ‫کامل‪ .‬برای مدل رگرسیون چندگانه‪ ،‬می‏توان رابطه زیر را نوشت‪:‬‬

‫فصل ‪7‬‬ ‫رگرسیون با متغیرهای مجازی‬

‫‪2- Qualitative‬‬

‫‪1- Quantitative‬‬

‫‪185‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫در فصل پیش‪ ،‬برای نشان دادن برخی مفاهیم مهم آماری از داده‏های کمی‬ ‫استفاده کردیم‪ .‬اما بیشتر داده‏های مورد استفاده اقتصاددانان کیفی‪ 2‬هستند‪ .‬تفاوت‬ ‫بین داده‏های کمی و کیفی در فصل ‪ 2‬توضیح داده شــد‪ .‬متغیرهای مجازی‪ ،‬که‬ ‫به‏طور خالصه در همان فصل مورد بحث قرار گرفت‪ ،‬روشی است برای تبدیل‬ ‫داده‏های متغیرهای کیفی به کمی‪ .‬تمرکز ما در این فصل بر متغیرهای توضیحی‬ ‫مجازی است‪ ،‬اما اگر متغیر وابسته مجازی باشد آن‏گاه باید از تکنیک‏های فصل‬ ‫‪ 8‬استفاده کرد‪.‬‬ ‫پس از آن‏که متغیرهای توضیحی کیفی به متغیرهای مجازی تبدیل شــدند‪،‬‬ ‫می‏توانیم رگرسیون‏مان را به روش استاندارد برآورد کنیم و تمام نظریه‏ها‪ ،‬مفاهیم‬ ‫و روش‏هایی که در فصل‏های پیشین به آن‏ها رسیدیم‪ ،‬قابل استفاده خواهند بود‪.‬‬ ‫اما چرا یک فصل کامل را به این موضوع اختصاص داده‏ایم؟ به دو شــکل‬ ‫می‏توان به این پرســش پاسخ گفت‪ .‬اول این‌که رگرسیون با متغیرهای مجازی‬ ‫بسیار پرکاربرد ولی تفسیر ضرایب برآورد‏شده آن اندکی متفاوت است‪ .‬به‌همین‬ ‫دلیل ارزش دارد که در مورد تفســیر ضرایب چنین رگرسیون‏هایی با جزییات‬ ‫‪1‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪186‬‬

‫بحث کنیم‪ .‬دوم این‌که رگرسیون با متغیرهای توضیحی مجازی ارتباط نزدیکی‬ ‫بــا یک مجموعه تکنیک‏های دیگر تحت عنوان «تحلیل واریانس‪ »1‬یا ‪ANOVA‬‬ ‫دارد‪ .‬از ‪ ANOVA‬به‏ندرت در اقتصاد استفاده می‏شود اما در سایر علوم اجتماعی‬ ‫‪2‬‬ ‫و علوم طبیعی مثل جامعه‏شناسی‪ ،‬روانشناسی‪ ،‬آمار پزشکی و همه‏گیرشناسی‬ ‫(علم امراض مسری) ابزاری مرسوم و پرکاربرد است‪ .‬هرچند بیشتر نرم‏افزارهای‬ ‫صفحه گسترده و آمار امکان استفاده از ‪ ANOVA‬را فراهم می‏کنند‪ ،‬اما واژه‏شناسی‬ ‫‪ ANOVA‬با آن‏چه در اقتصاد اســتفاده می‏شــود کامال متفاوت است‪ ،‬در نتیجه‬ ‫ممکن اســت ‪ ANOVA‬به‏نظرتان نا‌آشنا یا حتی گیج‏کننده باشد‪ .‬در این فصل‬ ‫به این ادعای خود می‏پردازیم که رگرســیون با متغیرهای توضیحی مجازی هر‬ ‫آن‏چه که ‪ ANOVA‬قادر به انجام آن اســت را انجام می‏دهد‪ .‬در واقع رگرسیون‬ ‫بــا متغیرهای توضیحی مجازی حتی عام‏تر و قوی‏تر از ‪ ANOVA‬اســت‪.‬بنا به‬ ‫تعریف رســمی‪ ،‬متغیر مجازی متغیری اســت که تنها می‏تواند دو مقدار داشته‬ ‫باشد‪ 0 :‬یا ‪ .1‬مثال ‪ 7-1‬نشان می‏دهد که متغیرهای موثر بر قیمت خانه چگونه‬ ‫می‏توانند صفر و یکی باشند‪.‬‬

‫مثال ‪ 7-1‬الف‪ :‬توضیح قیمت خانه‬

‫در فصل ‪ ،6‬با مثالی ســر و کار داشتیم که به عوامل موثر بر قیمت خانه‬ ‫در وینســور کانادا می‏پرداخت‪ .‬در توضیحات فصل ‪ ،6‬همه متغیرهای‬

‫توضیحــی کمی بودند (مثال اندازه خانــه که به فوت مربع بود و تعداد‬ ‫اتاق حمام‏ها)‪ .‬اما عواملی موثر دیگری نیز وجود دارند (مثل وجود راه‬

‫اختصاصی برای خانه‪ ،‬تهویه مطبوع‪ ،‬اتاق سرگرمی‪ ،‬زیرزمین یا سیستم‬ ‫گرمایش مرکزی) که دقیقا کمی نیستند‪.‬‬

‫‪2- Epidemiology‬‬

‫‪1- Analysis of variance‬‬

‫تمام این متغیرها کیفی هستند و با بله‪/‬خیر مشخص می‏شوند (مثال «بله»‬

‫به این‏معناســت که خانه دارای راه اختصاصی است و «خیر» به‏معنای‬ ‫عدم وجود راه اختصاصی برای خانه است)‪.‬‬

‫برای انجام تحلیل رگرســیون روی این متغیرهای توضیحی‪ ،‬ابتدا باید‬ ‫آن‏ها را بــه متغیرهای مجازی تبدیل کنیم‪ ،‬یعنــی ‪ 1‬را به «بله» و ‪ 0‬را‬

‫بــه «خیر» تغییر دهیم‪ .‬از حرف ‪ D‬برای نشــان دادن متغیر‏های مجازی‬ ‫استفاده می‏کنیم‪ ،‬بنابراین می‏توانیم بنویسیم‪:‬‬ ‫•‬

‫‪D1 = 1‬‬

‫اگر خانه دارای راه اختصاصی باشد (و ‪ 0‬اگر نداشته باشد)؛‬

‫•‬

‫‪D3 = 1‬‬

‫اگر خانه دارای زیرزمین باشد (و ‪ 0‬اگر نداشته باشد)؛‬

‫• ‪ D4 = 1‬اگر خانه دارای سیســتم گرمایش مرکزی باشــد (و ‪ 0‬اگر‬ ‫نداشته باشد)؛‬

‫• ‪ D5 = 1‬اگر خانه دارای تهویه مطبوع باشد (و ‪ 0‬اگر نداشته باشد)‪.‬‬

‫مثال اگــر خانه‏ای دارای راه اختصاصی‪ ،‬زیرزمین و سیســتم گرمایش‬

‫مرکزی باشــد اما تهویه مطبوع و اتاق سرگرمی نداشته باشد می‏توانیم‬ ‫مقادیر زیر را به مشــاهدات متغیرهای این خانه نسبت بدهیم‪:‬‬ ‫‪D4 = 1، D3 = 1، D2 = 1،‬‬

‫‪D1 = 1‬‬

‫و‪ . D5 = 1‬این متغیرهــا (و برخی متغیرهای‬

‫دیگر) در فایل ‪ HPRICE.XLS‬وجود دارند‪.‬‬

‫مترین ‪7-1‬‬

‫با استفاده از داده‏های فایل ‪ ،HPRICE.XLS‬آمار توصیفی و ماتریس همبستگی را‬ ‫برای متغیرهای مجازی فهرست‏شده در مثال ‪ 7-1‬محاسبه کنید‪ .‬آیا می‏توانید معنی‬ ‫متغیر مجازی را تفسیر کنید؟‬

‫‪187‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫• ‪ D2 = 1‬اگر خانه دارای اتاق سرگرمی باشد (و ‪ 0‬اگر نداشته باشد)؛‬

‫رگرسیون ساده با استفاده از متغیرهای مجازی‬

‫کارمان را با رگرسیون ساده که در آن یک متغیر توضیحی مجازی یعنی ‪ D‬وجود‬ ‫دارد آغاز می‏کنیم‪:‬‬ ‫‪Y = α + βD + e‬‬ ‫∧‬

‫تحلیل داده‌های اقتصادی‬

‫با اســتفاده از روش حداقل مربعات معمولی یا ‪ ،OLS‬می‏توانیم مقادیر ‪ α‬و‬ ‫∧‬ ‫‪ β‬را برای مدل رگرســیون باال برآورد کنیم‪ .‬همچنین می‏توانیم فاصله اطمینان‬ ‫‪ α‬یا ‪ β‬را محاســبه کنیم‪ ،‬از ‪ P-value‬بــرای آزمون فرضیه معناداری ضرایب‬ ‫استفاده کنیم و الی آخر؛ یعنی دقیقا مثل قبل‪ .‬اگر هر کدام از عبارت‏های جمله‬ ‫قبلی به‏نظرتان آشنا نمی‏آید‪ ،‬باید فصل‏های ‪ 5 ،4‬و ‪ 6‬را دوباره بخوانید‪ .‬اگر همه‬ ‫این‏ها مثل قبل اســت‪ ،‬پس چه چیز جدیدی وجود دارد؟ آن‏چه جدید است‏‪،‬‬ ‫شــیوه تفسیر این ضرایب اســت که در ادامه در موردش بحث می‏کنیم‪ .‬مقدار‬ ‫برازش‏شده ‪ Y‬برای مشاهده ‪i‬ام را می‏توان به‏شکل زیر نوشت‪:‬‬ ‫∧‬

‫‪188‬‬

‫∧‬

‫∧‬

‫‪Y i = α + β Di‬‬

‫∧‬

‫∧‬

‫چون ‪ Di‬یا ‪ 0‬است یا ‪ 1‬پس می‏توانیم بگوییم که یا ‪ Yi = α‬درست است یا‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫‪ . Yi = α + β‬در مثال ‪ 7-2‬نشان خواهیم داد که چگونه می‏توان از این واقعیت‬ ‫برای تفسیر نتایج رگرسیون استفاده کرد‪.‬‬

‫مثال ‪ 7-1‬ب‪ :‬توضیح قیمت خانه‬

‫در جدول ‪ 7-1‬خروجی نرم‏افزار رگرسیون قیمت خانه (‪ )Y‬روی متغیر‬

‫مجازی تهویه مطبوع (‪ )D‬با اســتفاه از داده‏های فایل ‪HPRICE.XLS‬‬

‫آمده است‪.‬‬

‫جدول ‪ .7-1‬رگرسیون قیمت فروش خانه بر متغیر مجازی تهویه مطبوع‬ ‫ضریب‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫جزء ثابت‬

‫‪59884 .85‬‬

‫‪1233 .50‬‬

‫‪48 .55‬‬

‫‪7/10 E -200‬‬

‫‪57461 .84‬‬

‫‪62307 .86‬‬

‫‪D‬‬

‫‪25995 .74‬‬

‫‪2191 .36‬‬

‫‪11 .86‬‬

‫‪4/90 E -29‬‬

‫‪21691 .18‬‬

‫‪30300 .32‬‬

‫آزمون ‪ P-value‬یا فاصله اطمینان نشــان می‏دهنــد که ‪ β‬قویا معنادار‬ ‫اســت‪.‬‬

‫∧‬

‫∧‬

‫همچنین ‪ α =59886‬و ‪β = 25996‬‬

‫اســت‪ .‬تفســیر این اعداد‬

‫چیســت؟ می‏توانیم از مفهوم تاثیر نهایی که در فصل ‪ 4‬دیدیم استفاده‬

‫کنیم‪ .‬یعنی ‪ β‬معیاری اســت برای نشان دادن این‌که ‪ Y‬چقدر گرایش به‬

‫تغییر دارد زمانی‏که ‪ X‬یک واحد تغییر می‏کند‪ .‬اما وقتی متغیر توضیحی‬ ‫ما مجازی باشد‪ ،‬یک واحد تغییر به این معناست که «خانه بدون تهویه‬ ‫مطبوع» به «خانه با تهویه مطبوع» تبدیل شــود‪ .‬یعنی می‏توانیم بگوییم‬ ‫کــه خانه‏های دارای تهویه مطبوع گرایش دارند ‪ 25996‬دالر گران‏تر از‬

‫اما زمانی که متغیر توضیحی رگرسیون‏مان مجازی باشد می‏توان تفسیر‬ ‫ضرایب را به‏شــکلی دیگر نیز انجام داد کــه اندکی متفاوت اما مرتبط‬

‫با تفســیر پاراگراف قبل است‪ .‬در خانه‏های فاقد تهویه مطبوع‬

‫اســت‬

‫و ‪Y i = 59885‬‬ ‫∧‬

‫‪Di = 0‬‬

‫می‏شــود‪ .‬به‏عبارت دیگر مدل رگرسیون نشان‬

‫می‏‏دهــد که خانه‏های فاقد تهویه مطبوع به‏طور متوســط ‪ 59885‬دالر‬

‫قیمت دارند‪ .‬اما در مورد خانه‏های دارای تهویه‬

‫برآورد مدل رگرسیون نشان می‏دهد‬

‫مطبوع‪= 1 ،‬‬

‫که ‪Y i = α+ β = 85881‬‬ ‫∧‬

‫∧‬

‫∧‬

‫‪ D‬است پس‬

‫‪i‬‬

‫دالر است‪.‬‬

‫پس قیمت خانه‏های دارای تهویه مطبوع به‏طور متوســط برابر ‪85881‬‬

‫دالر اســت‪ .‬این روشی مرســوم و پرکاربرد برای گزارش نتایج چنین‬

‫رگرسیون‏هایی است‪.‬‬

‫برای درک بیشتر موضوع‪ ،‬به‏یاد بیاورید که اگر اصال رگرسیونی برآورد‬

‫نمی‏کردیم و فقط متوسط قیمت خانه‏های دارای تهویه مطبوع را اندازه‬ ‫می‏گرفتیم‪ ،‬می‏توانســتیم به عدد ‪ 85881‬دالر برسیم‪ .‬اگر سپس متوسط‬ ‫قیمت خانه‏های فاقد تهویه مطبوع را حســاب می‏کردیم‪ ،‬نتیجه ‪59885‬‬

‫‪189‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫خانه‏های فاقد تهویه مطبوع باشند‪.‬‬

‫دالر می‏شد‪ .‬یعنی می‏توانستیم دقیقا به همان نتایج رگرسیون برسیم‪.‬‬

‫امــا بحث فصل ‪ 6‬در مــورد تورش متغیرهای حذف‏‏شــده را به‌خاطر‬ ‫بیاورید‪ .‬رگرســیون ســاده ما در این مثال تعداد زیادی متغیر توضیحی‬

‫مهم را در نظر نگرفته اســت؛ پس قطعا نمی‏توانیم از نتایج رگرســیون‬ ‫فــوق برای بیان ادعاهایی مثل «افزودن تهویه مطبوع به خانه‪ ،‬قیمت آن‬

‫را ‪ 25996‬دالر افزایش می‏دهد» استفاده کنیم‪ .‬چون قیمت سیستم تهویه‬ ‫مطبوع چند صد دالر بیشــتر نیست (یا در گران‏ترین حالت‪ ،‬چند هزار‬ ‫دالر) و ادعای فوق نادرست و حتی خنده‏دار است‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫رگرسیون چندگانه با متغیرهای مجازی‬

‫‪190‬‬

‫اکنون رگرسیونی را در نظر می‏گیریم که شامل چندین متغیر توضیحی مجازی‬ ‫باشد‪:‬‬ ‫‪Y = α + β1D1 + … + βkDk + e‬‬

‫برآورد ‪ OLS‬این مدل رگرسیون و تحلیل آماری نتایج آن را می‏توان به‏شکل‬ ‫استاندارد انجام داد‪ .‬برای توضیح نتایج چنین رگرسیون‏هایی‪ ،‬بار دیگر به مثال‬ ‫قیمت خانه بازمی‏‏گردیم‪.‬‬

‫مثال ‪ 7-1‬ج‪ :‬توضیح قیمت خانه‬

‫حالتی را در نظر بیاورید که دو متغیر توضیحی مجازی در رگرسیون‏مان‬

‫داریم‪ D1 = 1 ،‬نشان می‏دهد که خانه دارای راه اختصاصی است (‪ 0‬یعنی‬ ‫فاقد آن است) و‪ D2 = 1‬برای زمانی است که خانه مورد نظر دارای اتاق‬

‫سرگرمی باشد (‪ 0‬یعنی ندارد)‪ .‬با وجود این دو متغیر مجازی‪ ،‬می‏توانیم‬

‫خانه‏های موجود در فایل داده‏های‏مان را به چهار گروه زیر تقسیم کنیم‪:‬‬

‫• خانه‏هایــی کــه هــم راه اختصاصی دارنــد و هم اتاق ســرگرمی‬

‫=‪) D1 1‬؛‬ ‫=‬ ‫( ‪. D2 1‬‬

‫• خانه‏هایــی کــه راه اختصاصی دارنــد ولی اتاق ســرگرمی ندارند‬

‫=‬ ‫( ‪. D2 0‬‬ ‫=‪) D1 1‬؛‬

‫• خانه‏هایی که راه اختصاصی ندارند ولی دارای اتاق ســرگرمی هستند‬

‫=‬ ‫( ‪. D2 1‬‬ ‫=‪) D1 0‬؛‬

‫• خانه‏هایــی کــه نــه راه اختصاصــی دارنــد و نه اتاق ســرگرمی‬ ‫با در نظر گرفتن این طبقه‏بندی‪ ،‬به تفســیر جدول ‪ 7-2‬می‏پردازیم که‬

‫شامل نتایج رگرسیون قیمت خانه (‪)Y‬‬

‫است‪.‬‬

‫روی ‪ D1‬و ‪D2‬‬

‫جدول ‪ .7-2‬رگرسیون قیمت خانه روی دو متغیر مجازی‬ ‫انحراف معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حدباال در‬ ‫سطح ‪%95‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫جزء ثابت ‪470099 .08‬‬

‫‪2837 .62‬‬

‫‪16 .60‬‬

‫‪2/42 E -50‬‬

‫‪41525 .02‬‬

‫‪52673 .14‬‬

‫‪D1‬‬

‫‪21159 .91‬‬

‫‪3062 .44‬‬

‫‪6 .91‬‬

‫‪1/37 E -50‬‬

‫‪15144 .22‬‬

‫‪27175 .60‬‬

‫‪D2‬‬

‫‪16023 .69‬‬

‫‪2788 .63‬‬

‫‪5 .75‬‬

‫‪1/52 E -8‬‬

‫‪10545 .86‬‬

‫‪21501 .51‬‬

‫ضریب‬

‫با جای‏گذاری اعداد ‪ 0‬یا ‪ 1‬در متغیرهای مجازی‪ ،‬مقدار برازش‏شــده ‪Y‬‬ ‫∧‬

‫یعنی ‪ Y‬به‏دست می‏آید که در جدول ‪ 7-3‬گزارش شده است‪.‬‬ ‫جدول ‪ .7-3‬قیمت خانه در چهار حالت‬ ‫‪D1‬‬

‫‪D2‬‬

‫‪1‬‬

‫‪1‬‬

‫‪1‬‬

‫‪0‬‬

‫‪0‬‬

‫‪1‬‬

‫‪0‬‬

‫‪0‬‬

‫‪Y‬‬ ‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫‪Y = α + β1 + β2‬‬ ‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫‪Y = α+ β1‬‬ ‫∧‬

‫‪Y = α+ β2‬‬ ‫∧‬

‫∧‬

‫‪Y= α‬‬

‫قیمت‬

‫‪47099+21160+16024=84283‬‬ ‫‪47099+21160=68259‬‬ ‫‪47099+16024=63123‬‬ ‫‪47099‬‬

‫‪191‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫=‪0‬‬ ‫( ‪. D2 0‬‬

‫=)‪.‬‬ ‫‪D1‬‬

‫به‏عبارت دیگر‪ ،‬متوسط قیمت خانه برابر است با‪:‬‬ ‫• با راه اختصاصی و اتاق سرگرمی ‪ 84283‬دالر؛‬

‫• با راه اختصاصی و بدون اتاق سرگرمی ‪ 68259‬دالر؛‬ ‫• بدون راه اختصاصی و با اتاق سرگرمی ‪ 63123‬دالر؛‬ ‫• بدون راه اختصاصی و اتاق سرگرمی ‪ 47099‬دالر‪.‬‬

‫به‏طــور خالصه می‏توان گفت که از رگرســیون چندگانه با متغیرهای‬ ‫مجازی می‏توان برای دســته‏بندی خانه‏ها به گروه‏های مختلف و یافتن‬

‫متوســط قیمت خانه در هر یک از این گروه‏ها استفاده کرد‪ .‬البته نتایج‬ ‫این رگرسیون را به‏طور مستقیم هم می‏توان گزارش کرد‪ ،‬یعنی به‏شکل‬ ‫∧‬

‫برآورد ضرایب رگرسیون‪ .‬مثال ‪ β1‬معیاری است برای نشان دادن اضافه‬ ‫تحلیل داده‌های اقتصادی‬

‫قیمت خانه دارای راه اختصاصی نســبت به خانه فاقد آن‪ ،‬به‏شرطی که‬

‫‪192‬‬

‫سایر ویژگی‏های خانه‏ها یکسان باشند (در این مثال یعنی شرایط وجود‬ ‫یا فقدان اتاق استراحت خانه‏ها یکسان باشد)‪.‬‬

‫مترین ‪7-2‬‬

‫اطالعات آماری مثال ‪ 7-3‬را تفســیر کنید‪ .‬آیا تمــام متغیرهای توضیحی از نظر‬ ‫آماری معنادار هستند؟‬

‫مترین ‪7-3‬‬

‫با اســتفاده از داده‏های قیمــت خانه در فایل ‪ ،HPRICE.XLS‬متغیر وابســته ‪Y‬‬

‫را قیمــت خانه در نظر بگیرید‪ .‬متغیر مجازی ‪ D1 = 1‬اســت اگــر خانه دارای راه‬

‫اختصاصی باشــد و در غیراین‏صورت مســاوی ‪ 0‬اســت و اگر خانه دارای اتاق‬

‫سرگرمی باشد‪ D2 = 1‬است و در غیراین‏صورت مساوی ‪ 0‬است‪.‬‬

‫(الف) بدون اســتفاده از تکنیک رگرسیون‪ ،‬متوسط قیمت چهار گروه مختلف از‬

‫خانه‏ها که در مثال ‪ 7-3‬فهرست شده‏اند را محاسبه کنید‪.‬‬

‫(ب) چگونــه قیمت‏های محاسبه‏شــده در بند الف را می‏تــوان به ضرایب مدل‬ ‫رگرسیون و نتایج مثال ‪ 7-3‬مرتبط کرد؟‬

‫مترین ‪7-4‬‬

‫از داده‏های فایل ‪ HPRICE.XLS‬و پنج متغیر مجازی ‪ D1‬تا ‪( D5‬متغیرهای مجازی که‬

‫تعیین می‏کنند آیا خانه مدنظر دارای راه اختصاصی‪ ،‬اتاق سرگرمی‪ ،‬زیرزمین‪ ،‬سیستم‬

‫گرمایش مرکزی و تهویه مطبوع هست یا خیر) فهرست‏شده در مثال ‪ 7-1‬استفاده کنید‪.‬‬ ‫جای داد؟ (مثال خانه‏های دارای راه اختصاصی‪ ،‬اتاق سرگرمی‪ ،‬زیرزمین و سیستم‬

‫گرمایش مرکزی اما فاقد تهویه مطبوع در یک دسته جای می‏گیرند)‪ .‬این موضوع‬ ‫چگونه بر تفسیر نتایج رگرسیون موثر است؟‬

‫(ب) چگونه می‏توانید تعداد خانه‏های موجود در هر دسته را محاسبه کنید؟ مثال از‬ ‫‪ 546‬خانه موجود در فایل داده‏ها‪ ،‬چند خانه دارای راه اختصاصی‪ ،‬سیستم گرمایش‬

‫مرکزی و تهویه مطبوع اما فاقد اتاق سرگرمی و زیرزمین هستند؟‬ ‫(ج) قیمت خانه (‪ )Y‬را روی پنج متغیر مجازی رگرس کنید‪.‬‬

‫(د) در مورد معناداری آماری ضرایب متغیرهای توضیحی بحث کنید‪.‬‬

‫(ه) متوسط قیمت خانه‏های چند تا از دسته‏بندی‏ها را محاسبه کنید (مثال خانه‏هایی‬

‫که دارای راه اختصاصی‪ ،‬اتاق ســرگرمی و زیرزمین ولی فاقد سیســتم گرمایش‬ ‫مرکزی و تهویه مطبوع هستند)‪.‬‬

‫(و) وجود کدام ویژگی در یک خانه بیشتر از سایر ویژگی‏ها باعث افزایش قیمت‬ ‫خانه می‏شود؟‬

‫‪193‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫(الف) با پنج متغیر مجازی‪ ،‬خانه‏های موجود را در چند دســته‏بندی مجزا می‏توان‬

‫رگرسیون چندگانه با متغیرهای توضیحی مجازی و غیرمجازی‬

‫‪1‬‬

‫در بخــش پیش فرض کردیم که تمام متغیرهای توضیحی ما مجازی هســتند‪.‬‬ ‫اما در عمل موارد زیادی هســت که در یک رگرسیون ترکیبی از انواع مختلف‬ ‫متغیرهای توضیحی وجود دارد‪ .‬ســاده‏ترین حالت رگرسیونی است که در آن‬ ‫یک متغیر مجازی (‪ )D‬و یک متغیر توضیحی کمی (‪ )X‬وجود دارد‪:‬‬ ‫‪Y = α + β1D + β2 X + e‬‬

‫تفسیر نتایج چنین رگرسیونی در مثال ‪ 7-4‬توضیح داده شده است‪.‬‬

‫مثال ‪ 7-1‬د‪ :‬توضیح قیمت خانه‬ ‫تحلیل داده‌های اقتصادی‬

‫اگر قیمــت خانه یعنی ‪ Y‬را روی متغیر مجــازی تهویه مطبوع (‪ )D‬و‬ ‫∧‬

‫اندازه خانه (‪ )X‬رگرس کنیم خواهیم داشت که ‪β1 = 20175 ، α =32693‬‬ ‫∧‬

‫∧‬

‫‪194‬‬

‫و ‪ . β2 = 5 / 638‬قبال اشاره کردیم که متغیر مجازی تنها می‏تواند مقادیر‬ ‫‪ 0‬یا ‪ 1‬را اختیار کند و در نتیجه مقدار برازش‏شــده ‪ Y‬برای هر دســته‬ ‫از خانه‏هــا مقدار متفاوتی خواهد داشــت‪ .‬بنابراین نتایج رگرســیون‬

‫نشان‏‏دهنده قیمت متوسط خانه برای هر کدام از دسته‏ها است‪.‬‬

‫اما در مورد رگرســیون اخیر‪ ،‬تفســیر نتایج اندکی دشــوارتر از پیش‬ ‫است چون اگر ‪ Di = 1‬باشــد (یعنی خانه ‪ i‬اُم تهویه مطبوع داشته باشد)‬ ‫∧‬

‫=اگر ‪ Di = 0‬باشــد (یعنی خانه ‪i‬‬ ‫داریــم که ‪ Yi 52868 + 5 / 638Xi‬و‬

‫اُم تهویه مطبوع نداشــته باشــد) داریم‬

‫∧‬

‫که ‪. Yi 32693 + 5 / 638Xi‬‬ ‫=‬

‫به‏عبارت دیگر با توجه به این‌که خانه دارای تهویه مطبوع هست یا نه‪،‬‬ ‫دو خط رگرســیون متفاوت به‏دســت می‏آید‪ .‬این نکته را با بحث مثال‬

‫‪ 7-2‬مقایســه کنید که در آن تنها یک متغیر توضیحی مجازی داشتیم‪.‬‬

‫‪1- Non-dummy‬‬

‫نتایج رگرســیون آن مثال نشــان داد که متوسط قیمت خانه‏های دارای‬

‫تهویه مطبوع و فاقد آن‪ ،‬متفاوت است‪ .‬اما در این مثال می‏توانیم بگوییم‬ ‫که هر دســته از خانه‏ها‪ ،‬خط رگرسیون کامال متفاوتی دارند‪ .‬به عبارت‬

‫دیگر نمی‏توانیم (آن‏طور که در مثال قبل انجام دادیم) به‏سادگی متوسط‬

‫قیمت دسته‏های مختلف خانه‏ها را تعیین کنیم‪.‬‬

‫∧‬

‫البته اما می‏توانیم ادعا کنیم که به‏شرط ثبات سایر شرایط‪β1 = 20175 ،‬‬

‫مقیاسی برای اندازه‏گیری این موضوع است که تجهیز شدن یک خانه به‬

‫تهویه مطبوع‪ ،‬چقدر به قیمت آن می‏افزاید‪ .‬ب ‏ه عبارت دیگر اگر دو خانه‬ ‫را با هم مقایســه کنیم‪ Y ،‬خانه دارای تهویه مطبوع همیشه ‪ 20175‬دالر‬ ‫∧‬

‫بیشتر‬

‫از ‪Y‬‬ ‫∧‬

‫خانه فاقد تهویه مطبوع است‪.‬‬

‫در ادامه بر تفاوت‏های دو خط رگرســیون موجود برای خانه‏های دارا‬ ‫و فاقد تهویه مطبوع‪ ،‬متمرکز می‏شــویم‪ .‬به یاد داشــته باشــید که خط‬ ‫رگرسیون برای هر دو نوع خانه شیب یکسانی دارد‬

‫∧‬

‫یعنی ‪β2 = 5 / 638‬‬

‫و تفاوت در جزء ثابت اســت یعنی اگر ‪ Di = 1‬باشــد جــزء ثابت برابر‬ ‫‪ 52868‬است و اگر ‪ Di = 0‬باشــد جزء ثابت برابر ‪ 32693‬است‪ .‬چون‬

‫شیب دو خط یکسان است (و شیب نشان‏دهنده تاثیر نهایی است)‪ ،‬تاثیر‬

‫نهایی اندازه خانه بر قیمت خانه در خانه‏های دارای تهویه مطبوع و فاقد‬ ‫آن‪ ،‬یکسان است‪ .‬مثال می‏توانیم بگوییم که «یک فوت مربع افزایش در‬

‫اندازه خانه با ‪ 5/63‬دالر افزایش قیمت آن همراه است»‪.‬‬

‫می‏توانیم بحث قبل را به حالتی تعمیم بدهیم که تعداد زیادی متغیر توضیحی‬ ‫مجازی و غیرمجازی در رگرســیون وجود دارند‪ .‬در مدل رگرســیونی زیر دو‬ ‫متغیر توضیحی مجازی و دو متغیر توضیحی غیرمجازی وجود دارد‪:‬‬

‫‪195‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫که مقدار ‪X‬‏شان برابر اســت (در این مثال یعنی اندازه‏شان برابر است)‬

‫‪Y = α + β1D1 + β2D2 + β3 X1 + β4 X2 + e‬‬

‫برای تفسیر نتایج این مدل رگرســیون از عناصر تمام مثال‏های پیشین این‬ ‫فصل استفاده می‏کنیم‪.‬‬

‫مثال ‪ 7-1‬ه‪ :‬توضیح قیمت خانه‬

‫اگر ‪ Y‬یعنی قیمت خانه را روی متغیرهای مجازی راه اختصاصی ( ‪) D1‬‬

‫و اتاق سرگرمی ( ‪ ) D2‬و متغیرهای غیرمجازی اندازه خانه ( ‪ ) X‬و تعداد‬ ‫‪1‬‬

‫∧‬

‫∧‬

‫اتاق‏خواب‏هــا ( ‪ ) X2‬رگرس کنیــم‪ ،‬مقادیر ‪، β1 =12598 ، α = −2736‬‬ ‫∧‬

‫∧‬

‫= ‪β3 =5 / 197 ، β2‬‬ ‫‪10969‬‬

‫و‬

‫∧‬

‫= ‪β4‬‬ ‫‪10562‬‬

‫را به‏دست می‏آوریم‪ .‬برای‬

‫تحلیل داده‌های اقتصادی‬

‫تفسیر نتایج این مدل رگرسیون باید بفهمیم که به ازای مقادیر مختلف‬

‫متغیرهای مجازی‪ ،‬خط رگرسیون برازش‏شده (یعنی ‪ ) Y‬چگونه است‪.‬‬ ‫∧‬

‫‪196‬‬

‫همان‏طور که از جدول ‪ 7-4‬پیداســت‪ ،‬با دو متغیر مجازی‪ ،‬چهار خط‬ ‫رگرســیون متفاوت خواهیم داشت‪ .‬تمام این خط‏های رگرسیون دارای‬ ‫شیب یکســان و جزء ثابت متفاوتی هستند‪ .‬ضرایب متغیرهای مجازی‬ ‫∧‬

‫یعنی ‪β1‬‬

‫∧‬

‫و ‪ β2‬به‏ترتیب نشــان‏دهنده اضافه قیمت خانــه در اثر افزوده‬

‫شــدن راه اختصاصی و اتاق ســرگرمی به آن است‪ .‬ضرایب متغیرهای‬ ‫∧‬

‫∧‬

‫غیرمجازی یعنی ‪ β3‬و ‪ β4‬را به‏ترتیب می‏توان به‏عنوان تاثیر نهایی اندازه‬ ‫خانه و تعداد اتاق‏خواب‏ها بر قیمت خانه تفسیر کرد‪.‬‬ ‫جدول ‪ .7-4‬قیمت خانه در چهار حالت‬ ‫خط رگرسیون‬ ‫‪20831 + 5.197X1 + 10562X2‬‬

‫‪Y‬‬ ‫∧‬

‫‪D2‬‬ ‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫‪α + β1 + β2 + β3 X1 + β4 X2‬‬ ‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫‪1‬‬

‫‪0‬‬

‫‪1‬‬

‫‪α+ β2 + β3 X1 + β4 X2‬‬

‫‪1‬‬

‫‪0‬‬

‫‪α + β3 X1 + β4 X2‬‬

‫‪0‬‬

‫‪0‬‬

‫‪9862 + 5.197X1 + 10562X2‬‬

‫‪α+ β1 + β3 X1 + β4 X2‬‬

‫‪8233 + 5.197X1 + 10562X2‬‬

‫∧‬

‫‪−2736 + 5.197X1 + 10562X2‬‬

‫‪1‬‬

‫‪D1‬‬

‫∧‬

‫∧‬

‫∧‬

‫عبارت‏های زیر را می‏توان در مورد نتایج رگرسیون اظهار کرد‪:‬‬

‫• خانه‏های دارای راه اختصاصی نسبت به خانه‏های مشابه اما بدون راه‬

‫اختصاصی گرایش دارند به ‪ 12598‬دالر قیمت بیشتر دارند‪.‬‬

‫• اگر خانه‏هایی با تعداد اتاق‏خواب‏های برابر را در نظر بگیریم‪ ،‬آن‏گاه‬ ‫افزایش یک فوت مربع به اندازه خانه گرایش دارد قیمت خانه را ‪5197‬‬ ‫دالر افزایش دهد‪.‬‬

‫• با ثبات سایر شرایط‪ ،‬یک اتاق خواب اضافی گرایش دارد قیمت خانه‬ ‫را ‪ 10562‬دالر افزایش دهد‪.‬‬ ‫که مشکل تورش متغیر حذف‏شــده در رگرسیون وجود نداشته باشد‪.‬‬

‫به‏عالوه باید تاکید کرد که عبارت‏های شــامل علیت (مثل «افزایش یک‬ ‫فوت مربع به اندازه خانه گرایش دارد قیمت خانه را ‪ 5197‬دالر افزایش‬ ‫دهد») تنها زمانی درســت هستند که واقعا متغیر توضیحی علت متغیر‬ ‫وابسته باشد (برای توضیحات بیشتر در مورد علیت در رگرسیون‪ ،‬فصل‬

‫‪ 4‬و ‪ 6‬را بخوانید)‪.‬‬

‫مترین ‪7-5‬‬

‫از داده‏های فایل ‪ HPRICE.XLS‬اســتفاده کنید‪ .‬پنج متغیر مجازی ‪D1‬تا ‪ D5‬که در‬

‫مثال ‪ 7-1‬فهرست شده‏اند و چهار متغیر غیرمجازی زیر را در نظر بگیرید‪:‬‬ ‫•‬

‫‪X1‬‬

‫‪ :‬اندازه خانه (به فوت مربع)‬

‫• ‪ : X‬تعداد اتاق‏خواب‏ها‬ ‫• ‪ : X3‬تعداد حمام‏ها‬ ‫‪2‬‬

‫• ‪ : X‬تعداد طبقات (شامل زیرزمین)‬ ‫(الف) ‪ Y‬را روی ‪ D1.….D5‬و ‪ X1.…. X4‬رگرس کنید‪.‬‬ ‫‪4‬‬

‫‪197‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫البته باید در نظر داشت که تمام عبارت‏های باال به شرطی درست هستند‬

‫(ب) در مورد معناداری ضرایب برآورد‏شده بحث کنید‪.‬‬

‫(ج) کدام‏یک از ویژگی‏های اندازه‏گیری‏شده با متغیرهای مجازی بیشترین تاثیر را‬

‫بر قیمت خانه دارند؟‬

‫(د) ویژگی‏های خانه‏ها در دسته‏های مختلف (مقادیر مختلف برای متغیرهای مجازی)‬ ‫را در نظر بگیرید (مثال یک دسته می‏تواند خانه‏هایی باشند که راه اختصاصی دارند‪ ،‬اتاق‬ ‫سرگرمی ندارند‪ ،‬زیرزمین دارند‪ ،‬سیستم گرمایش مرکزی ندارند و تهویه مطبوع هم‬ ‫ندارند) و فرمول خط رگرسیون را برای آن دسته بنویسید‪.‬‬

‫(ه) با توجه کافی به مفهوم ثبات سایر شرایط‪ ،‬در مورد نتایج مربوط به متغیرهای‬

‫غیرمجازی بحث کنید‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫اثر متقابل متغیرهای مجازی و غیرمجازی‬

‫‪198‬‬

‫در بخش قبل از متغیرهای مجازی به‏شــکلی استفاده کردیم که بتوانیم مفاهیم‬ ‫مختلف خط رگرســیون را بیان کنیم ولی در همه موارد شــیب خط رگرسیون‬ ‫ثابت بــود‪ .‬اما با در نظر گرفتن تاثیر متقابــل متغیرهای مجازی و غیرمجازی‪،‬‬ ‫می‏توانیم به شیب خط رگرسیون نیز اجازه تغییر بدهیم‪ .‬برای درک این موضوع‪،‬‬ ‫مدل رگرسیون زیر را در نظر بگیرید‪:‬‬ ‫‪Y = α + β1D + β2 X + β3 Z + e‬‬

‫مانند بخش قبل‪ D ،‬و ‪ X‬به‏ترتیب متغیرهای مجازی و غیرمجازی هســتند‪.‬‬ ‫اما متغیر جدید ‪ Z‬را به رگرســیون اضافه کرده‏ایم که تعریف آن عبارت اســت‬ ‫از‪.Z=DX :‬‬ ‫نتایج رگرســیون ‪ Y‬بر ‪ D، X‬و ‪ Z‬را چگونه تفسیر کنیم؟ برای پاسخ به این‬ ‫پرســش باید دقت کنیم که ‪ Z‬یا مساوی ‪ 0‬است (برای مشاهداتی که در آن‏ها‬ ‫‪ D=0‬اســت) یا مساوی ‪( X‬برای مشــاهداتی که در آن‏ها ‪ D=1‬است)‪ .‬با لحاظ‬ ‫کردن این نکته‪ ،‬خط رگرسیون برازش‏شده به‏شکل زیر خواهد بود‪:‬‬ ‫• اگر ‪ D=1‬باشد آن‏گاه ‪. Y =  α+ β1  +  β2 + β3  X‬‬ ‫∧‬

‫‪‬‬

‫∧‬

‫∧‬

‫‪ ‬‬

‫∧‬

‫∧‬

‫‪‬‬

‫∧‬

‫∧‬

‫∧‬

‫• اگر ‪ D=0‬باشد آن‏گاه ‪. Y= α + β2 X‬‬ ‫ب ‏ه عبارت دیگر دو خط رگرسیون متناظر با ‪ D=0‬و ‪ D=1‬دارای جزء ثابت و‬ ‫شیب‏های متفاوتی هستند‪ .‬یک نتیجه این موضوع این است که تاثیر نهایی ‪ X‬بر‬ ‫‪ Y‬به ازای ‪ D=0‬و ‪ D=1‬متفاوت خواهد بود‪ .‬با اســتفاده از واژگان و تفسیرهای‬ ‫ارائه‏شده در فصل‏های ‪ 4‬و ‪ 6‬می‏توانید در گزارش‏ها یا مقاالت خود‪ ،‬هر یک از‬ ‫خطوط رگرسیون را جداگانه بنویسید‪.‬‬

‫مثال ‪ 7-1‬و‪ :‬توضیح قیمت خانه‬

‫اگر قیمت خانه (‪ )Y‬را روی سه متغیر توضیحی‪ :‬متغیر مجازی تهویه مطبوع‬ ‫∧‬

‫‪α =35684‬‬

‫∧‬

‫∧‬

‫∧‬

‫‪ β2 = 5 / 02 ، β1 = 7613 ،‬و ‪ . β3 = 2 / 25‬ایــن نتایج دال بر‬

‫این اســت که در خانه‏های دارای تهویه مطبوع تاثیر نهایی اندازه خانه بر‬

‫قیمت آن ‪ 7/27‬دالر است (یعنی افزایش اندازه خانه به اندازه یک فوت مربع‬

‫با افزایش قیمت آن به اندازه ‪ 7/27‬دالر همراه اســت) و در خانه‏های فاقد‬ ‫تهویه مطبوع فقط‪ ،‬این تاثیر نهایی فقط برابر ‪ 5/02‬دالر است‪ .‬عالوه بر این‪،‬‬ ‫∧‬

‫‪ P-value‬متناظر با ‪ β3‬برابر ‪ 0/02‬است‪ ،‬یعنی این تفاوت در تاثیر نهایی از‬ ‫نظر آماری معنادار است‪ .‬این نتایج دال بر این است که اگر خانه دارای تهویه‬

‫مطبوع باشد (در مقایسه با خانه‏های فاقد آن) افزایش در اندازه خانه گرایش‬ ‫دارد تا قیمت خانه را بیشتر افزایش دهد‪.‬‬

‫مترین ‪7-6‬‬

‫از داده‏های فایل ‪ HPRICE.XLS‬استفاده کنید‪ .‬پنج متغیر مجازی ‪ D1‬تا ‪ D5‬و چهار‬

‫متغیر غیرمجازی ‪ X1‬تا ‪X4‬‬

‫که در مثال ‪ 7-1‬فهرست شده‏اند را در نظر بگیرید‪:‬‬

‫(الف) با این متغیرهای توضیحی و افزودن چند متغیر نشان‏دهنده اثر متقابل (متغیر‬

‫‪199‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫(‪ ،)D‬اندازه خانه (‪ )X‬و ‪ Z=DX‬رگرس کنیم نتایج عبارت خواهند بود از‪:‬‬

‫تعاملی‪ ،)1‬رگرسیون‏هایی را در حالت‏های گوناگون برآورد کنید (مثال رگرسیونی‬

‫بــا ‪ 10‬متغیر توضیحی یعنــی ‪ D1‬تا‬ ‫مثل ‪.) Z = D1X1‬‬

‫‪ X1 ، D5‬تا ‪X4‬‬

‫به اضافه یــک متغیر تعاملی‬

‫(ب) آیــا می‏توانیــد متغیر تعاملی پیدا کنید که از نظر آماری معنادار باشــد؟ طی‬

‫جمالتی یافته خود را توضیح دهید‪.‬‬

‫مترین ‪7-7‬‬

‫فایل ‪ WAGEDISC.XLS‬شــامل داده‏های ‪ N=100‬شــاغل در یکی از مشاغل‬

‫اســت‪ .‬فرض کنید می‏خواهیم عوامل موثر بر ایجاد تفاوت بین دستمزدها را با در‬

‫نظر گرفتن مشــکل تبعیض جنسیتی در این شغل توضیح دهیم‪ .‬متغیرهای زیر در‬ ‫این فایل وجود دارند‪:‬‬

‫تحلیل داده‌های اقتصادی‬

‫• ‪ :Y‬دستمزد (بر حسب هزار دالر)‬ ‫‪200‬‬

‫• ‪ : X1‬سطح تحصیالت (بر حسب تعداد سال‏های تحصیل)‬ ‫• ‪ : X2‬تجربه کاری (بر حسب تعداد سال‏های اشتعال)‬ ‫• ‪ :D‬جنسیت (‪ 1‬برای مردان و ‪ 0‬برای زنان)‬

‫(الف) آمار توصیفی داده‏های این فایل را محاسبه و در مورد آن‏ها بحث کنید‪ .‬مثال‬ ‫متوسط دستمزد چقدر است؟‬

‫(ب) متوسط دستمزد شاغلین مونث و مذکر را به‏طور مجزا حساب کنید‪ .‬آن‏ها را‬

‫مقایسه کنید‪.‬‬

‫(ج) رگرسیون ساده‏ای از ‪ Y‬روی ‪ D‬برآورد کنید‪ .‬آیا شیب خط رگرسیون از نظر‬ ‫آماری معنادار است؟ نتایج رگرسیون خودتان را با یافته‏های بند (ب) مقایسه کنید‪.‬‬

‫آیا می‏توانید از این یافته‏ها نتیجه بگیرید که در این شغل علیه زنان تبعیض جنسیتی‬ ‫وجود دارد؟‬

‫(د) رگرســیون چندگانه‏ای از ‪ Y‬بر ‪ X2 ، X1‬و ‪ D‬ران کنید‪ .‬گزارش مختصری در‬

‫‪1- Interaction term‬‬

‫مورد یافته‏های این رگرسیون بنویسید که در آن بر وجود مشکل تبعیض جنسیتی‬ ‫در این شغل تاکید شده باشد‪ .‬آیا نتایج از نظر آماری معنادار هستند؟‬

‫(ه) نتایــج بند (د) را با بند (ج) مقایســه کنید‪ .‬چرا با هــم فرق دارند؟ راهنمایی‪:‬‬

‫ماتریس همبستگی برای تمام متغیرهای توضیحی را حساب کنید و در مورد معنای‬

‫همبستگی فکر کنید‪.‬‬

‫‪ Z‬رگرس‬ ‫(و) متغیر جدید ‪ Z = DX2‬را بســازید؛ سپس ‪ Y‬را روی ‪ D ، X2 ، X1‬و ‏‬ ‫کنید‪ .‬آیا ضریب ‪ Z‬معنادار اســت؟ گزارشــی که در بند (د) نوشتید چگونه تغییر‬ ‫می‏کند؟ توضیح دهید که ضریب متغیر ‪ Z‬چه چیزی را اندازه می‏گیرد‪.‬‬

‫‪ -1‬متغیرهــای مجازی می‏توانند دو مقدار ‪ 0‬یــا ‪ 1‬را اختیار کنند‪ .‬این متغیرها‬ ‫اغلب اوقات برای داده‏های کیفی استفاده می‏شوند‪.‬‬ ‫‪ -2‬تکنیک‏های آماری اســتفاده از متغیرهای توضیحی مجازی دقیقا مشابه‬ ‫تکنیک‏هایی است که برای متغیرهای توضیحی غیرمجازی استفاده می‏شود‪.‬‬ ‫‪ -3‬رگرســیونی که شــامل فقط یک متغیر توضیحی مجازی باشد‪ ،‬به‏طور‬ ‫ضمنی مشاهدات را به دو دسته متمایز تقسیم می‏کند (مثل خانه‏های داری تهویه‬ ‫مطبوع و فاقد آن)‪ .‬در نظر گرفتن و دقت به این دســته‏بندی‏ها به تفسیر نتایج‬ ‫چنین رگرسیون‏هایی کمک می‏کند‪.‬‬ ‫‪ -4‬رگرسیون شــامل متغیر توضیحی مجازی و غیرمجازی‪ ،‬به‏طور ضمنی‬ ‫مشاهدات را به چند دسته متمایز تقسیم می‏کند و دال بر این است که هر دسته‪،‬‬ ‫یک خط رگرســیون مختص خود با جزء ثابت متفاوت دارد‪ .‬تمام این خطوط‬ ‫رگرسیون شیب یکسانی دارند‪.‬‬ ‫‪ -5‬رگرســیون شــامل متغیر توضیحی مجازی‪ ،‬غیرمجازی و متغیر تعاملی‬ ‫(متغیر مجازی ضــرب در غیر مجازی)‪ ،‬به‏طور ضمنی مشــاهدات را به چند‬ ‫دسته متمایز تقسیم می‏کند و دال بر این است که هر دسته‪ ،‬یک خط رگرسیون‬ ‫مختص خود با جزء ثابت و شیب متفاوت دارد‪.‬‬

‫‪201‬‬

‫فصل ‪ :7‬رگرسیون با متغیرهای مجازی‬

‫خالصه فصل‬

‫فصل ‪8‬‬ ‫الگوهای انتخاب کیفی‬

‫‪203‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫در فصل ‪ ،7‬به متغیرهای توضیحــی مجازی پرداختیم‪ .‬این فصل حالتی را‬ ‫مورد بررســی قرار می‏دهیم که متغیر وابســته‪ ،‬مجازی باشد‪ .‬این حالت اغلب‬ ‫وقتــی رخ می‏دهد که پای یک انتخاب در میان باشــد به‌همین دلیل از عبارت‬ ‫«الگوی انتخاب کیفی» استفاده می‏شود‪ .‬برای مثال‪ ،‬پژوهشگری می‏خواهد این‬ ‫موضوع را مورد بررسی قرار دهد که چرا برخی از مردم برای رفتن به سر کار از‬ ‫خودرو شخصی استفاده می‏کنند و برخی دیگر از وسائل نقلیه عمومی‪ .‬داده‏هایی‬ ‫که در اختیار این پژوهشــگر قرار دارد بر مبنای نظرسنجی صورت‏گرفته از این‬ ‫افراد‪ ،‬ایجاد شــده است‪ .‬از آن‌ها سواالت خاصی شامل برخی ویژگی‏ها (برای‬ ‫مثال فاصله خانه تا محل کار آن‌ها‪ ،‬میزان درآمد و نظایر اینها) پرسیده می‏شود‪.‬‬ ‫اگر پژوهشــگر سعی کند تا یک الگوی رگرسیونی بسازد‪ ،‬متغیرهای توضیحی‬ ‫شامل همین ویژگی‏های پرسش‏شده خواهد بود‪ .‬اما متغیر وابسته این رگرسیون‪،‬‬ ‫یک متغیر مجازی است (مقدار ‪ 1‬برای کسانی که با خودرو شخصی به سر کار‬ ‫می‏روند و مقدار ‪ 0‬برای کسانی که با وسائل نقلیه عمومی به سر کار می‏روند)‪.‬‬ ‫به شــکل مشابه می‏توان مثال‏های اقتصادی دیگر یافت (برای مثال انتخاب یک‬ ‫محصول در فروشگاه‪ ،‬انتخاب یک شغل)‪.‬‬ ‫روش‏های معمول رگرسیونی که در فصل‏های قبل به آن‌ها اشاره شده بود‬

‫تحلیل داده‌های اقتصادی‬

‫‪204‬‬

‫برای وضعیتی که متغیر وابســته مجازی باشد‪ ،‬مناسب نیست‪ .‬در این فصل به‬ ‫الگوهای لوجیت و پروبیت می‏پردازیم‪ .‬این دو از جمله معروف‏ترین الگوهایی‬ ‫هســتند که در آن‌ها متغیر وابســته مجازی اســت‪ .‬این الگوها زمانی استفاده‬ ‫می‏شوند که قرار است بین دو چیز انتخابی صورت گیرد (برای مثال افراد بین‬ ‫خودرو شــخصی و وســائل نقلیه عمومی در معرض انتخاب قرار می‏گیرند)‪.‬‬ ‫حالت‏هایی هم وجود دارد که افــراد در معرض انتخاب بین چند حالت قرار‬ ‫می‏گیرند (برای مثال افراد می‏توانند با خودرو شــخصی‪ ،‬وسایل نقلیه عمومی‬ ‫و دوچرخه به ســر کار بروند)‪ .‬در چنیــن حالت‏های تعمیم الگوی لوجیت و‬ ‫پروبیت امکان‏پذیر خواهد بود‪ .‬الگوهای لوجیت و پروبیت‪ ،‬الگوی رگرسیونی‬ ‫به‌شمار نمی‏آیند اما شباهت‏های بسیاری به آن دارند‪ .‬شاید الزم به تاکید باشد‬ ‫که با وجود این‌که واژگان جدیدی در این فصل مطرح می‏شود که شاید برای‬ ‫شــما آشنا نباشــد‪ ،‬اما مفاهیم زیربنایی که در فصول قبل فراگرفته‏ایم همچنان‬ ‫برقرار اســت‪ .‬به این ترتیب که مــا به دنبال یک رابطه بین متغیر وابســته و‬ ‫متغیرهای توضیحی هســتیم به‏نحوی که اثر متغیر توضیحی را بر متغیر وابسته‬ ‫را تشخیص دهیم‪.‬‬

‫مثال ‪ 8-1‬انتخاب‏كردن‬

‫براي توضيــح الگوهاي لوجيت و پروبيت‪ ،‬داده‏هاي يك مقاله معروف‬

‫كه توسط فير(‪ )Fair-1987‬نوشته شده است را انتخاب نموديم‪ .‬مقاله‬

‫بر مبناي يك نظرسنجي كه توسط مجله‏اي محبوب در باب عوامل موثر‬ ‫بر انتخاب روابط عاطفي غير از ازدواج‪ ،‬شكل گرفته است‪ .‬داده‏ها شامل‬ ‫‪ N=601‬مشاهده مي‏شود كه داده‏هاي زير در آن گنجانده شده است‪:‬‬

‫رابطه (‪ :)AFFAIR‬اگر شــخصي داراي اين نوع رابطه بوده است مقدار‬ ‫‪ 1‬و در غيراين‏صورت مقدار صفر‪.‬‬

‫مذكر (‪ :)MALE‬افراد مذكر مقدار ‪ 1‬و افراد مونث مقدار صفر‪.‬‬

‫ســال‏هاي ازدواج (‪ :)YEARS‬تعداد ســال‏هايي كه شخص ازدواج‬

‫نموده است‪.‬‬

‫فرزندان (‪ :)KIDS‬مقدار ‪ 1‬براي كساني كه پس از ازدواج دارای فرزند‬

‫هستند و در غيراين‏صورت صفر‪.‬‬

‫مذهب (‪ :)RELIG‬اگر فردی مذهبی باشد مقدار ‪ 1‬و در غيراين‏صورت‬ ‫مقدار صفر‪.‬‬

‫تحصیالت (‪ :)EDUC‬تعداد سال‏هاي تحصیل فرد‬

‫شادي (‪ :)HAPPY‬مقدار ‪ 1‬اگر فردي احساس كند كه زندگي زناشويي‬ ‫اولين متغير‪ ،‬متغير وابســته و مجازي تحقيق اســت‪ .‬ســاير متغيرها‬

‫توضيحي هستند‪.‬‬

‫الگوی انتخاب در دانش اقتصاد‬

‫پیش از ورود ب ‏ه جزئیات الگوی لوجیت و پروبیت‪ ،‬الزم است اندکی به جایگاه این‬ ‫الگوها در علم اقتصاد بپردازیم‪ .‬این موضوع به تفسیر نتایج الگو کمک می‏کند‪.‬‬ ‫الگوهــای لوجیت و پروبیت در حالت‏هایی کاربرد دارند که یک شــخص‬ ‫انتخابــی را انجام می‏دهد‪ .‬فرض کنید شــخصی ناچار اســت بین دو حالت‬ ‫صفــر و یک انتخاب کند‪ .‬اقتصاددان این انتخــاب را با تصریح تابع مطلوبیت‬ ‫شــخص پردازش می‏کند و می‏گویــد که او انتخابی را انجــام خواهد داد که‬ ‫بیشــترین مطلوبیت را به همراه داشته باشد‪ .‬فرض کنید ‪ Ui0‬مطلوبیت شخص‬ ‫‪ (i=1,….,N)i‬در انتخــاب تصمیم صفر و ‪ Ui1‬مطلوبیت در انتخاب تصمیم ‪1‬‬ ‫باشد‪ .‬فرد وقتی تصمیم ‪ 1‬را می‏گیرد که ‪ Ui0 < Ui1‬و وقتی تصمیم ‪ 0‬را می‏گیرد‬ ‫که ‪ . Ui0 > Ui1‬از آن‌جاکه عبارت ‪ Ui1 > Ui0‬به معنی ‪ Ui1 − Ui0 > 0‬است‪ ،‬آن‌گاه‬

‫‪205‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫او شادتر از متوسط جامعه است‪ ،‬در غيراين‏صورت صفر‪.‬‬

‫انتخاب می‏تواند بر اساس تفاضل مطلوبیت‏ها صورت پذیرد که ما این تفاضل‬ ‫= ‪ Ui1 − Ui0‬نشان می‏دهیم‪.‬‬ ‫را به صورت ‪Y‬‬ ‫در مثال ابتدای فصل‪ ،‬به‏صورت ساده می‏توان گفت که انتخاب فرد به این‬ ‫موضوع ربط دارد که مطلوبیت خودروی شخصی بیشتر باشد یا نقلیه عمومی‪.‬‬ ‫آن‌گاه اقتصاددان حمل‏ونقل خواهد گفت که متغیر وابســته (‪ )Y‬به ویژگی‏های‬ ‫هر فرد (مانند حقوق یا مدت زمان رسیدن از خانه به محل کار و نظایر این‌ها)‬ ‫ج هم‪ ،‬رگرسیون چندگانه زیر به کار می‏آید‪:‬‬ ‫مرتبط است‪ .‬به نظر یک اقتصادسن ‏‬ ‫‪Y = α + β1X1 + … + βk Xk + e‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪206‬‬

‫که در آن ‪ X1 … Xk‬متغیرهای توضیحی به‌شــمار می‏آیند که ممکن است‬ ‫بــر مطلوبیت افراد اثرگذار باشــند‪ .‬از این رو‪ ،‬بهین ‏ه شــدن مطلوبیت در یک‬ ‫نظریه اقتصادی ما را به ســمت الگوی رگرســیونی هدایت می‏نماید‪ .‬مشکل‬ ‫این‌جاســت که متغیر وابسته در الگوی رگرسیونی‪ ،‬تفاضل دو مطلوبیت است‬ ‫که این مطلوبیت‏ها ناشی از دو نوع انتخاب است‪ .‬این موضوع‪ ،‬تفسیر ضرایب‬ ‫را نیز دشــوار می‏سازد‪ .‬در فصل قبل تاکید داشتیم که ضرایب ‪ β1 …βk‬می‏باید‬ ‫به‌عنوان اثر نهایی تفسیر شــوند‪ .‬یعنی هر ضریب اثر هر واحد تغییر در متغیر‬ ‫توضیحی بر متغیر وابسته را اندازه‏گیری می‏نماید (با فرض ثبات سایر شرایط)‪.‬‬ ‫در الگوی انتخاب کیفی‪ ،‬تفسیر اثر نهایی برای ضرایب چندان به کار نمی‏آید‪.‬‬ ‫در مقام قیاس اگر بخواهیم ضرایب الگوی انتخاب کیفی را به همان شــکل‬ ‫تفســیر کنیم باید بگوییم ‪« :‬یک سال تحصیل بیشــتر موجب افزایش ‪ 0/01‬بر‬ ‫اختالف مطلوبیت بین داشتن و نداشتن رابطه می‏گردد‪ ،‬البته با فرض ثبات سایر‬ ‫متغیرها‪ ».‬از آن‌جاکه مطلوبیت چیزی نیســت که ما به‏صورت مستقیم مشاهده‬ ‫نماییم و اندازه‏گیری کمی آن هم مقدور نیســت‪ ،‬این نوع تفسیر چندان کارآمد‬ ‫به نظر نمی‏رســد‪ .‬عالمت ضریب اطالعاتی به ما می‏دهد‪ .‬برای مثال‪ ،‬از آن‌جاکه‬ ‫‪ 0/01‬عددی مثبت است‪ ،‬یک ســال تحصیل اضافی موجب افزایش مطلوبیت‬ ‫در انتخاب ‪ 1‬نســبت به صفر می‏گردد‪ .‬در این حال ما هیچ چیز خاصی پیرامون‬ ‫بزرگی این ضریب نمی‏توانیم بگوییم‪ .‬برای مثال آیا یک سال تحصیل بیشتر اثر‬

‫خیلی زیادی بر ایجاد رابطه دارد یا این‌که تنها اثر اندکی بر جای می‏گذارد؟ چنین‬ ‫به‌صورت مستقیم با دیدن ضرایب الگوی انتخاب کیفی‪ ،‬قابل پاسخ‌گویی نیست‪.‬‬

‫احتامالت در انتخاب و الگوهای لوجیت و پروبیت‬

‫=‬ ‫‪Di 1 if Yi > 0‬‬ ‫=‬ ‫‪Di 0 if Yi ≤ 0‬‬

‫این معادالت چیزی را نشــان می‏دهند که پیش‏تــر از این گفته بودیم‪ :‬یک‬ ‫فرد در صورتی انتخاب ‪ 1‬را انجام می‏دهد که مطلوبیت مرتبط با آن بیشــتر از‬ ‫مطلوبیت انتخاب صفر باشد‪.‬‬ ‫حــال‪ ،‬چگونه می‏توانیم یک روش اقتصادســنجی برای بــرآورد ضرایب‬ ‫رگرســیونی فوق و تفســیر آن‌ها ارائه دهیم‪ .‬برای هر دو منظور الزم است به‬ ‫این موضوع فکر کنیم که احتماالت برســازنده یک انتخاب است‪ .‬فرض کنید‬ ‫)‪ Pr (Di = 1‬احتمال انتخاب گزینه ‪ 1‬توسط فرد ‪ i‬است‪ .‬احتمال انتخاب گزینه‬

‫‪207‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫مفاهیمی که در بخش قبل توضیح داده شــد ما را به ساخت الگوی لوجیت و‬ ‫پروبیــت هدایت می‏کند‪ .‬به یاد دارید که این فصــل را با گفتن این نکته آغاز‬ ‫نمودیم که هدف ما بررســی حالتی است که در آن متغیر وابسته مجازی است‪.‬‬ ‫سپس در مورد بیشینه کردن تابع مطلوبیت در علم اقتصاد و کاربرد رگرسیونی‬ ‫تفاضل تابع مطلوبیــت مباحثی را مطرح نمودیم‪ .‬حال چگونه باید دو موضوع‬ ‫فوق را به یکدیگر پیوند بدهیم؟‬ ‫برای پاســخ به این پرسش‪ ،‬فرض کنید که ‪ Yi‬تابع مطلوبیت متفاوت برای‬ ‫افراد مختلف (‪ )i‬اســت که بین انتخاب ‪ 1‬یا صفــر مانده‏اند‪ .‬این موضوع قابل‬ ‫مشاهده نیست‪ .‬حاال چگونه می‏توانیم انتخاب فرد ‪ i‬را به‏صورت واقعی مشاهده‬ ‫کنیم!؟ فرض کنید ‪ Di = 1‬اســت اگر انتخاب برابر با ‪ 1‬باشــد (برای مثال فرد ‪i‬‬ ‫برقراری یک رابطه را انتخاب کند) و ‪ Di = 0‬اســت اگر صفر انتخاب شــود‪.‬‬ ‫رابطه بین ‪ Y‬و ‪ D‬به‏طور خالصه در معادالت زیر منعکس شده است‪:‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪208‬‬

‫صفر برای هر فرد برابر اســت با یک منهای احتمــال انتخاب گزینه ‪ .1‬آن‌چه‬ ‫کــه الگوهای انتخاب کیفی انجام می‏دهند این اســت که احتمال یک انتخاب‬ ‫مشــخص را محاســبه نموده و به‌عنوان متغیر وابســته‪ ،Y ،‬آن را در الگو وارد‬ ‫می‏نمایند‪ .‬از آن‌جاکه چنین محاسبه‏ای با ریاضیات احتماالت انجام می‏شود‪ ،‬آن‬ ‫را به پیوســت ‪ 8-1‬انتقال دادیم‪ .‬حاال خالصه‏ای از نحوه انجام این کار را برای‬ ‫درک شهودی شما وارد می‏کنیم‪.‬‬ ‫دو الگــوی انتخاب کیفی اصلــی پروبیت و لوجیت نامیده می‏شــود‪ .‬در‬ ‫رگرســیونی که متغیر وابسته آن ‪ Y‬اســت‪ ،‬این دو الگو فروض مختلفی را در‬ ‫مورد جمله خطــا اعمال می‏کنند‪ .‬به‌همین دلیل آن‌هــا از فرمول‏های مختلفی‬ ‫بــرای احتماالت انتخاب بهره می‏برند‪ .‬نحوه برآورد الگوی لوجیت و پروبیت‬ ‫برگرفته از مفاهیم اقتصادســنجی خاصی اســت که فراتر از سطح این کتاب‬ ‫می‏باشــد‪ .‬با این حال‪ ،‬بســته‏های نرم‏افزاری به‏صورت خودکار این الگوها را‬ ‫برای شما برآورد می‏کنند‪ .‬با توجه به درکی که از این مطالب به‏دست خواهید‬ ‫آورد‪ ،‬قادر خواهید شد که با الگوهای لوجیت و پروبیت کار کرده و نتایج آن‬ ‫را تفسیر کنیم‪.‬‬

‫فرایند برآورد‬

‫برای درک فرایند برآورد الگوها این مطالب را دنبال کنید‪ .‬فرمول مورد استفاده برای‬ ‫احتماالت انتخاب با روش لوجیت و پروبیت به ضرایب وابسته است‪ .‬مقادیر لوجیت‬ ‫و پروبیت برای ‪ β1 …βk‬به‏گونه‏ای انتخاب می‏شود که احتماالت انتخاب تا جایی که‬ ‫ممکن است به مقادیر واقعی انتخاب نزدیک باشد‪ .‬برای مثال‪ ،‬فرض کنید که تنها‬ ‫یک متغیر توضیحی وجود دارد که ضریب آن ‪ β‬است و‪ Di = 1‬است که یعنی فرد ‪i‬‬ ‫گزینه ‪ 1‬را انتخاب نموده است‪ .‬یعنی اگر در الگوی پروبیت ‪ β = −20‬باشد‪ ،‬آن‌گاه‬ ‫=‪Pr (D=i 1‬‬ ‫‪ Pr (D=i 1=) 0.20‬خواهد شــد و اگر ‪ β =20‬باشد‪) 0.90 ،‬‬ ‫می‏گردد‪ .‬بر اساس الگوی پروبیت‪ β =20 ،‬گزینش بسیار بهتری برای ضریب است‪.‬‬ ‫فــرد ‪ i‬در واقع گزینه ‪ 1‬را انتخاب نموده اســت بنابراین اگر انتخاب ضریب الگو‬

‫‪209‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫به‏گونه‏ای باشد که شانس ‪ 90‬درصدی در انتخاب گزینه ‪ 1‬را به فرد بدهد بسیار بهتر‬ ‫از این است که احتمال ‪ 20‬درصدی را به این انتخاب پیوند بزند‪ .‬به‌همین دلیل است‬ ‫که در الگوی پروبیت ضریب ‪ β =20‬گزینش می‏شود‪ .‬الگوی پروبیت همین رویه‬ ‫را برای همه ضرایب انجام می‏دهد‪ .‬یعنی در همه ضرایب‪ ،‬نزدیک‏ترین مقدار احتمال‬ ‫به مقدار واقعی گزیده می‏شود‪ .‬اقدام مشابهی در الگوی لوجیت نیز انجام می‏شود‪.‬‬ ‫در رگرسیون‏های معمولی‪ ،‬نیکویی برازش با ‪ R2‬محاسبه می‏شود‪ .‬در الگوهای‬ ‫لوجیت و پروبیت‪ ،‬هیچ معیار ساده‏ای برای نیکویی برازش وجود ندارد و معیارهایی‬ ‫که مانند ‪ R2‬که به‏سادگی تفسیر می‏شوند در این الگوها به کار نمی‏آیند‪ .‬اما معیارهای‬ ‫دیگری برای این الگو وجود دارند که آن‌ها را شبه‪ R2 -‬می‏نامند و کارکرد تا حدودی‬ ‫مشــابه دارند‪ .‬ما در این‌جا قصد توضیح این معیارها را نداریم ولی بدانید که همه‬ ‫بسته‏های نرم‏افزاری که قادر به برآورد الگوی لوجیت و پروبیت هستند‪ ،‬می‏توانند این‬ ‫معیارها را محاسبه کنند‪ .‬اگر در نحوه تفسیر معیارهای نیکویی برازش ویژه لوجیت‬ ‫و پروبیت به روش مشــابه رگرسیون‏های معمولی عمل کنیم‪ ،‬راه خیلی غلطی را‬ ‫انتخاب نکرده‏ایم‪ .‬یعنی هرقدر این معیارها به ‪ 1‬نزدیک‏تر باشــند نشان می‏دهد که‬ ‫برازش بهتری انجام شده است و هرقدر به صفر نزدیک‏تر باشند نشان می‏دهد که‬ ‫برازش چندان مناسب نبوده است‪.‬‬ ‫بسته‏های نرم‏افزاری احتماالت انتخاب را برای همه مشاهدات محاسبه می‏کنند‪.‬‬ ‫این کار می‏تواند تا حدودی نحوه برازش الگوی لوجیت و پروبیت را روشن کند‪ .‬اگر‬ ‫هر یک از این الگوها )‪ Pr (Di = 1‬را باال برآورد کند‪ ،‬نشان می‏دهد که فرد ‪ i‬تمایل‬ ‫زیادی دارد که گزینه ‪ 1‬را انتخاب کند‪ .‬به‏طور کلی اگر ‪ Pr (D=i 1) > 0 / 5‬باشد‪،‬‬ ‫آن‌گاه الگو این انتظار را ایجاد می‏کند که‪ Di = 1‬است و اگر ‪Pr (D=i 1) ≤ 0 / 5‬‬ ‫باشــد‪ ،‬آن‌گاه بر اساس الگو انتظار داریم که ‪ Di = 0‬اســت‪ .‬اگر پیش‏بینی الگو با‬ ‫واقعیت انتخاب‏های فرد ‪ i‬هم‏خوانی داشته باشد‪ ،‬آن‌گاه برازش به‏خوبی انجام شده‬ ‫است‪ .‬اغلب بسته‏های نرم‏افزاری به‏صورت خودکار تعداد پیش‏بینی‏های درست را‬ ‫مشــخص می‏کنند و این نشان می‏دهد که الگوی پروبیت و لوجیت چقدر خوب‪،‬‬ ‫مشاهدات را برازش نموده‏اند‪.‬‬

‫آزمون فرضیه‬

‫تحلیل داده‌های اقتصادی‬

‫‪210‬‬

‫در رگرســیون‏های معمولی در مورد آزمون‏های فرضیه توضیحاتی داشــتیم‪.‬‬ ‫به‏طور ویژه برای آزمون این‌که ضرایب رگرســیون برابر با ‪ 1‬هســتند یا نه از‬ ‫آماره ‪ t‬استفاده می‏شده اســت‪ .‬به‌خاطر دارید که ضرایب وقتی معنی‏دار تلقی‬ ‫می‏شده‏اند که ‪ P-value‬کمتر از ســطح خطای انتخابی (معموال ‪ )0/05‬باشد‪.‬‬ ‫همه بسته‏های نرم‏افزاری که الگوی لوجیت و پروبیت را برآورد می‏کنند‪ ،‬مقدار‬ ‫‪ P-value‬را برای آزمون برابری با صفــر ارائه می‏دهند‪ .‬بنابراین راه همواری‬ ‫برای دســتیابی به برآورد ضرایــب در الگوهای لوجیت و پروبیت وجود دارد‬ ‫کــه آزمون فرضیه برابری با صفر آن‌ها هم چندان پیچیده نیســت‪ .‬با توجه به‬ ‫مباحث فوق‪ ،‬تفســیر ضرایب ‪ β1 … β k‬در الگوی لوجیت و پروبیت دشوار‬ ‫اســت‪ .‬اما بسته‏های نرم‏افزاری به شــکل متفاوتی اثر نهایی را در این الگوها‬ ‫محاســبه می‏کنند که درک آن‌ها را تا حدودی ساده می‏کنند‪ .‬به‌خاطر دارید که‬ ‫در رگرســیون‏های معمولی به دنبال این نکته هستیم که «میزان تغییر ‪ Y‬ناشی‬ ‫از تغییر ‪ X‬چقدر است؟» پاســخ به این سوال هم ضریب ‪ β‬است‪ .‬با الگوهای‬ ‫انتخاب کیفی‪ ،‬ما این ســوال را تغییر می‏دهیم به شــکلی که‪« :‬چقدر احتمال‬ ‫انتخاب کردن گزینه ‪ 1‬تغییر می‏یابد وقتی که شما ‪ X‬را تغییر دهید؟» اما پاسخ‬ ‫دادن به این ســوال به‏راحتی یافتن ‪ β‬نیســت‪ .‬برای خوانندگانی که با تئوری‬ ‫احتماالت آشنایی دارند‪ ،‬مطالعه پیوست ‪ 8-1‬برای درک جزئیات بیشتر‪ ،‬مفید‬ ‫خواهد بود‪ .‬کاربران الگوهای لوجیت و پروبیت باید این موضوع را بدانند که‬ ‫بسته‏های نرم‏افزاری قادر به محاسبه اثر نهایی هستند‪.‬‬ ‫بــه نکته آخر این فصل توجه کنید‪ .‬فرمولی که برای محاســبه اثر نهایی ‪X‬‬ ‫در انتخاب گزینه ‪ 1‬اســتفاده می‏شــود به خود ‪ X‬وابسته است‪ .‬به‌عنوان مثال به‬ ‫تمرینی توجه کنید که افراد در معرض انتخاب خودروی شــخصی و وســائل‬ ‫نقلیه عمومی بودند که در آن ‪ X‬مدت زمان سفر از خانه به محل کار است‪ .‬اثر‬ ‫نهایی که سفر ‪ 30‬دقیقه‏ای بر احتمال انتخاب گزینه ‪ 1‬می‏گذارد با اثری که سفر‬ ‫‪ 60‬دقیقه‏ای می‏گذارد متفاوت اســت‪ .‬از این رو است که محاسبه اثر نهایی به‬

‫‪ X‬بستگی دارد‪ .‬به‏طور معمول در نرم‏افزارها‪ ،‬برای محاسبه اثر نهایی یک مقدار‬ ‫متوسط را برای متغیر توضیحی در نظر می‏گیرند‪.‬‬ ‫آخرین ســوالی که ممکن اســت برای‌تان پیش بیاید این است که کجا باید از‬ ‫الگوی لوجیت استفاده شود و در کجا الگوی پروبیت؟ صادقانه بگویم‪ ،‬در بسیاری‬ ‫از مطالعات تجربی هیچ تفاوتی نمی‏کند که شما از کدام الگو استفاده کنید‪ .‬الگوهای‬ ‫لوجیت و پروبیت عموما نتایج بسیار مشابهی ارائه می‏دهند‪ .‬با این وجود باید اشاره‬ ‫کنیم که آزمون‏های مختلفی برای انتخاب یکی از این الگوها وجود دارد که با اندکی‬ ‫مطالعه در کتاب‏های تخصصی می‏توانید با آن‌ها آشنا شوید‪.‬‬

‫داده‏هایــی که در در تمرین ‪ 8-1‬تعریف شــده‏اند را می‏توانید در فایل‬ ‫‪ AFFAIR.XLS‬بیابید‪ .‬متغیر وابســته ‪ AFFAIR‬است و سایر متغیرها‬

‫توضیحی هستند‪ .‬جدول ‪ 8-1‬نتایج برآورد الگوی لوجیت را با استفاده‬ ‫از این داده‏ها نشان می‏دهد‪:‬‬

‫جدول ‪ .8-1‬نتایج برآمده از الگوی لوجیت‬ ‫متغیر‬

‫ضریب لوجیت‬

‫‪P-value‬‬

‫اثر نهایی‬

‫عرض از مبداء‬

‫‪-1/290‬‬

‫‪0/074‬‬

‫‪-‬‬

‫‪MALE‬‬

‫‪0/246‬‬

‫‪0/257‬‬

‫‪0/043‬‬

‫‪YEARS‬‬

‫‪0/049‬‬

‫‪0/025‬‬

‫‪0/009‬‬

‫‪KIDS‬‬

‫‪0/439‬‬

‫‪0/124‬‬

‫‪0/073‬‬

‫‪RELIG‬‬

‫‪-0/893‬‬

‫‪0/000‬‬

‫‪-0/151‬‬

‫‪EDUC‬‬

‫‪0/014‬‬

‫‪0/747‬‬

‫‪0/003‬‬

‫‪HAPPY‬‬

‫‪-0/869‬‬

‫‪0/000‬‬

‫‪-0/166‬‬

‫ســتون دوم بــرآورد ضرایب ‪ β1 …βk‬را برای هر یــک از متغیرهای‬

‫‪211‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫مثال ‪ 8-2‬انتخاب برای داشنت رابطه (مدل الجیت)‬

‫توضیحی نشان می‏دهد‪ .‬به‌خاطر داشته باشید که ضرایب لوجیت به‏طور‬

‫مستقیم اثر نهایی را اندازه نمی‏گیرند و به‌همین دلیل تفسیر آن‌ها دشوار‬ ‫اســت ولی می‏توانیم عالمت ضرایب را تفسیر کنیم‪ .‬ضرایب مربوط به‬

‫‪ RELIG‬و ‪ HAPPY‬منفی هســتند که یعنی افرادی که مذهبی هستند‬

‫و زندگی زناشــویی شادی دارند‪ ،‬کمتر تمایل به رابطه نامشروع دارند‪.‬‬ ‫ضریب ‪ YEARS‬مثبت است که یعنی با افزایش سال‏های ازدواج‪ ،‬امکان‬

‫رابطه نامشروع نیز بیشتر می‏گردد‪ .‬مرور ‪ p-value‬برای آزمون فرضیه‬ ‫برابری با صفر ضرایب نشــان می‏دهد که ضرایب مربوط به ‪YEARS،‬‬ ‫‪ RELIG‬و ‪ HAPPY‬از نظر آماری معنی‏دار است اما ضرایب ‪MALE،‬‬

‫‪ KIDS‬و ‪ EDUC‬معنی‏دار نمی‏باشند‪ .‬یعنی می‏توانیم نتیجه بگیریم که‬

‫تحلیل داده‌های اقتصادی‬

‫جنســیت‪ ،‬تحصیالت و تعداد فرزندان اثر معنی‏داری بر رابطه نامشروع‬ ‫‪212‬‬

‫ندارند‪ .‬اعدادی که در ستون آخر قرار دارد «اثر نهایی» از اهمیت ویژه‏ای‬

‫برخوردار اســت‪ .‬این‌ها اثر هر یــک از متغیرهای توضیحی بر احتمال‬ ‫وجود یک رابطه نامشــروع را توضیح می‏دهند‪ .‬بــرای مثال اثر نهایی‬ ‫‪ 0/009‬برای متغیر ‪ YEARS‬می‏تواند به این شــکل تفســیر گردد‪ :‬اگر‬

‫طول مدت یک ازدواج یک سال افزایش یابد‪ ،‬احتمال رخداد یک رابطه‬ ‫نامشــروع ‪ 0/009‬واحد بیشتر می‏شــود (با این فرض که سایر متغیرها‬

‫ثابت باشــند)‪ .‬اگر احتماالت را به‏صورت درصد بیان کنیم‪ ،‬باید بگویم‬ ‫که این احتمال ‪ 0/9‬درصد بیشتر می‏شود (تقریبا ‪ 1‬درصد)‪.‬‬

‫دو متغیــر توضیحی مجازی ‪ RELIG‬و ‪ HAPPY‬در الگو وجود دارند که‬ ‫می‏توان آن‌ها را این‌گونه تفسیر نمود‪ .‬مذهبی بودن یک فرد‪ ،‬احتمال رابطه‬

‫نامشروع را ‪ 15‬درصد کاهش می‏دهد‪ .‬با فرض ثبات شرایط‪ ،‬رابطه زناشویی‬

‫شــاد موجب کاهش رابطه نامشروع به اندازه ‪ 17‬درصد می‏شود‪ .‬در مورد‬ ‫نیکویی برازش‪ ،‬الگوی لوجیت می‏تواند ‪ 75/2‬درصد مشاهدات را به‏درستی‬

‫پیش‏بینی نماید‪ .‬جدول ‪ 8-2‬تمرین ‪ 8-2‬را با الگوی پروبیت تکرار می‏کند‪.‬‬ ‫این نتایج ب ‏ه جزئیات مورد بررســی قرار نمی‏گیرد‪ ،‬چراکه به‏جز یکی باقی‬ ‫ضرایب بسیار شبیه الگوی لوجیت بوده‏اند‪ .‬ستون‏های مربوط به ‪p-value‬‬

‫و اثــر نهایی در این جدول با جدول لوجیت در یک‏جا قرار دارد‪ .‬ضرایب‬

‫الگوی لوجیت تا حدودی با ضرایب الگوی پروبیت متفاوت است‪ ،‬اما باید‬

‫به این نکته توجه داشته باشید که مقدار ضرایب این دو الگو با هم قابل قیاس‬

‫نیستند و هر یک با روش خاص خود محاسبه شده‏اند‪.‬‬ ‫جدول ‪8-2‬‬ ‫عرض از مبداء‬

‫‪-0/738‬‬

‫‪0/079‬‬

‫‪-‬‬

‫‪MALE‬‬

‫‪0/150‬‬

‫‪0/233‬‬

‫‪0/046‬‬

‫‪YEARS‬‬

‫‪0/029‬‬

‫‪0/026‬‬

‫‪0/43‬‬

‫‪KIDS‬‬

‫‪0/249‬‬

‫‪0/124‬‬

‫‪0/009‬‬

‫‪RELIG‬‬

‫‪-0/510‬‬

‫‪3/31×10‬‬

‫‪-0/151‬‬

‫‪EDUC‬‬

‫‪0/006‬‬

‫‪0/808‬‬

‫‪0/003‬‬

‫‪HAPPY‬‬

‫‪-0/514‬‬

‫‪3/42×10‬‬

‫‪-0/166‬‬

‫‪-5‬‬

‫‪-3‬‬

‫مترین ‪8-1‬‬

‫مجموعه داده در ‪ COMPUTE.XLS‬شــامل داده‏های ‪ N=390‬نفر اســت که از‬

‫خودرو شــخصی یا وســائل نقلیه عمومی برای رفتن به سر کار استفاده می‏کنند‪.‬‬ ‫شکل داده‏ها به این نحو است که‪:‬‬

‫‪ :Choice -1‬اگر صفر باشد یعنی فرد با وسایل نقلیه عمومی به سر کار می‏رود و‬

‫اگر ‪ 1‬باشد‪ ،‬با خودرو شخصی‪.‬‬

‫‪ :Income -2‬درآمد (هزار دالر)‬

‫‪213‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫متغیر‬

‫ضریب لوجیت‬

‫‪P-value‬‬

‫اثر نهایی‬

‫‪ :Distance -3‬فاصله تا محل کار (به مایل)‬

‫الف‪ .‬الگوی لوجیتی را برآورد نمایید که متغیر وابســته مجازی (‪ )Choice‬باشــد و‬

‫متغیرهای ‪ Income‬و ‪ Distance‬متغیر توضیحی باشد‪ .‬عالمت ضرایب را تفسیر کنید‪.‬‬ ‫ب‪ .‬مقادیر پیش‏بینی و مقادیر واقعی برای هر فرد را نشان دهید و آن‌ها را مقایسه کنید‪.‬‬

‫ج‪ .‬بخش الف و ب را با الگوی پروبیت تکرار نمایید‪.‬‬

‫مترین ‪8-2‬‬

‫مجموعه داده‏های ‪ SMOKING.XLS‬بخشی از داده‏های استفاده شده در مقاله موالهی‬

‫(‪ )Mullahy,1997‬در زمینه سالمت کودکان است‪ .‬در این تمرین ما بر روی تصمیم‬ ‫سیگار کشــیدن یا نکشیدن متمرکز شــده‏ایم‪ .‬مجموعه داده‏ها در این بررسی شامل‬

‫‪ N=1196‬مرد می‏شود‪ .‬متغیر وابسته یک متغیر مجازی است که برای سیگاری‏ها عدد‬

‫تحلیل داده‌های اقتصادی‬

‫‪ 1‬و برای غیرسیگاری‏ها صفر است‪ .‬متغیرهای توضیحی عبارتند از‪:‬‬ ‫‪214‬‬

‫‪ :edu‬تعداد سال‏های تحصیل‬ ‫‪ :age‬سن به سال‬

‫‪ :income‬درآمد خانوار به دالر آمریکا‬

‫الــف‪ .‬الگوی لوجیت را تخمین بزنید و معنی‏داری هــر یکی از ضرایب را مورد‬

‫بررسی قرار دهید‪.‬‬

‫ب‪ .‬عالمت هر یک از ضرایب چه بوده است؟ این ضرایب چه چیزی را در مورد‬

‫اثر هر یک از متغیرهای توضیحی بر سیگاری شدن را به ما می‏گویند؟‬

‫ج‪ .‬اثر نهایی هر یک از متغیرهای توضیحی بر احتمال ســیگاری شدن را محاسبه‬

‫کنید‪ .‬این آثار نهایی را تفسیر نمایید‪.‬‬

‫د‪ .‬مراحل الف تا ج را با الگوی پروبیت تکرار نمایید‪.‬‬

‫ه‪ .‬نتایج الگوی لوجیت و پروبیت را مقایسه کنید‪ .‬آیا نتایج مشابهی در مورد عوامل‬

‫موثر بر سیگاری شدن ارائه می‏دهند‪.‬‬

‫و‪ .‬اگر تعــداد پیش‏بینی‏های صحیح در الگوهای لوجیت و پروبیت را بســنجیم‪،‬‬

‫کدام‏یک از این الگوها برازش بهتری دارد؟‬

‫خالصه فصل‬

‫پیوست ‪8-1‬‬

‫در متن کتاب مطالبی پیرامــون اهمیت احتماالت انتخاب و نقش آن در الگوهای‬ ‫انتخاب کیفی مطالبی گفته شد‪ .‬احتماالت انتخاب‪ ،‬بنیاد محاسبه اثر نهایی در بسته‏های‬ ‫نرم‏افزاری اســت‪ .‬این پیوست‪ ،‬به موضوع احتماالت انتخاب و روش محاسبه اثر‬ ‫نهایی در الگوی لوجیت می‏پــردازد‪ .‬ما پیرامون الگوی پروبیت صحبتی نخواهیم‬ ‫داشت‪ .‬مشتقات این الگو شبیه لوجیت است اما تفاوت در این است که مبنای توزیع‬ ‫در پروبیت‪ ،‬توزیع نرمال اســت‪ .‬توزیع نرمال در این‌جا مورد بحث قرار نمی‏گیرد‪.‬‬ ‫خوانندگان عالقه‏مند و آشــنا به مباحث احتمــاالت می‏توانند مراحل زیر را برای‬

‫‪215‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫‪ -1‬اگر یک الگوی رگرســیونی دارای متغیر وابســته مجازی باشد‪ ،‬الگوهای‬ ‫بــرآورد حداقل مربعــات معمولی دیگر به‏کار نمی‏آیند و بایــد به جای آن از‬ ‫الگوهای لوجیت و پروبیت استفاده نمود‪.‬‬ ‫‪ -2‬الگوهــای لوجیت و پروبیت در مفاهیــم اقتصادی مبتنی بر انتخاب به‏کار‬ ‫می‏آیند‪ .‬افراد کوشش می‏کنند تا گزینه‏ای را انتخاب نمایند که مطلوبیت‌شان بیشترین‬ ‫شود‪ .‬تفاوت مطلوبیت بین دو گزینه به‌عنوان متغیر وابسته شناخته می‏شود‪.‬‬ ‫‪ -3‬الگوهــای لوجیت و پروبیت در بســته‏های نرم‏افزاری به‏راحتی برآورد‬ ‫می‏شوند ولی تفسیر ضرایب آن‌ها پیچیده است‪ ،‬چراکه متغیر وابسته مطلوبیت‬ ‫است که قابل مشاهده نیست‪.‬‬ ‫‪ -4‬بسته‏های نرم‏افزاری معیارهای مشخصی برای نیکویی برازش و همچنین‬ ‫آزمون فرضیه ارائه می‏دهند‪.‬‬ ‫‪ -5‬در الگوهایــی که با احتماالت انتخاب کار می‏کنند‪ ،‬غالبا اثر نهایی مورد‬ ‫استفاده قرار می‏گیرد‪ .‬این اثر نهایی در بسته‏های نرم‏افزاری محاسبه می‏گردد و‬ ‫به این شکل تفســیر می‏گردد که یک واحد تغییر در متغیر توضیحی چقدر بر‬ ‫احتمال انتخاب گزینه ‪ 1‬اثر می‏گذارد (با فرض این‌که سایر متغیرهای توضیحی‬ ‫ثابت باشد)‪.‬‬

‫الگوی پروبیت تکرار کنند‪ .‬برای ادامه بحث از یک الگوی ساده به شکل زیر استفاده‬ ‫نمودیم‪ .‬مطابق با بحثی که پیرامون جایگاه الگوهای انتخاب کیفی در علم اقتصاد‬ ‫داشتیم‪ ،‬متغیر وابسته در معادله زیر‪ ،Y ،‬تفاوت مطلوبیت بین دو انتخاب خواهد بود‪:‬‬ ‫= ‪Yi‬‬ ‫‪β Xi + ei‬‬

‫مساله‏ای که در مورد ‪ Y‬وجود دارد این است که این متغیر غیرقابل مشاهده‬ ‫است و به‌همین دلیل تمرکز بر روی احتمال انتخاب قرار می‏گیرد‪Pr (Di = 1) :‬‬ ‫= ‪ . Pr (Di‬می‏دانیم که فرد ‪ i‬گزینه ‪ 1‬را انتخاب می‏کند‬ ‫= )‪0‬‬ ‫= ‪1 − Pr (Di‬‬ ‫و )‪1‬‬ ‫اگر تفاضل مطلوبیت مثبت باشد‪ .‬به بیان ریاضی‪:‬‬ ‫) ‪Pr (Di =1) =Pr ( Yi > 0 ) =Pr ( βXi + ei > 0 ) =Pr(ei > −βXi‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪216‬‬

‫به عبارتــی‪ ،‬فرد ‪ i‬گزینه ‪ 1‬را انتخاب می‏نماید اگر جزءخطای رگرســیون‬ ‫بزرگ‌تر از ‪ −βXi‬باشــد‪ .‬ما می‏توانیم از این قواعد احتماالتی برای دستیابی به‬ ‫یــک فرمول کمک بگیریم‪ .‬الگوهای انتخاب کیفی مختلف از تفاوت در توزیع‬ ‫احتماالتی فرضی ناشی می‏شود‪ .‬در الگوی پروبیت فرض بر این است که توزیع‬ ‫جزءخطا نرمال است و در الگوی لوجیت فرض بر این است که جزءخطا دارای‬ ‫توزیع لجســتیک اســت‪ .‬از آن‌جاکه در این کتاب صحبتی از انواع توزیع‏های‬ ‫احتماالت نشده است‪ ،‬تنها چیزی که باید بدانید این است که در الگوی لوجیت‪،‬‬ ‫توزیع احتماالت از شکل زیر پیروی می‏نماید‪:‬‬ ‫) ‪exp ( βXi‬‬

‫) ‪1 + exp ( βXi‬‬

‫=‪Pr (D=i 1‬‬ ‫)‬

‫نرم‏افزارهای اقتصادسنجی از فرمول باال برای تخمین ضرایب لوجیت استفاده‬ ‫می‏کنند‪ .‬از این فرمول می‏توان برای تفسیر نتایج به دو شکل زیر بهره برد‪:‬‬ ‫نخســت این‌که‪ ،‬همان‏طور که در متن اصلی توضیح دادیم‪ ،‬تفسیر ضریب‬ ‫‪ β‬به‏صورت مستقیم دشوار اســت‪ ،‬چراکه ما عادت داریم ضرایب رگرسیونی‬ ‫را به‏صورت اثر نهایی تفســیر نماییم‪ .‬حال در الگوهای باال باید با محاسبه اثر‬ ‫نهایی در نهایت بتوانیم به این ســوال پاســخ دهیم که «اگر ‪ X‬یک واحد تغییر‬

‫یابد‪ ،‬احتمال انتخاب گزینه ‪ 1‬چقدر تغییر خواهد یافت؟» در الگوهای لوجیت‪،‬‬ ‫می‏توانیم اثر نهایی را به شکلی دیگری محاسبه کنیم که بر مبنای «شانس» قرار‬ ‫گیرد‪ .‬این شانس بر اساس احتمال وقوع دو رخداد تعیین می‏شود‪ .‬در الگوهای‬ ‫کیفی «شانس» به‌شکال زیر است‪:‬‬ ‫)‪Pr (Di = 1‬‬

‫) ‪Pr (Di = 0‬‬

‫= ‪odds‬‬

‫در الگوهای لوجیت‪ ،‬نرخ شانس به‏سادگی برابر می‏شود با‪:‬‬

‫‪odds‬‬ ‫) ‪= exp ( βXi‬‬

‫بر اساس ویژگی‏های توابع نمایی و لگاریتمی می‏تواند به فرمول زیر رسید‪:‬‬ ‫‪ln ( odds ) = βXi‬‬

‫) ‪exp ( 30β‬‬

‫) ‪1 + exp ( 30β‬‬

‫=( ‪Pr‬‬ ‫‪D 1|X‬‬ ‫‪= 30‬‬ ‫=‬ ‫)‬

‫‪217‬‬

‫فصل ‪ :8‬الگوهای انتخاب کیفی‬

‫همان‏طور که در باال دیده می‏شــود‪ ،‬ضریب ‪ β‬که تفسیر مستقیم آن دشوار‬ ‫اســت‪ ،‬در الگوهای لوجیت می‏تواند دارای تفسیر مشخص شود‪ .‬به این شکل‬ ‫که ‪ β‬در غالب لگاریتم شــانس‏ها‪ ،‬یک اثر نهایی به‌شمار می‏رود‪ .‬بر این اساس‬ ‫می‏توانــد این‌گونه بیان کرد‪« :‬اگر ‪ X‬یک واحــد تغییر یابد‪ ،‬آن‌گاه لگاریتم نرخ‬ ‫شــانس به اندازه ‪ β‬واحد تغییر خواهد یافت‪ ».‬هرچند این تفســیر نیز ممکن‬ ‫است برای خیلی‏ها ساده به نظر نرسد (برای اغلب مردم عبارت لگاریتم شانس‬ ‫گیج‌کننده اســت)‪ .‬روش دومی که فرمول لوجیت در احتماالت انتخاب به‌کار‬ ‫ما می‏آید‪ ،‬محاسبه احتماالت در نحوه انتخاب هر فرد است‪ .‬برای مثال به مثال‬ ‫حمل‏ونقل بازگردیم که در آن وقتی ‪ D=1‬باشــد‪ ،‬فرد برای رفتن به سر کار از‬ ‫خودروی شخصی اســتفاده می‏کند و ‪ X‬نشــانگر مدت زمان رسیدن به محل‬ ‫کار (به دقیقه) اســت‪ .‬بر اساس برآورد الگوی لوجیت در مثال این فصل‪ ،‬شما‬ ‫می‏توانید با اســتفاده از فرمول لوجیت‪ ،‬احتمال این‌که یک فرد در فاصله زمانی‬ ‫‪ 30‬دقیقه‏ای تا محل کار از خودروی شخصی استفاده نماید را محاسبه کنید‪:‬‬

‫و احتمــال این‌که فردی بــا فاصله ‪ 60‬دقیقه‏ای از محــل کار از خودروی‬ ‫شخصی استفاده نماید برابر است با‪:‬‬ ‫) ‪exp ( 60β‬‬

‫) ‪1 + exp ( 60β‬‬

‫=( ‪Pr‬‬ ‫‪D 1|X‬‬ ‫‪= 60‬‬ ‫=‬ ‫)‬

‫در فرمول‏هــای باال‪ ،‬می‏بایــد ضریب ‪ β‬می‏باید با مقدار برآورد شــده آن‬ ‫جایگزین گردد‪ .‬به‌خاطر داشته باشــید که نحوه محاسبه احتمال انتخاب برای‬ ‫هر فرد در بسته‏های نرم‏افزاری با روشی که به‏طور مشخص در باال نوشته شده‬ ‫است تا حدودی متفاوت است‪ .‬معموال در نرم‏افزارها برای رسیدن به محاسبات‬ ‫فوق به یکی دو خط کدنویســی نیاز است‪ .‬البته این کار سختی نیست ولی به‬ ‫تالشی بیشتری از «تنها فشردن یک دکمه» نیاز خواهد داشت‪.‬‬ ‫تحلیل داده‌های اقتصادی‬

‫‪218‬‬

‫منابع‬

‫ الگوهای انتخاب کیفی‬:8 ‫فصل‬

Fair, R. (1978) «A theory of extramarital affairs», Journal of political Economy, 86(1): 45-61. Mullahay, J. (1997) «Instrumental-variable estimation of count data models: Application of models to cigarette smoking behavior», Review of Economics and Statistics, 79(4): 586-593.

219

‫بســیاری از حوزه‏های اقتصادی (مانند اقتصاد کالن و اقتصاد مالی) نیازمند‬ ‫به پردازش داده‏های ســری‏زمانی هستند‪ .‬شــاید تا کنون متوجه شده باشید که‬ ‫در تمامی مثال‏های فصول ‪ 3‬تا ‪ 8‬از داده‏های مقطعی اســتفاده شده است‪ .‬البته‬ ‫نویسنده به‏صورت عمدی در ‪ 6‬فصل گذشته از داده‏های مقطعی استفاده نموده‬ ‫است چراکه اجرای مدل‏های قبلی نیازی به داده‏های سری‏زمانی نداشته است‪.‬‬ ‫اما هدف این فصل ورود به داده‏های ســری‏زمانی اســت و همچنین توضیح‬ ‫خواهیم داد که چرا در فصول قبل از بحث درباره ســری‏زمانی اجتناب شــده‬ ‫است‪ .‬پس از این مقدمه بر روی ساده‏ترین ابزار عملیات با داده‏های سری‏زمانی‪،‬‬ ‫الگوهای با وقفه توزیعی‪ ،1‬متمرکز می‏شویم‪.‬‬ ‫مقصود اقتصاددانان از پردازش داده‏های سری‏زمانی به‌مانند داده‏های مقطعی‬ ‫یافتن رابطه‏ای مشــخص بین متغیر وابســته و متغیرهای توضیحی می‏باشد که‬ ‫البته یافتن این رابطه با رگرســیون امکان‏پذیر اســت‪ .‬اما در پردازش داده‏های‬ ‫سری‏زمانی‪ ،‬اقتصاددانان با دو مساله اساسی روبه‌رو هستند که پیش از این و در‬ ‫مواجهه با داده‏های مقطعی وجود نداشــت‪ .‬نخست این‌که داده‏های سری‏زمانی‬ ‫‪1- Distributed lag models‬‬

‫‪221‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫فصل ‪9‬‬ ‫رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫تحلیل داده‌های اقتصادی‬

‫‪222‬‬

‫ممکن اســت با وقفه بر یکدیگــر اثر بگذارند‪ .‬دوم آن‌کــه در صورت وجود‬ ‫نامانایی‪ 1‬در داده‏ها‪ ،‬ممکن است با رگرسیون کاذب‪ 2‬روبه‌رو شویم‪.‬‬ ‫تا این‌جا از خوانندگان کتاب انتظار نمی‏رود که مســاله دوم را درک کنند‪.‬‬ ‫عبارات نامانایی و رگرســیون کاذب به‏صورت کامل در ادامه مباحث این کتاب‬ ‫تشریح خواهد شد‪ .‬اما فعال به‌عنوان یک قاعده سرانگشتی به‌خاطر داشته باشید‬ ‫که از داده‏های ســری‏زمانی نامانا نمی‏توانیم در رگرســیون استفاده کنیم بلکه‬ ‫می‏باید قبل از اجرای مدل این داده‏ها را به وضعیت مانا تبدیل نماییم‪ .‬البته یک‬ ‫اســتثناء وجود دارد و آن زمانی است که داده‏های سری‏زمانی با یکدیگر رابطه‬ ‫هم‏انباشــتگی‪ 3‬داشته باشــند‪ .‬در ادامه همه این مفاهیم شفاف خواهد شد ولی‬ ‫احتماال تا به این‌جا از دیدن واژه‏هایی که بدون تعریف رها شــده‏اند سردرگم‬ ‫شده باشید‪ .‬شاید توجه به نکات زیر راه‏گشا باشد‪.‬‬ ‫هنگام کار کردن با داده‏های سری‏زمانی مشکالتی رخ می‏دهد که پیش از این‬ ‫با آن‌ها درگیر نبوده‏ایم‪ .‬این مســائل موجب شده است که به‌کارگیری داده‏های‬ ‫سری‏زمانی در رگرسیون‏های چندگانه (که در فصول ‪ 4‬تا ‪ 7‬با داده‏های مقطعی‬ ‫بررسی شده بود) به‏سادگی قبل نباشد‪ .‬هدف فصول ‪ 9‬تا ‪ 12‬این است که شیوه‬ ‫صحیح وارد کردن سری‏زمانی در رگرسیون‏های چندگانه را آموزش دهد‪ .‬برای‬ ‫شروع در این فصل فرض می‏کنیم که همه سری‏های زمانی مانا هستند‪ .‬در فصل‬ ‫بعد به مفهوم نامانایی در رگرسیون کاذب خواهیم پرداخت‪ .‬در این فصل بدون‬ ‫توجه به مشــکل رگرسیون کاذب تنها به این مهم متمرکز می‏شویم که چگونه‬ ‫متغیرهای سری‏زمانی با وقفه بر یکدیگر اثر می‏گذارند‪.‬‬ ‫هنگامی که یک رگرسیون برآورد می‏شود‪ ،‬عالقه‏مندیم که اثر یک یا چند متغیر‬ ‫توضیحی را بر متغیر وابسته بررسی نماییم‪ .‬اما در مورد سری‏زمانی باید دقت کنیم‬ ‫‪ -1‬واژه «‪ »nonstationary‬در برخی از مطالعات فارســي به واژه نامانايي ترجمه شــده است و در برخي‬ ‫ديگر به واژه ناپايداري‪ .‬در اين كتاب از واژه نامانايي استفاده مي‏شود‪ .‬به همين ترتيب واژه ‪ stationary‬به‬ ‫واژه مانايي برگردان خواهد شد‪.‬‬ ‫‪3- Cointegration‬‬

‫‪2- Spurious regression‬‬

‫‪Yt = α + β0 Xt + β1Xt −1 + β2 Xt − 2 + … + βq Xt − q + et‬‬

‫الگوی فوق مشــابه رگرسیون‏های چندگانه فصل ‪ 6‬است با این تفاوت که‬ ‫متغیرهای توضیحی مختلــف (مانند ‪ lot size‬تعداد حمام و تعداد اتاق) در آن‬ ‫وجود ندارد بلکه متغیر توضیحی تنها یک متغیر است که در زمان‏های مختلف‬ ‫واقع شده اســت‪ .‬در حقیقت عبارت ‪ 9-1‬تنها داری یک متغیر توضیحی (‪)X‬‬ ‫اســت که با وقفه مرتبه‪ q 1‬تکرار شده است که به اصطالح می‏توان گفت طول‬ ‫وقفه‪ 2‬در این مدل ‪ q‬اســت‪ .‬البته الزم به ذکر اســت که ما در این فصل تنها به‬ ‫مدلی اشــاره می‏کنیم که دارای یک متغیر توضیحی می‏باشد اما تمامی مطالب‬ ‫را می‏توان به حالتی که چند متغیر توضیحی هم وجود داشــته باشند تعمیم داد‪.‬‬ ‫‪2- Lag length‬‬

‫‪1- Lag order‬‬

‫‪223‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫که متغیرهای توضیحی ممکن است بالفاصله بر متغیر وابسته اثر نگذارند و مدتی‬ ‫به طول بیانجامد تا اثر خود را نشان دهد‪ .‬برای مثال فرض کنید که بانک مرکزی به‬ ‫دلیل نگرانی از تورم‪ ،‬نرخ بهره را افزایش دهد‪ .‬نتیجه این اقدام بالفاصله مشخص‬ ‫نمی‏شــود‪ .‬ممکن است یک سال طول بکشد تا اثر افزایش نرخ بهره بر متغیرهای‬ ‫کلیدی اقتصاد کالن (مانند بیکاری) مشخص شود‪ .‬به‏طور کلی اکثر ابزارهای پولی و‬ ‫مالی که در اختیار دولت قرار دارد برای اثرگذاری به زمان نیاز دارد‪ .‬هرچند این‏گونه‬ ‫موضوعات در اقتصاد کالن عمومیت بیشتری دارد ولی رخداد آن در فضای اقتصاد‬ ‫خرد هم امکان‏پذیر است‪ .‬برای مثال تصمیم یک شرکت تولیدی برای سرمایه‏گذاری‬ ‫(برای مثال خرید سخت‏افزارها و رایانه‏های جدید) بالفاصله بر میزان تولید شرکت‬ ‫اثر نمی‏گذارد‪ .‬خرید‪ ،‬نصب‪ ،‬راه‏اندازی و آموزش کارگران به زمان نیاز دارد‪ .‬بنابراین‬ ‫اثر سرمایه‏گذاری بر تولید این شرکت ممکن است با وقفه زمانی همراه باشد‪.‬‬ ‫حال به زبان رگرســیون این‏گونه می‏توان گفت که متغیر وابسته تنها با دوره‬ ‫جاری متغیر توضیحی در ارتباط نیســت بلکه با وقفه‏های آن نیز ارتباط دارد‪.‬‬ ‫ساده‏ترین روش برای توضیح استفاده از مدلی با وقفه‏های توزیع شده است که‬ ‫در عبارت زیر قابل مشاهده است‪:‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪224‬‬

‫همچنین ذکر این نکته الزم است که مدل با وقفه‏های توزیع‏شده شبیه رگرسیون‬ ‫چندگانه است و بنابراین نکات مرتبط با این نوع رگرسیون‏ها که در فصل ‪ 4‬تا‬ ‫‪ 6‬ذکر شده بود در این‌جا هم کاربرد خواهد داشت‪.‬‬ ‫در حال حاضر بسته‏های نرم‏افزاری قادر هستند ضرایب الگوی وقفه توزیعی‬ ‫را بــا روش حداقل مربعات معمولی بــرآورد کنند و مقدار ضریب را به همراه‬ ‫ســطوح اطمینان و ‪ p-value‬برای آزمون برابر با صفر بودن ضریب در اختیار‬ ‫قرار دهند‪ .‬به‌مانند قبل تفســیر ضریب این‏گونه است که اثر متغیر توضیحی بر‬ ‫متغیر وابسته چگونه بوده است اما در این مورد باید به وقفه متغیر توضیحی هم‬ ‫توجه نماییم‪ .‬برای مثال ضریب ‪ β2‬را می‏توان به این شــکل تفسیر می‏شود که‬ ‫متغیر ‪ X‬یک دوره قبل با فرض ثبات ســایر شرایط به اندازه ‪ β2‬بر ‪ Y‬اثر داشته‬ ‫است‪ .‬به غیر از این موضوع جزئی‪ ،‬سایر نکات مرتبط با تفسیر ضرایب به‌مانند‬ ‫فصول قبل است‪.‬‬ ‫با وجود شباهت مدل وقفه توزیعی با رگرسیون چندگانه‪ ،‬ارزش آن را دارد‬ ‫کــه این الگو را به‏صورت جداگانه مورد بررســی قرار دهیم چراکه برای درک‬ ‫مفاهیم مرتبط با سری‏زمانی به ما یاری خواهد رساند‪ .‬قبل از آن‌که به شیوه کار‬ ‫کردن با الگوهای با وقفه توزیع‏شــده بپردازیم ذکر دو نکته الزم است‪ .‬نخست‬ ‫در مورد نحوه محاســبه و قراردادن وقفه‏ها در ‪ Excel‬است که حتی اگر از این‬ ‫نرم‏افزار اســتفاده نمی‏کنید دانســتن آن مفید خواهد بود‪ .‬دوم شیوه نوشتار در‬ ‫الگوهای سری‏زمانی است که در فصول بعد هم به آن نیاز خواهیم داشت‪.‬‬

‫متغیرهای باوقفه‬

‫مفهوم متغیرهای باوقفه موضوعی بنیادی در ســری‏زمانی است‪ .‬از این رو الزم‬ ‫اســت تا با جزئیات بیشتری آن را بررسی نماییم و روش کار با آن را در رایانه‬ ‫فرا بگیریم‪ .‬فرض کنید ما داده‏های ســری‏زمانی متغیر ‪ Xt‬را برای دوره زمانی‬ ‫‪ t=1.2. … . T‬در اختیــار داریم‪ .‬حــال فرض کنید که متغیر جدیدی به نام ‪Wt‬‬ ‫ایجاد نموده‏ایم که دوره زمانی آن‪ t= 2. … . T‬است و همچنین متغیر دیگری به‬

‫‪225‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫نام ‪ Z t‬که برابر با ‪ Xt −1‬می‏باشد ( ‪ ) Z t = Xt −1‬برای این متغیر هم می‏باید از دوره‬ ‫زمانی ‪ t= 2. … . T‬استفاده نماییم‪ .‬چرا از دوره زمانی ‪ t=1.2. … . T‬به جای =‪t‬‬ ‫‪ 2. … . T‬استفاده نمی‏کنیم؟ چون در آن صورت ‪ Z1‬برابر با ‪ X0‬می‏شد حال آن‌که‬ ‫مشــاهدات ما تنها از دوره ‪ t=1‬برای ‪ Xt‬در دسترس است‪ .‬به‌همین دلیل دوره‬ ‫مشــاهدات از ‪ t=2‬آغاز می‏گردد‪ .‬از این رو تعداد مشاهدات دو متغیر ‪ Wt‬و ‪Z t‬‬ ‫به تعداد ‪ T-1‬است‪ .‬به‌همین ترتیب اگر ‪ Z t = X t − 2‬می‏بود‪ ،‬تعداد مشاهدات ‪T-2‬‬ ‫می‏شد و دوره زمانی به ‪ t=3. … .T‬تبدیل می‏گشت‪.‬‬ ‫اگر دو متغیر ‪ Z‬و ‪ W‬را به‌مثابه دو ســتون اکســل در نظر بگیریم‪ ،‬هر کدام‬ ‫دارای ‪ T-1‬عضو هســتند ولی در ســتون مربوط به ‪ W‬اولین عضو ‪ X2‬اســت‬ ‫در حالی‏که در ســتون مربوط به ‪Z‬‏ اولین عضو‪ X1 ،‬خواهد بود‪ .‬به‌همین ترتیب‬ ‫دومین عضو این ســتون‏ها ‪ X2‬و ‪ X3‬خواهد بود‪ .‬به دیگر ســخن‪ ،‬متغیر ‪W‬‬ ‫شــامل ‪ X‬است و متغیر ‪ Z‬شامل ‪ X‬یک دوره قبل است یا به عبارتی شامل ‪ X‬با‬ ‫وقفه یک اســت‪ .‬به‏طور کلی ما می‏توانیم به شکل باال متغیر با وقفه یکم‪ ،‬وقفه‬ ‫دوم یا وقفه ‪ j‬برای ‪ X‬تولید کنیم و به این شــکل تنها با تغییر تعداد وقفه‪ ،‬متغیر‬ ‫توضیحی جدیدی را بر اساس ‪ X‬تولید خواهیم کرد‪ .‬همان‏طور که در فصل قبل‬ ‫از متغیرهای قیمت خانه‪ ،‬تعداد اتاق یا تعداد حمام به‌عنوان متغیرهای توضیحی‬ ‫استفاده نمودیم؛ در این‌جا می‏توانیم تنها با تغییر وقفه‪ ،‬متغیر توضیحی جدیدی‬ ‫بســازیم و در الگو از آن استفاده نماییم‪ .‬توجه کنید که اگر بخواهیم متغیرهای‬ ‫توضیحی گوناگونی را در یک رگرسیون چندگانه قرار دهیم باید مطمئن باشیم‬ ‫که تعداد مشاهدات در آن‌ها برابر است‪.‬‬ ‫حال باید مفاهیم فوق را اجرا کنیم‪ .‬فرض کنید رگرسیونی شامل متغیر توضیحی‬ ‫‪ X‬اســت که دارای ‪ j‬وقفه اســت‪ .‬اگر دوره زمانی این متغیر ‪ t=1.2. … .T‬باشــد‪،‬‬ ‫آن‌گاه تعداد مشاهدات برابر با ‪ T-j‬خواهد بود‪ .‬باید مراقب باشیم که همه متغیرهای‬ ‫توضیحی شامل ‪ T-j‬مشاهده باشند‪ .‬به‏طور کلی در همه مدل‏های سری‏زمانی‪ ،‬تعداد‬ ‫مشاهدات باید شامل ‪ T‬مشاهده منهای حداکثر تعداد وقفه باشد‪.‬‬ ‫بسته‏های نرم‏افزاری رایج اقتصادســنجی که در دسترس همگان قرار دارد‬

‫به‏سادگی می‏تواند متغیرهای با وقفه را ایجاد نماید‪ .‬کاری که انجام دادن آن در‬ ‫اکسل چندان آســان نیست‪ .‬این دقیقا همان دلیلی است که موجب می‏شود در‬ ‫هنگام کارکردن با ســری‏های زمانی استفاده از بسته‏های نرم‏افزاری راحت‏تر از‬ ‫اکســل باشد‪ .‬هنگام کار کردن با اکسل باید در ابتدا تمامی متغیرهای با وقفه را‬ ‫تولید کنیم‪ .‬برای مثال فرض کنید که تعداد مشــاهدات مربوط به ‪ Y‬و ‪ X‬برابر‬ ‫با ‪ 10‬عدد اســت و هدف ما اجرای رگرســیونی به شکل زیر است که شامل‬ ‫متغیرهای توضیحی ‪ ،X‬وقفه نخســت ‪ ،X‬وقفه دوم ‪ X‬و وقفه سوم ‪ X‬می‏باشد‪.‬‬ ‫بنابراین هر متغیر می‏باید شامل ‪ 7‬مشاهده باشد‪.‬‬ ‫جدول ‪9-1‬‬ ‫‪ ‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪226‬‬

‫‪ ‬‬

‫ستون ‪A‬‬

‫ستون ‪B‬‬

‫ستون ‪C‬‬

‫ستون ‪D‬‬

‫ستون ‪E‬‬

‫‪Y‬‬

‫‪X‬‬

‫وقفه نخست ‪X‬‬

‫وقفه دوم ‪X‬‬

‫وقفه سوم ‪X‬‬

‫ردیف ‪1‬‬

‫‪Y4‬‬

‫‪X4‬‬

‫‪X3‬‬

‫‪X2‬‬

‫‪X1‬‬

‫ردیف ‪2‬‬

‫‪Y5‬‬

‫‪X5‬‬

‫‪X4‬‬

‫‪X3‬‬

‫‪X2‬‬

‫ردیف ‪3‬‬

‫‪Y6‬‬

‫‪X6‬‬

‫‪X5‬‬

‫‪X4‬‬

‫‪X3‬‬

‫ردیف ‪4‬‬

‫‪Y7‬‬

‫‪X7‬‬

‫‪X6‬‬

‫‪X5‬‬

‫‪X4‬‬

‫ردیف ‪5‬‬

‫‪Y8‬‬

‫‪X8‬‬

‫‪X7‬‬

‫‪X6‬‬

‫‪X5‬‬

‫ردیف ‪6‬‬

‫‪Y9‬‬

‫‪X9‬‬

‫‪X8‬‬

‫‪X7‬‬

‫‪X6‬‬

‫ردیف ‪7‬‬

‫‪Y10‬‬

‫‪X10‬‬

‫‪X9‬‬

‫‪X8‬‬

‫‪X7‬‬

‫در نمودار ‪ 9-1‬هر یک از متغیرها را می‏توان در ستون‏های جداگانه مشاهده‬ ‫نمود‪ .‬برای مثال به ردیف ‪ 4‬نگاه کنید‪ .‬در این ردیف ‪ X‬و ‪ Y‬شــامل متغیرهای‬ ‫دوره جاری هســتند ( ‪ ) t = 7, X7 , Y7‬وقفه نخســت ‪ X‬برابر با دوره قبل متغیر‬ ‫‪ X‬اســت‪ .‬در این ردیف وقفه یکم ‪ X‬برابر با ‪ X6‬خواهد بود‪ .‬ستونی که مختص‬ ‫وقفه دوم ‪ X‬است برابر با ‪ X5‬است و ستونی مربوطه به وقفه سوم ‪ X‬برابر با ‪X4‬‬ ‫می‏باشد‪.‬‬

‫شیوه نوشتاری‬

‫مهم اســت که شیوه نوشــتار ما برای ســری‏های زمانی شــفاف باشد‪ .‬برای‬ ‫مثال فرض کنید که ‪ X‬نماینده متغیر جمعیت باشــد‪ .‬حــال اگر بخواهیم پس‬ ‫از جمــع‏آوری داده‏ها‪ ،‬این متغیر را به‌عنوان یک متغیر مقطعی به کشــورهای‬ ‫مختلف اختصاص دهیم آن‌گاه به مانند فصل ‪ 2‬می‏نویسیم ‪ Xi‬که ‪i=1.2. … .N‬‬ ‫نماینده مقاطع مختلف است‪ .‬در عین‏حال ‪ Xi‬نشان‏دهنده جمعیت در زمان‏های‬ ‫‪ t=1.2. … .T‬اســت‪ .‬در مباحث مطرح‏شده ما از فصل ‪ 4‬تا ‪ 7‬معموال رگرسیون‬ ‫به شکل زیر نوشته می‏شد‪:‬‬ ‫‪Y = α + βX + e‬‬

‫‪Yi = α + βXi + ei‬‬

‫برای مثال اگر ‪ Y‬را متغیر جنگل‌زدایی در نظر بگیریم‪ ،‬رگرســیون باال قطع‬ ‫درختان جنگلی در کشور ‪ i‬را وابسته به جمعیت همان کشور ‪ i‬در نظر می‏گیرد‪.‬‬ ‫در حقیقت قرار دادن اندیس ‪ i‬به ما گوشــزد می‏کند که از بین رفتن پوشــش‬ ‫جنگلی در جامائیکا به جمعیت جامائیکا وابسته است و نه به جمعیت اوگاندا‪.‬‬ ‫اما شاید دیده باشید که در بسیاری از نوشتارها برای ساده شدن اندیس ‪ i‬حذف‬ ‫شده باشد‪.‬‬ ‫امــا به غیر از ‪ t‬و ‪ i‬که به‌عنوان اندیس در کنار متغیر قرار می‏گیرند‪ ،‬هنگام‬ ‫استفاده از رگرســیون‏های چندگانه (فصل‪ )6‬دیده‏ایم که متغیرهای توضیحی‬ ‫مختلف را با ‪ Xk ، … ، X2 ، X1‬نشــان می‏دهیم که ‪ k‬تغییر متغیر توضیحی را‬ ‫نشــان می‏دهد‪ .‬یعنی اندیس ‪ k‬با مشــاهدات ارتباطی ندارد بلکه خود متغیر‬ ‫را در نظر می‏گیرد‪ .‬برای مثال اگر بنویســیم ‪ ، X2i‬به معنی مشــاهده ‪ i‬از متغیر‬ ‫توضیحی دوم اســت‪ .‬در برخی از بخش‏های این کتاب اندیس ‪ i‬نوشته نشده‬ ‫اســت که البته این یک اشــکال عمومی در کتاب‏های این‌چنینی است‪ .‬برای‬

‫‪227‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫اما بهتر اســت در زمانی که داده‏های مقطعی در اختیار داریم‪ ،‬رگرسیون را‬ ‫به شــکل زیر بنویسیم‪ .‬در این حالت نشان می‏دهیم که مشاهده ‪ i‬ام متغیر ‪ Y‬به‬ ‫مشاهده ‪ i‬ام متغیر ‪ X‬وابسته است‪.‬‬

‫نوشتار سری‏های زمانی ‪ Xt − j‬به یک مشاهده خاص اشاره می‏کند‪ .‬برای مثال‬ ‫اگر ‪ t=1968‬و ‪ j=3‬آن‌گاه ‪ Xt − j‬به‏طور مشــخص به مشاهده ‪ X‬در سال ‪1965‬‬ ‫اشاره می‏کند‪ .‬در نوشتار متغیرها می‏توان از روش‏های گوناگونی استفاده نمود‬ ‫و به‌همین دلیل الزم اســت که هنگام تفســیر معادالت به محتوای متن و نوع‬ ‫اندیس‏ها توجه نماییم‪.‬‬

‫مثال کاربردی‪ :‬اثر دوره‏های آموزشی ایمنی بر حوادث‬

‫تحلیل داده‌های اقتصادی‬

‫‪228‬‬

‫خســارت‏های ناشی از حوادث صنعتی در شــرکت‏های بزرگ می‏تواند قابل‬ ‫توجه باشــد‪ .‬از این رو بسیاری از شــرکت‏های دوره‏های مختلف آموزشی را‬ ‫در زمینه ایمنی برای کارکنان خود برگزار می‏کنند تا خســارت‏های ناشــی از‬ ‫حوادث را کاهش دهند‪ .‬آن‌ها معموال مایل هستند تا اثر چنین دوره‏هایی را بر‬ ‫کاهش خسارت‏های شرکت بررسی نمایند‪ .‬فایل اکسل ‪ SAFETY.XLS‬شامل‬ ‫اطالعات ســاعات آموزشی مربوط به ایمنی یک شرکت طی ‪ 5‬سال (یعنی ‪60‬‬ ‫ماه) است‪ .‬به‏طور مشخص در این فایل متغیرها به شرح زیر است‪:‬‬ ‫‪ .Y‬میزان خسارت ناشی از حوادث (مقیاس اندازه‏گیری پوند در ماه)‬ ‫‪ .X‬ساعات آموزش ایمنی که برای هر کارگر در هر ماه ایجاد شده است‪.‬‬ ‫انتظار بر این اســت که آموزش‏هــای ایمنی در ماه‏های گذشــته بر نرخ‬ ‫تصادفات دوره جــاری اثر بگذارد‪ .‬بنابراین نیازمنــد اعمال وقفه در متغیر ‪X‬‬ ‫خواهیم بود‪ .‬جدول ‪ 9-2‬نتایج حاصل از برآورد ‪ OLS‬ضرایب رگرســیونی را‬ ‫نشــان می‏دهد که در آن میزان خســارت دوره فعلی وابسته به آموزش ایمنی‬ ‫دوره فعلی و همچنین آموزش‏های انجام‏شده طی چهار ماه گذشته می‏باشد‪.‬‬ ‫‪Yt = α + β0 Xt + β1Xt −1 + β2 Xt − 2 + β3 Xt −3 + + β4 Xt − 4 + e t‬‬

‫این شــرکت از نتایج ایــن تحقیق چه نتیجه‏ای پیرامــون آموزش‏های فنی‬ ‫دریافت می‏کند؟‬ ‫‪ -1‬افزایش یک ساعته آموزش فنی به هر کارگر موجب کاهش ‪ 145‬پوندی‬

‫جدول ‪ .9-2‬نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث‬ ‫انحراف‬ ‫معیار‬

‫آماره‪t‬‬

‫‪p-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حد باال در‬ ‫سطح ‪%95‬‬

‫‪2001/17‬‬

‫‪45/96‬‬

‫‪0/000‬‬

‫‪87978/91‬‬

‫‪96024/11‬‬

‫‪Xt‬‬

‫‪-145/00‬‬

‫‪47/62‬‬

‫‪-3/04‬‬

‫‪0/0037‬‬

‫‪-240/70‬‬

‫‪-49/30‬‬

‫‪Xt-1‬‬

‫‪-462/14‬‬

‫‪47/66‬‬

‫‪-9/70‬‬

‫‪0/000‬‬

‫‪-557/91‬‬

‫‪-366/38‬‬

‫‪Xt-2‬‬

‫‪-424/47‬‬

‫‪46/21‬‬

‫‪-9/19‬‬

‫‪0/000‬‬

‫‪-517/33‬‬

‫‪-331/62‬‬

‫‪Xt-3‬‬

‫‪-199/55‬‬

‫‪47/76‬‬

‫‪4/18‬‬

‫‪0/000‬‬

‫‪-295/52‬‬

‫‪-103/58‬‬

‫‪Xt-4‬‬

‫‪-36/90‬‬

‫‪47/45‬‬

‫‪-0/78‬‬

‫‪0/44‬‬

‫‪-132/25‬‬

‫‪58/45‬‬

‫‪ ‬‬

‫ضریب‬

‫عرض از مبدا ‪92001/51‬‬

‫فاصله اطمینان نیز به شکل استاندارد قابل تفسیر است‪ .‬برای مثال در سطح‬ ‫اطمینان ‪ 95‬درصد اثر فوری آموزش بر کاهش خســارت با فرض ثبات سایر‬ ‫شرایط بین ‪ 49/30‬تا ‪ 240/70‬قرار دارد‪.‬‬ ‫برای درک بهتر فرض ثبات ســایر شــرایط می‏توانیم نتیجه (‪ )2‬را این‌گونه‬ ‫تفســیر کنیم که افزایش یک ساعته آموزش کارگران در یک ماه موجب کاهش‬ ‫‪ 462/14‬پوندی خســارت در ماه بعد می‏شود‪ .‬با این فرض که این کمپانی هیچ‬ ‫برنامه آموزش دیگری را (در ماه‏های قبل یا بعد) برگزار ننماید‪.‬‬

‫‪229‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫خسارت در همان ماه می‏شود‪( .‬با ثبات سایر شرایط)‬ ‫‪ -2‬این آموزش موجب کاهش ‪ 462/14‬پوندی خسارت در ماه بعد می‏گردد‪.‬‬ ‫(با ثبات سایر شرایط)‬ ‫‪ -3‬ایــن آموزش موجب کاهش ‪ 424/47‬پوندی خســارت در دو ماه بعد‬ ‫می‏شود‪( .‬با ثبات سایر شرایط)‬ ‫‪ -4‬این آموزش موجب کاهش ‪ 199/55‬پوندی خســارت در ســه ماه بعد‬ ‫می‏گردد‪( .‬با ثبات سایر شرایط)‬ ‫‪ -5‬این آموزش موجب کاهش ‪ 36/90‬پوندی خســارت در چهار ماه بعد‬ ‫می‏شود‪( .‬با ثبات سایر شرایط)‬

‫تحلیل داده‌های اقتصادی‬

‫‪230‬‬

‫اگر نتایج آماری به‏دســت آمده در جدول را بررسی کنیم‪ ،‬خواهیم دید که‬ ‫همــه ضرایب از نظر آماری معنادار هســتند به‏جز ضریب ‪ . β4‬مقدار ‪p-value‬‬ ‫برای این ضریب ‪ 0/44‬اســت که کمتر از ‪ 0/05‬نیســت‪ .‬همچنین می‏دانیم که‬ ‫فاصله اطمینان این ضریب شامل صفر می‏باشد‪.‬‬ ‫بنابراین ما نمی‏توانیم فرض ‪ β4 =0‬را رد کنیم‪ .‬به‌همین ترتیب فرض بی‌تاثیر‬ ‫ش ایمنی در کاهش خســارت چهار ماه بعــد را هم نمی‏توانیم رد‬ ‫بودن آموز ‏‬ ‫نماییم‪ .‬یعنی کارگران‪ ،‬بعد از چهار ماه آموزش‏های ایمنی را فراموش می‏کنند‪.‬‬ ‫این نتیجه می‏تواند برای شــرکت قابل استفاده باشــد و آن‌ها را به این دیدگاه‬ ‫برساند که می‏باید آموزش‏های دوره‏ای ایمنی را الاقل هر چهار ماه داشته باشند‪.‬‬ ‫در مجموع دریافته‏ایم که اثر آموزش‏های ایمنی بر کاهش خســارات در طول‬ ‫زمان به شکل سهمی است‪ .‬اثر فوری آموزش بر خسارت اندک است (‪145‬پوند)‬ ‫بعد از آن طی دو ماه این اثر حدود (‪ 400‬پوند) است ولی بعد از سه ماه اثر آموزش‬ ‫به (‪ 200‬پوند) کاهش می‏یابد‪.‬‬ ‫بعد از چهار ماه نیز به‏طور کل این اثر از میان می‏رود‪ .‬توجه داشته باشید که اثر‬ ‫آموزش در یک ماه مشــخص نه تنها در آن ماه بلکه در ماه‏های بعدی هم موجب‬ ‫کاهش خسارت می‏شود‪ .‬پس اگر بخواهیم اثر کلی آموزش بر کاهش خسارت را‬ ‫بررسی نماییم باید آن‏ها را جمع کنیم (‪=36/90+199/55+424/47+462/14+145‬‬ ‫‪ 1268/06‬پوند) که یعنی در مجموع ‪ 1268/06‬پوند فایده آموزش یک‏ســاعته هر‬ ‫‪1‬‬ ‫کارگر می‏باشد طی ‪ 4‬ماه می‏باشد‪.‬‬ ‫با انجام این محاسبات شرکت اطالعات ارزشمندی را درباره نقش آموزش‏های‬ ‫ایمنی بر کاهش خســارات به‏دست می‏آورد که می‏تواند از آن‌ها در جهت طراحی‬ ‫بهینه آموزش به کارگران استفاده نماید‪ .‬اما این نتایج با این فرض حاصل شده است‬ ‫که مدل با وقفه توزیعی هیچ متغیر توضیحی را فراموش نکرده است‪ .‬برای مثال ما در‬ ‫‪ -1‬اين مبلغ تخمين كل فايده ناشي از آموزش ايمني است‪ .‬اين امكان وجود دارد كه فاصله اطمينان را هم‬ ‫براي كل فايده به‏دست آوريم اما اين كار كمي پيچيده است كه فراتر از اهداف اين كتاب است‪.‬‬

‫این مدل از وارد کردن متغیر ‪ Xt −5‬صرف‏نظر کرده‏ایم‪ .‬چراکه فرض بر این بوده است‬ ‫که آموزش ایمنی بعد از ‪ 5‬دوره اثر خود را از دست خواهد داد‪ .‬اگر این فرض غلط‬ ‫باشد‪ ،‬نتایج به‏دست آمده از تخمین ضرایب رگرسیون غلط خواهد بود‪ .‬این موضوع‬ ‫از یک‏سو به مباحث فصل ‪ 6‬در مورد متغیرهای توضیحی فراموش‏شده بازمی‏گردد‬ ‫و از سوی دیگر اهمیت انتخاب صحیح تعداد وقفه را گوشزد می‏نماید‪ .‬موضوعی‬ ‫که در ادامه به آن خواهیم پرداخت‪.‬‬

‫مترین ‪9-1‬‬

‫استفاده نمایید‪ .‬این مجموعه داده شامل ‪ 60‬مشاهده می‏باشد‪ .‬در باال توضیح داده شد که‬

‫‪ Y‬خسارت ناشی از حوادث می‏باشد‪ X .‬هم ساعات آموزش هر کارگر در ماه می‏باشد‪.‬‬ ‫(الــف) متغیرهای توضیحی مدل با وقفه توزیعی را برای طول وقفه ‪ 4‬تنظیم کنید‪.‬‬

‫در این حالت تعداد مشاهدات برای هر متغیر چند عدد خواهد بود؟‬

‫(ب) مدل با وقفه توزیعــی را برای طول وقفه ‪ 2‬به‏صورت مجدد تنظیم کنید‪ .‬در‬

‫این حالت تعداد مشاهدات چند عدد خواهد بود؟‬

‫(ج) با توجه به پاسخ گزینه (ب)‪ ،‬ضرایب مدل با وقفه ‪ 2‬را تخمین بزنید‪.‬‬

‫د‪ .‬بــا توجه به گزینه (ج) تفاوت نتایج به‏دســت آمده از تخمین مدل با وقفه ‪ 2‬و‬

‫وقفه ‪ 4‬را شرح دهید‪ .‬در این مورد به‏صورت ویژه به موضوع متغیرهای توضیحی‬

‫فراموش‏شده که در فصل ‪ 6‬پیرامون آن‌ها بحث شد توجه کنید‪.‬‬

‫انتخاب مرتبه وقفه‬

‫هنگام اســتفاده از مدل‏های با وقفه توزیع‏شده ضروری است که قبل از هر چیز‬ ‫تعداد وقفه‏های الزم برای اجــرای مدل را بدانیم‪ .‬برای مثال در مثال قبل‪ ،‬چرا‬ ‫باید فرض کنیم که تعداد وقفه در مدل ‪ 4‬اســت؟ چرا از مرتبه وقفه ‪ 6 ،3‬یا ‪8‬‬ ‫نباید استفاده کرد؟ این موضوع با مثال‏های فصول ‪ 4‬تا ‪ 7‬شباهت ندارد‪ .‬در آن‌جا‬ ‫قبل از کار با کامپیوتر و پردازش داده‏ها نمی‏توانستیم تشخیص بدهیم که کدام‬

‫‪231‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫از مجموعه داده‏های ‪ SAFETY.XLS‬که در مثال باال توضیح داده شد برای این تمرین‬

‫متغیر توضیحی در الگو باید وارد شود ولی در این‌جا سوال این است که برای‬ ‫متغیرهای توضیحی انتخاب‏شده باید چند وقفه را انتخاب کرد‪ .‬واضح است که‬ ‫تشــخیص تعداد وقفه مناسب یک موضوع صرفا آماری است که باید بر اساس‬ ‫مشخصه‏های آماری در مورد آن تصمیم‏گیری کرد‪.‬‬ ‫در اقتصادســنجی روش‏های متنوعی برای انتخاب تعداد وقفه بهینه وجود‬ ‫دارد‪ .‬ما در این فصل به یک روش مرســوم و ســاده می‏پردازیم که بر اســاس‬ ‫دانســته‏های فصل ‪ 5‬کتاب قابل دســتیابی اســت‪ .‬این روش از آزمون ‪ t‬برای‬ ‫‪ βq =0‬در تعیین تعداد وقفه اســتفاده می‏نمایــد‪ .‬روش عمومی برای این کار‬ ‫به این ترتیب اســت که الف‪ .‬ابتدا با یک وقفه بلند که می‏توانیم آن را ‪βqmax‬‬ ‫نام‏گذاری کنیم شــروع می‏کنیم و آزمون ‪ t‬را انجام می‏دهیم که آیا این ضریب‬ ‫برابر با صفر اســت( ‪) βq = 0‬؟ ب‪ .‬اگر این‌گونه بود‪ ،‬بیشــینه وقفه را کنار‬ ‫می‏گذاریــم و آزمون را مجددا برای‪ qmax = 1‬انجــام می‏دهیم‪ .‬ج‪ .‬اگر ضریب‬ ‫‪ βq −1 = 0‬بــود آن‌گاه مجدد آزمون را برای یک وقفه کمتر انجام می‏دهیم‪ .‬د‪.‬‬ ‫فرایند فوق را آن‌قدر تکرار می‏کنیم تا در نهایت به تعداد وقفه‏ای برسیم که قادر‬ ‫به رد فرضیه برابری با صفر ضریب شویم‪.‬‬ ‫روش انتخاب وقفه‏ای که در باال توضیح داده شد را می‏توانیم به‌شکل زیر‬ ‫و در چهار گام فرموله کنیم‪:‬‬ ‫گام نخست‪ .‬ابتدا بیشینه وقف ‏ه مورد نظر‪ ، qmax ،‬را انتخاب می‏کنیم‪.‬‬ ‫گام دوم‪ .‬الگوی با وقفه توزیعی زیر را برآورد می‏نماییم‪:‬‬ ‫‪max‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪232‬‬

‫‪max‬‬

‫‪Yt = α + β0 Xt + β1Xt −1 + … + βqmax Xt − qmax + et‬‬ ‫اگر ‪ p-value‬برای آزمون ‪0‬‬ ‫= ‪ βq‬کمتر از ســطح معناداری مورد انتظار‬ ‫بود‪ ،‬آن‌گاه به مرحله بعد نمی‏رویم و ‪ qmax‬را به‌عنوان وقفه انتخاب می‏کنیم‪ .‬اگر‬ ‫این‌گونه نبود به مرحله بعد می‏رویم‪.‬‬ ‫گام سوم‪ .‬مدل با وقفه توزیعی زیر را برآورد کنید‪.‬‬ ‫‪max‬‬

‫‪Yt = α + β0 Xt + β1Xt −1 + … + βqmax −1Xt − qax −1 + et‬‬

‫اگر ‪ p-value‬برای آزمون ‪0‬‬ ‫= ‪ βq −1‬کمتر از سطح معناداری مورد انتظار‬ ‫بود‪ ،‬آن‌گاه به مرحله بعد نمی‏رویم و ‪ qmax − 1‬را به‌عنوان وقفه انتخاب می‏کنیم‪.‬‬ ‫اگر این‌گونه نبود به مرحله بعد می‏رویم‪.‬‬ ‫گام چهارم‪ .‬مدل با وقفه توزیعی زیر را برآورد کنید‪.‬‬ ‫‪max‬‬

‫‪Yt = α + βt Xt + β1Xt −1 + ... + βqmax −2 Xt −qmax −2 + et‬‬ ‫اگر ‪ p-value‬برای آزمون ‪0‬‬ ‫= ‪ βq −2‬کمتر از سطح معناداری مورد انتظار‬ ‫بود‪ ،‬آن‌گاه به مرحله بعد نمی‏رویم و ‪ qmax − 2‬را به‌عنوان وقفه انتخاب می‏کنیم‪.‬‬ ‫اگــر این‌گونه نبود به مرحله بعد می‏رویم‪ .‬آنقدر این کار را تکرار می‏کنیم تا به‬ ‫تعداد وقفه بهینه برسیم‪.‬‬ ‫به‌خاطر داشته باشیم که در زمان کار کردن با مدل‏های با وقفه توزیعی‪ ،‬اگر تعداد‬ ‫مشاهدات در اصل برابر با ‪ T‬باشد‪ ،‬وقتی ‪ qmax‬انتخاب شود‪ ،‬تعداد مشاهدات برابر‬ ‫با ‪ T − qmax‬خواهد بود‪ .‬زمانی که وقفه‪ qmax − 1‬انتخاب شــود‪ ،‬تعداد مشاهدات‬ ‫‪ T − qmax + 1‬خواهد بود و به‌همین شکل انتخاب وقفه ‪ qmax − 2‬تعداد مشاهدات‬ ‫را به ‪ T − qmax + 2‬می‏رساند‪ .‬یعنی به اندازه تعداد وقفه‪ ،‬مشاهدات از دست می‏رود‪.‬‬ ‫پس الزم است همواره این نکته را در نظر داشته باشیم که انتخاب وقفه خیلی بلند‪،‬‬ ‫موجب کاهش زیاد مشاهدات خواهد شد‪.‬‬ ‫‪max‬‬

‫فرض کنید که در ابتدا بیشــینه وقفه را برای مدل با وقفه توزیعی ‪ 4‬در‬

‫نظر گرفته‏ایــم‪ .‬به این معنی که معتقدیم طول دوره ‪ 4‬ماه حداکثر زمان‬

‫مــورد انتظار برای اثرگذاری آموزش‏های ایمنی بر حوادث اســت‪ .‬بر‬ ‫اساس روشــی که در باال توضیح دادیم ابتدا مدل با وقفه توزیعی را با‬

‫وقفه ‪ 4‬برآورد می‏نماییم‪ .‬همان‏طور که در جدول ‪ 9-2‬مشاهده می‏شود‪،‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫مثال‪ :‬اثر دوره‏های آموزشی ایمنی بر حوادث (ادامه مثال قبل)‬

‫‪233‬‬

‫ضریــب مرتبط با وقفه ‪ 4‬اختالف معناداری با صفر ندارد چراکه اندازه‬ ‫‪ p-value‬برای متغیر ‪ Xt-4‬از ‪ 0/05‬بزرگ‌تر است و ما قادر به رد فرضیه‬ ‫‪ β4 =0‬نیســتیم‪ .‬بنابراین‪ ،‬وقفه ‪ 4‬را رها نموده و مدل را دوباره با وقفه‬

‫‪ 3‬اجرا می‏کنیم که نتیجه آن در جدول (‪ )9-3‬نشان داده شده است‪.‬‬ ‫جدول ‪ .9-3‬نتایج تخمین مدل با وقفه توزیعی اثر آموزش ایمنی بر حوادث‬ ‫‪ ‬‬

‫ضریب‬

‫انحراف‬ ‫معیار‬

‫‪t‬‬

‫‪p-value‬‬

‫عرض از مبدا ‪55/02 1643/18 90402/22‬‬

‫‪0/000‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حد باال در‬ ‫سطح ‪%95‬‬

‫‪93699/51 87104/94‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪Xt‬‬

‫‪-125/90‬‬

‫‪46/24‬‬

‫‪-2/72‬‬

‫‪0/0088‬‬

‫‪-218/69‬‬

‫‪-33/11‬‬

‫‪Xt-1‬‬

‫‪-443/49‬‬

‫‪45/88‬‬

‫‪-9/67‬‬

‫‪0/000‬‬

‫‪-535/56‬‬

‫‪-351/42‬‬

‫‪Xt-2‬‬

‫‪-417/61‬‬

‫‪45/73‬‬

‫‪-9/13‬‬

‫‪0/000‬‬

‫‪-509/38‬‬

‫‪-325/84‬‬

‫‪Xt-3‬‬

‫‪-179/90‬‬

‫‪46/25‬‬

‫‪-3/89‬‬

‫‪0/0003‬‬

‫‪-272/72‬‬

‫‪-87/09‬‬

‫‪234‬‬

‫همان‏طور که مشاهده می‏شود‪ p-value ،‬برای آزمون ‪ β3 =0‬تقریبا ‪0/0003‬‬ ‫اســت که بسیار کمتر از ‪ 0/05‬می‏باشــد‪ .‬پس ادامه فرایند را متوقف می‏کنیم و‬ ‫وقفه ‪ 3‬را برای مدل با وقفه توزیعی انتخاب می‏نماییم‪ .‬نتایج به‏دســت آمده در‬ ‫جدول ‪ 9-3‬تقریبا مشــابه جدول ‪ 9-2‬اســت و به‌همین دلیل از تکرار تفسیر‬ ‫ضرایب خودداری می‏کنیم‪.‬‬

‫مترین ‪9-2‬‬

‫از داده‏هــای ‪ SAFETY.XLS‬اســتفاده کنید که در آن ‪ T=60‬اســت و ‪ Y‬میزان‬

‫خســارت وارده در اثر حوادث را نشان می‏دهد و ‪ X‬ساعاتی که نیروی کار تحت‬ ‫آموزش ایمنی قرار گرفته‏اند‪ .‬فرض کنید که بیشینه وقفه مورد انتظار ‪ 6‬است که به‬

‫این ترتیب ‪ qmax = 6‬می‏شود‪ .‬روش انتخاب وقفه که در باال توضیح داده شد را‬ ‫اجرا کنید و طول وقفه صحیح را انتخاب کنید‪.‬‬

‫مترین ‪9-3‬‬

‫اقتصاددانان توسعه‪ ،‬عالقه‏مند به یافتن اثر تحصیالت و آموزش بر رشد اقتصادی‬

‫هستند‪ .‬در عین‏حال آن‌ها معتقدند زمان الزم برای ایجاد اثر مناسب و مثبت آموزش‬

‫بر رشد اقتصادی ‪ 5‬تا ‪ 10‬سال است‪ .‬برای روشن شدن این موضوع اطالعات زیر‬

‫را در نظــر بگیرید و بر اســاس آن گزارش مختصری در مــورد نحوه اثرگذاری‬ ‫مخارج انجام‏شده در تحصیالت ابتدایی بر رشد اقتصادی بنویسید‪.‬‬

‫داده‏های ‪ EDUC.XLS‬شامل داده‏های ســاالنه برای یک کشور از سال ‪ 1910‬تا‬ ‫‪ 1995‬است که شامل متغیرهای زیر می‏باشد‪.‬‬

‫اندازه‏گیری شده است‪.‬‬

‫‪ .X‬مخارج انجام‏شده در زمینه تحصیالت ابتدایی که مقیاس آن مخارج انجام‏شده‬

‫برای هر کودک زیر ‪ 16‬سال است‪.‬‬

‫خالصه فصل‬

‫‪ -1‬رگرسیونی که شــامل داده‏های سری‏زمانی است با دو مساله روبه‌رو است‬ ‫که در فصل‏های قبل با آن برخورد نداشــته‏ایم‪ .‬نخست آن‌که متغیرها می‏توانند‬ ‫بــا وقفه و در یکدیگر اثر بگذارند‪ .‬دوم آن‌که اگر متغیرها نامانا باشــند‪ ،‬امکان‬ ‫شکل‏گیری رگرسیون کاذب وجود خواهد داشت‪.‬‬ ‫‪ -2‬در یک مدل با وقفه توزیعی متغیر وابسته به متغیر توضیحی و وقفه‏های‬ ‫آن وابسته است‪.‬‬ ‫‪ -3‬چنانچه متغیرهای مورد اســتفاده در یک مدل با وقفه توزیعی مانا باشد‪،‬‬ ‫می‏توان از روش ‪ OLS‬برای تخمین ضرایب اســتفاده نمود و همچنین آماره‏ها‬ ‫و ‪ P-value‬برای تعیین سطح اطمینان و معناداری ضرایب قابل استفاده است‪.‬‬ ‫‪ -4‬مرتبــه وقفه در مدل با وقفه توزیعــی با روش‏های مختلفی قابل تعیین‬ ‫است که از آن جمله آزمون ‪ t‬است که با طوالنی‏ترین وقفه منطقی و مورد انتظار‬ ‫آغاز می‏گردد‪.‬‬

‫‪235‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫‪ .Y‬رشد تولید ناخالص داخلی (‪ )GDP‬است که به‏صورت درصد تغییر در هر سال‬

‫پیوست ‪ -9-1‬سایر مدل‏های با وقفه توزیعی‬

‫تحلیل داده‌های اقتصادی‬

‫‪236‬‬

‫مدل با وقفه توزیعی که در این فصل به آن پرداخته شــده است بسیار عمومی‬ ‫اســت‪ .‬در این مدل هیچ‏گونه قیدی بــرای مقدار ضرایب ‪ β0 .β1.….βq‬وجود‬ ‫ندارد‪ .‬در حالی‏که مدل‏های دیگری در ادبیات اقتصادسنجی وجود دارد که دارای‬ ‫وقفه‏های توزیعی هستند ولی برای مقادیر ضرایب قیودی در نظر می‏گیرند‪ .‬از‬ ‫آن‌جاکه کار کردن با این مدل‏ها تا حدودی (با اکسل) دشوار است‪ ،‬ما از بحث‬ ‫درباره آن‌ها در متن خودداری نمودیم‪.‬‬ ‫مدل‏های بسیاری هستند که برای توزیع وقفه‏ها قیودی را در نظر می‏گیرند‬ ‫که از آن جمله می‏توان به مدل وقفه‏های حســابی‪ ،1‬مد ‏ل وقفه‏های هندسی‪ 2‬و‬ ‫مدل کویک‪ 3‬اشاره نمود‪ .‬اما ما درباره جزئیات این مدل‏ها صحبت نمی‏کنیم‪ .‬یک‬ ‫مدل چندوجهی با وقفه توزیع‏شــده‪ 4‬یا وقفه آل ُمن‪ 5‬می‏تواند نماینده‏ای از همه‬ ‫مدل‏هایی از این دست باشد که در ادامه با شرح آن به اهم موضوعات مرتبط با‬ ‫این مدل‏ها آشنا خواهیم شد‪ .‬یک مدل وقفه توزیعی چندوجهی مشابه الگوهای‬ ‫معمولی با وقفه توزیعی است ولی قید زیر در آن در نظر گرفته می‏شود‪:‬‬ ‫‪βi = γ 0 + γ1i + γ 2i2‬‬

‫به این ترتیب ضرایب مربوط به وقفه‏های توزیع‏شده با یک تابع درجه دوم‬ ‫مقید می‏شــود‪ .‬البته تابع درجه دوم معروف‏ترین روش برای این مدل‏ها است‬ ‫ولی می‏توان از قیود دیگری نظیر تابع درجه ســوم هم استفاده نمود‪ .‬قید درجه‬ ‫دومی که در باال تعریف نمودیم دارای ســه ضریب جدید است ‪γ 0 . γ1.…. γ q‬‬ ‫که مقادیر آن را نمی‏دانیم که باید تخمین زده شــود‪ .‬توجه داشته باشید که اگر‬ ‫بتوانیم ‪ γ 0 . γ1‬و ‪ γ 2‬را به‏دست آوریم‪ ،‬می‌توانیم از آن‌ها برای یافتن مقادیر ‪ βi‬برای‬ ‫‪ i=1.2. … . q‬استفاده نماییم‪ .‬هنگامی که بتوانیم ضرایب ثانویه فوق را به‏دست‬ ‫آوریم می‏توانیم آن‌ها را مانند قبل تفسیر کنیم‪.‬‬ ‫امــا چگونه می‏توانیم ضرایــب ‪ γ 0 . γ1‬و ‪ γ 2‬را برآورد کنیم؟ بــرای این کار‬ ‫‪3- Koyck model‬‬

‫ ‪2- Geometric lag model‬‬ ‫‪5- Almon lag‬‬

‫‪1- Arithmetic lag model‬‬ ‫ ‬ ‫‪4- Polynomial distributed lag‬‬

‫می‏توانیم رگرســیون ‪ OLS‬اجرا نماییم اما بــا متغیرهای توضیحی غیرمعمولی‬ ‫برای ‪ q=3‬که مدل وقفه توزیعی آن به شکل زیر است‪:‬‬ ‫‪Yt = α + β0 Xt + β1Xt −1 + β2 Xt − 2 + β3 Xt −3 + et‬‬

‫اگر بتوانیم ‪ βi‬بر اساس قید درجه دوم را در عبارت باال جایگزین کنیم‪ ،‬مدل‬ ‫با وقفه توزیع چندوجهی زیر صورت خواهد یافت‪:‬‬ ‫که در آن؛‬

‫‪Yt = α + β0 Vt + γ1Wt + γ 2 Z t + et‬‬

‫‪Wt =Xt −1 + 2Xt − 2 + Xt −3 Vt =Xt + Xt −1 + Xt − 2 + Xt −3‬‬

‫‪،‬‬

‫به دیگر ســخن ما می‏توانیم به ضرایب ‪ γ 0 . γ1‬و ‪ γ 2‬از طریق رگرســیونی‬ ‫دســت یابیم که ‪ Y‬را به ‪ V، W‬و ‪ Z‬وابسته می‏کند که البته متغیرهای توضیحی‬ ‫‪ V، W‬و ‪ Z‬باید ساخته شود‪.‬‬ ‫حال می‏توانیم دریابیم که مدل‏های با وقفه توزیعی چندوجهی چیســت و‬ ‫چگونه باید برآورد شــود‪ .‬اما هنوز مشــخص نیســت که در اساس چرا باید‬ ‫از چنین مدل‏های اســتفاده کنیم‪ .‬دو دلیــل عمده برای اعمال قیودی نظیر قیود‬ ‫چندوجهی در مدل‏های با وقفه توزیعی وجود دارد‪:‬‬ ‫‪ -1‬مدل‏هــای با وقفه توزیعی چندوجهی نیاز به بــرآورد ضرایب کمتری‬ ‫دارند‪ .‬در حالتی که قید درجه دوم به‌شــکل باال وجود دارد‪ ،‬همواره سه ضریب‬ ‫‪ γ 0 . γ1‬و ‪ γ 2‬وجود خواهد داشــت‪ .‬در حالی‏که در مدل‏های با وقفه توزیعی‬ ‫‪ q+1‬ضریب باید برآورد شوند‪ .‬اما در عمل ممکن است الزم باشد که ‪ q‬بزرگ‬ ‫باشد (برای مثال در استفاده از داده‏های ماهانه ممکن است به ‪ q=12‬نیاز داشته‬ ‫باشــیم تا تمامی وقفه‏های یک سال را در اختیار داشته باشیم)‪ .‬تعیین وقفه‏های‬ ‫بلند در حالتی که تعداد مشــاهدات زیاد نیســت می‏تواند برآورد ضرایب را با‬ ‫مشکل مواجه کند‪.‬‬ ‫‪ -2‬مدل‏های با وقفه توزیعی ممکن است با مشکل هم‌خطی روبه‌رو باشند‬ ‫(به فصل ‪ 6‬مراجعه کنید)‪ .‬برای مثال ممکن اســت ‪ Xt‬و ‪ Xt −1‬همبستگی باالیی‬

‫‪237‬‬

‫فصل ‪ :9‬رگرسیون با وقفه زمانی‪ :‬الگوهای با وقفه توزیعی‬

‫‪Z t =Xt −1 + 4Xt − 2 + 9Xt −3‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪238‬‬

‫داشته باشــند‪ .‬برای مثال فرض کنید که ‪ X‬نرخ بهره است‪ .‬فرض کنید که نرخ‬ ‫بهره با سرعت اندکی در طول زمان تغییر می‏یابد که موجب می‏شود ‪ Xt‬و ‪Xt −1‬‬ ‫بسیار شبیه (یا حتی یکســان) باشند‪ .‬این امر موجب همبستگی شدید و ایجاد‬ ‫هم‌خطی می‏گردد‪ .‬اما مدل‏های با وقفه توزیعی چندوجهی معموال دچار مشکل‬ ‫هم‌خطی نمی‏شــود‪ .‬برای مثال در مثال بــاال ‪ V، W‬و ‪ Z‬مثال‏هایی از متغیرهای‬ ‫توضیحی هستند که همبسته نیستند‪.‬‬ ‫به غیر از دو موضوع فوق‪ ،‬بســیاری از حاالت با مشکل نامانایی متغیرهای‬ ‫توضیحی روبه‌رو هســتند که همچنان اســتفاده از مدل‏های با وقفه توزیعی را‬ ‫دچار مشــکل می‏کند‪ .‬این موضوع را در فصل ‪ 10‬مورد بحث قرار خواهیم داد‬ ‫و نشان خواهیم داد که بدون اعمال قید چگونه می‏توان در چنین وضعی مشکل‬ ‫هم‌خطی را حل نمود‪.‬‬ ‫نخستین منطقی که برای استفاده از قید چندوجهی وجود دارد زمانی است‬ ‫که تعداد مشــاهدات اندک باشد‪ .‬اما در حالتی که تعداد قابل توجهی داده‏های‬ ‫توضیحی وجود دارد که امروزه اغلب داده‏های اقتصاد کالن از آن برخوردارند‪،‬‬ ‫نیازی به اعمال چنین قیدی نیســت‪ .‬از سوی دیگر‪ ،‬اعمال قیود برای ضرایب‬ ‫می‏تواند نتایج مدل را منحرف نماید به خصوص اگر قیدهای اعمال‏شده صحیح‬ ‫نباشــد‪ .‬به‌خاطر داشته باشید که ‪ βi‬اثر تغییر متغیر توضیحی بر متغیر توضیحی ‪i‬‬ ‫دوره قبل بر مقدار کنونی متغیر وابســته نشان می‏دهد‪ .‬اما ضرایب مدل با وقفه‬ ‫توزیعــی چند وجهی می‏باید قید درجــه دوم را هم در نظر بگیرد که در نتیجه‬ ‫ممکن است مقدار این ضرایب تفاوت بسیاری داشته باشند‪.‬‬ ‫در مجموع باید بگوییم که شرایط خاص و اندکی وجود دارد که ما را ناچار‬ ‫به اعمال قید در مدل‏های با وقفه توزیعی نماید و به‌همین دلیل در این فصل بر‬ ‫این موضوع تاکید نکردیم‪.‬‬

‫فصل ‪10‬‬ ‫تحلیل رسی‏‏زمانی تک متغیره‬

‫‪239‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫در فصل ‪ ،9‬مباحثی پیرامون الگوهای با وقفه توزیعی مطرح شــد‪ .‬این مدل‏ها‬ ‫نوع ساده‏ای از رگرسیون‏های قابل استفاده با داده‏های سری‏زمانی هستند‪ .‬مهم است‬ ‫به‌خاطر داشته باشیم که در این الگوها فرض بر این است که متغیر وابسته‪ ، Yt ،‬به‬ ‫متغیر توضیحی ‪ Xt‬و وقفه‏های آن ‪ x t −1, x t −2 ,…, x t −q‬وابســتگی دارد‪ .‬این مدل‏ها‬ ‫به‌عنوان گام نخست در درک مفاهیم مهم سری‏زمانی مفید است‪ .‬الگوهای با وقفه‬ ‫توزیعی در موارد بسیاری کاربرد دارد اما در دو حالت زیر دچار نقایصی است‪:‬‬ ‫‪ )1‬متغیر وابسته‪ ، Yp ،‬به وقفه‏های خودش هم وابسته باشد‪ .‬همان‏طور که می‏تواند‬ ‫همزمان به ‪ x t −1, x t −2 ,…, x t −q‬وابسته باشد‪ )2 .‬متغیرهای مدل نامانا باشند‪.‬‬ ‫در این فصــل و فصل بعد‪ ،‬ابزارهای مختلفی را جهــت مواجهه با هر دو‬ ‫مشــکل فوق ارائه خواهیم داد و همچنین به‏صورت کامل مفهوم «نامانایی» را‬ ‫تشریح خواهیم نمود‪ .‬برای ســادگی متغیر ‪ X‬را از مدل حذف نموده و تنها به‬ ‫‪ Y‬می‏پردازیم‪ .‬یعنی به‌اصطالح آماری در این فصل به «ســری‏زمانی تک‏متغیره»‬ ‫می‏پردازیــم‪ .‬همان‏طور که این اصطالح نشــان می‏دهد‪ ،‬با یــک متغیر و یک‬ ‫سری‏زمانی (برای مثال ‪ )Y=GDP‬روبه‌رو هستیم‪ .‬همان‏طور که در ادامه خواهیم‬ ‫دید‪ ،‬مهم اســت که پیــش از کار کردن با چند ســری‏زمانی‪ ،‬مفاهیم مرتبط با‬ ‫ک سری‏زمانی را بیاموزیم‪.‬‬ ‫پردازش ی ‏‬

‫مثال الف ‪ 10-1‬درآمد خانوارها در آمریکا‬

‫در شــکل ‪ 10-1‬ســری‏زمانی لگاریتم طبیعی درآمد شخصی یا همان‬

‫درآمــد خانوارهای آمریکایی طی دوره زمانی فصل اول ‪ 1954‬تا فصل‬ ‫چهارم ‪ 1944‬نشان داده شده است‪ .‬یعنی ‪Yt‬‬

‫درآمد شخصی آمریکا برای‬

‫‪ t=1954Q1… .1994Q4‬است‪ .‬داده‏ها در فایل ‪ INCOME.XLS‬در‬

‫دسترس قرار دارند‪ .‬مقیاس داده‏ها میلیون دالر است‪.‬‬

‫توجه دارید که ســری‏زمانی مورد بررســی در طول زمان با نرخ تقریبا‬

‫یکسانی رشد یافته است‪ .‬البته نوسانات معدودی را (برای مثال کاهش‬

‫یکباره درآمد شخصی ناشی از رکود در میانه ‪ 1970‬و اوایل ‪ )1980‬در‬ ‫تحلیل داده‌های اقتصادی‬

‫آن می‏توان دید اما در مجموع به نظر می‏رسد که سری‏زمانی مانند یک‬

‫خط راست به سمت باال صعود کرده است‪ .‬این حرکت یکنواخت (در‬

‫‪240‬‬

‫این مثال به ســمت باال) را روند می‏نامند‪ .‬بسیاری از متغیرهای اقتصاد‬

‫کالن (مانند ‪ ،GDP‬ســطح قیمت‏ها‪ ،‬تولید صنعتــی‪ ،‬مصرف‪ ،‬مخارج‬ ‫دولتی) روندهای این‌چنینی را نشان می‏دهند‪.‬‬

‫در همین قســمت می‏توان به‏راحتی مفهوم تفاضل‏گیری را توضیح داد‪.‬‬

‫به‏طور کلی‬

‫اگر ) ‪1.….T‬‬

‫=‪ Yt ( t‬ســری‏زمانی یک متغیر باشــد‪ ،‬آن‌گاه‬

‫‪ ∆Yt = Yt − Yt −1‬تفاضل مرتبه نخســت آن خواهد بود و ‪ ∆Yt‬اندازه‬

‫تغییرات یا رشــد این متغیر را در طول زمان نشان خواهد داد‪ .‬چنان‌چه‬

‫از سری‏زمانی‬

‫اصلی ‪Yt‬‬

‫لگاریتم طبیعی بگیریم‪ ،‬آن‌گاه ‪ ∆Yt‬درصد تغییر‬

‫ســری‏زمانی اصلی را از زمان ‪ t‬تا ‪ t-1‬نشــان خواهد داد‪.‬‬

‫را «دلتا ‪ »Y‬یا «تغییرات ‪ »Y‬می‏نامند‪ .‬به‌همین شــکل ‪Yt −1‬‬

‫معموال ‪∆Yt‬‬

‫را‬

‫« ‪Yt‬‬

‫با یک‬

‫وقفــه»‪« ،‬وقفه ‪ »Y‬یا در این مثال «وقفه نخســت درآمــد خانوارها» یا‬

‫می‏نامند‪ .‬در نمودار ‪ 10-2‬تغییرات درآمد شخصی آمریکا با استفاده از‬

‫داده‏های ‪ INCOME.XLS‬رسم شده است‪.‬‬

‫نمودار ‪ 10-2‬تفاوت بسیاری با نمودار ‪ 10-1‬دارد‪ .‬روندی که در نمودار‬

‫‪ 10-1‬مشاهده می‏شد در این‌جا ناپدید شده است که البته این موضوع را‬ ‫در ادامه تشریح خواهیم کرد‪ .‬نمودار ‪ 10-2‬نشان می‏دهد که رشد درآمد‬

‫شــخصی در هر فصل به‏طور متوسط ‪ 1‬درصد بوده است ولی تغییرات‬ ‫قابل توجهی در رشد درآمد سرانه فصلی وجود داشته است‪ .‬در برخی‬

‫دوره‏های رکودی این متغیر منفی شده است و در دوره‏های رونق رشد‬ ‫درآمد شخصی به ‪ %3‬یا ‪ %4‬هم رسیده است‪.‬‬

‫‪241‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫جزئیات مربوط به لگاریتــم در عمومی کتاب‏های معمولی اقتصاد ریاضی‬ ‫تشریح شده است و همچنین در فصل دوم و چهارم این کتاب نیز به آن پرداخته‬ ‫شده است (به‏ویژه مباحث مربوط به رگرسیون‏های غیرخطی را مالحظه نمایید)‪.‬‬ ‫این پاورقی برای یادآوری این موضوع اســت‪ .‬در اقتصاد کالن مرسوم است که‬ ‫سری‏های زمانی دارای رشد در طول زمان را تحت لگاریتم طبیعی مورد بررسی‬ ‫‪ Y‬با نرخ رشد ثابتی در طول زمان تغییر یابد‪ ،‬آن‌گاه‬ ‫قرار دهند‪ .‬اگر سری‏زمانی ‏‬ ‫ســری‏زمانی )‪ ln(Y‬به مانند یک خط راســت صورت‏بندی خواهد شد‪ .‬به‏طور‬ ‫کلی در این حالت متغیر )‪ ln(Y‬رفتار بهتری خواهد داشــت‪ .‬توجه داشته باشید‬ ‫که در رگرسیون لگاریتم متغیرها‪ ،‬ضرایب مربوطه تفسیر کشش خواهند داشت‪.‬‬ ‫همچنیــن این موضوع قابل نشــان دادن اســت که ) ‪ ln ( Yt ) − ln ( Yt −1‬به‏طور‬ ‫تقریبی برابر با درصد تغییر ‪ Y‬طی دوره ‪ t‬و ‪ t-1‬است‪ .‬به همه این دالیل مناسب‬ ‫اســت که در اغلب موارد از لگاریتم ســری‏های زمانی استفاده شود‪ .‬همچنین‬ ‫توجه داشته باشید که در بسیاری از گزارش‏ها و مقاالت در همان ابتدا توضیح‬ ‫داده می‏شــود که متغیرها به‏صورت لگاریتمی در نظر گرفته شده‏اند و در ادامه‬ ‫دیگر عالمت ویژه تبدیل لگاریتمی را نمی‏نویســند‪ .‬یعنی برای مثال در مباحث‬

‫باال ممکن اســت نویسنده به جای آن‌که مدام تکرار کند «لگاریتم طبیعی درآمد‬ ‫ملی در آمریکا» برای اختصار بگوید «درآمد ملی در آمریکا»‪ .‬ما از همین سنت‬ ‫در متن استفاده کرده‏ایم‪.‬‬ ‫نمودار ‪ .10-1‬درآمد خانوارهای آمریکایی‬

‫تحلیل داده‌های اقتصادی‬

‫‪242‬‬

‫نمودار ‪ .10-2‬تغییر درآمد خانوارهای آمریکایی‬

‫مترین ‪10-1‬‬

‫فایل ‪ INCOME.XLS‬شامل لگاریتم درآمد خانوارها و مصرف خانوارها می‏باشد‪.‬‬ ‫(الف) درآمد خانوارها و تغییرات آن را محاسبه و توصیف کنید‪ .‬این فرایند را برای‬

‫اطالعات مصرف خانوارها نیز تکرار نمایید‪.‬‬

‫(ب) نمودار مربوط به مصرف شــخصی و تغییرات مصرف شــخصی را به مانند‬ ‫نمودارهای ‪ 10-1‬و ‪ 10-2‬رسم کنید‪.‬‬

‫‪ -1‬براي مثال اگر درآمد خانوارها در دوره جاري ‪ 1000‬واحد باشد‪ ،‬با تقريب مناسبي مي‏توانيد حدس بزنيد‬ ‫كه كه در فصل آينده درآمد خانوارها چقدر خواهد شد‪ .‬اگر در دوره ركود باشيم يكي دو درصد پايين‏تر و‬ ‫اگر در دوره رونق باشيم‪ ،‬يكي دو درصد باالتر‪ .‬اما كمتر پيش مي‏آيد كه شما انتظار داشته باشيد تا درآمد‬ ‫خانوارها يكباره به ‪ 500‬يا ‪ 1500‬واحد برســد‪ .‬به عبارتي مقــدار متغير در دوره آينده تا حدود زيادي به‬ ‫مقدار متغير در دوره جاري نزديك است‪ .‬اين قابليت به دليل همبستگي باالي متغير شكل گرفته است‪.‬‬

‫‪243‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫یکی دیگر از ویژگی‏های سری‏زمانی که در داده‏های مقطعی معموال وجود‬ ‫ندارد‪ ،‬وجود همبســتگی بین مشاهدات اســت‪ .‬برای مثال درآمد خانوارها در‬ ‫امروز وابســتگی شدیدی به درآمد خانوارها در فصل گذشته دارد‪ .1‬در مباحث‬ ‫فصل ‪ 9‬نشــان داده شد که متغیر «درآمد خانوارها» با متغیر «درآمد خانوارها با‬ ‫یک وقفه» همبســتگی دارد‪ .‬در حقیقت اگر ضریب همبستگی این دو متغیر را‬ ‫محاســبه نماییم به عدد ‪ 0/999716‬خواهیم رســید! اما اگر ضریب همبستگی‬ ‫را بــرای «تغییرات درآمد خانوارها» و «تغییــرات درآمد خانوارها با یک وقفه»‬ ‫محاسبه کنیم به عدد ‪ -0/00235‬خواهیم رسید‪ .‬این یافته را می‏توان به وضوح‬ ‫حس کرد‪ .‬متغیرهای کالن اقتصادی نظیر ‪ ،GDP‬مصرف و نظایر این‌ها در طول‬ ‫زمــان به کندی تغییر می‏یابند‪ .‬حتی در دور‏ه رکود عمیق‪ ،‬این متغیرها به ندرت‬ ‫کاهــش ‪ 1‬تا ‪ 2‬درصدی را در هر فصل تجربه می‏کنند‪ .‬به‌همین دلیل متغیرهای‬ ‫ســری‏زمانی به شباهت زیادی به مقادیر دوره قبل دارند و از این رو همبستگی‬ ‫زیادی نیز بین آن‌ها برقرار است‪ .‬اما این موضوع در مورد تغییرات سری‏زمانی‬ ‫صادق نیست‪ .‬تغییرات درآمد خانوارها در این فصل و فصل قبلی ممکن است‬

‫تفاوت بســیاری داشته باشد و از این رو در مثال باال ضریب همبستگی نزدیک‬ ‫به صفر بوده است‪.‬‬ ‫نمودار ‪ 10-1‬و ‪ 10-2‬درآمد خانوارها و تغییرات آن را برای کشور آمریکا نشان‬ ‫می‏دهد‪ .‬با این حال می‏توان گفت که سری‏زمانی متغیرهای کالن اقتصادی در اغلب‬ ‫کشورها مشابه این دو نمودار است‪ .‬یعنی سری‏زمانی اصلی ‪ Yt‬شکلی مشابه روند‬ ‫دارد و همبستگی شدیدی بین مشاهدات آن وجود دارد ولی در سوی مقابل ‪ ∆Yt‬هم‬ ‫رفتار مشابه روند ندارد و هم وابستگی شدیدی بین مشاهدات در طول زمان وجود‬ ‫ندارد‪ .‬این موضوعات در زمان اســتفاده از سری‏های زمانی در رگرسیون اهمیت‬ ‫بسیاری می‏یابد به‏ویژه زمانی که با مساله نامانایی روبه‌رو باشیم‪ .‬در ادامه این فصل‬ ‫ابزارهای مناسب برای مواجهه با مساله فوق را توضیح خواهیم داد‪.‬‬ ‫تحلیل داده‌های اقتصادی‬

‫تابع خودهمبستگی‬

‫‪244‬‬

‫همبســتگی که در باال توضیح داده شد‪ ،‬مثال ســاده‏ای از خودهمبستگی است‬ ‫(همبستگی بین یک متغیر با وقفه خودش)‪ .‬تابع خودهمبستگی یک ابزار عمومی‬ ‫اســت که پژوهشــگران از طریق آن ویژگی‏های یک سری‏زمانی را تشخیص‬ ‫می‏دهند‪ .‬بر اساس مواردی که در فصل ‪ 9‬پیرامون شیوه نوشتار ذکر شد‪ ،‬از این‬ ‫پس «همبستگی بین متغیر ‪ Y‬و وقفه نخست ‪ »Y‬را با ‪ r1‬نشان خواهیم داد‪.‬‬

‫مترین ‪10-2‬‬

‫فایل ‪ INCOME.XLS‬شــامل داده‏های درآمد خانوارهــا و مصرف خانوارها در‬ ‫آمریکا می‏باشد‪.‬‬

‫(الف) برای هر دو ســری‏زمانی نمودار همبســتگی ‪ XY‬بین متغیر و متغیر با یک‬ ‫وقفه را رسم کنید‪.‬‬

‫(ب) برای هر یک از این متغیرهای مقدار ‪ r1‬را محاسبه نمایید‪.‬‬

‫(ج) تفاضل مرتبه نخســت هر متغیر را به‏دست آورده و موارد الف و ب را تکرار‬ ‫کنید‪ .‬ضریب همبستگی به‏دست آمده و نمودار ‪ XY‬را چگونه تفسیر خواهید کرد؟‬

‫نکته‬

‫‪ -1‬عالمت ‪ r1‬نشان‏‏دهنده همبستگی بین ‪ Y‬و یکم ‪ Y‬است‪ .‬اگر داده‏ها از ‪ t=1‬شروع‬ ‫شود‪ ،‬آن‌گاه باید همبستگی بین ‪ Y1‬و ‪ Y0‬بررسی گردد‪ .‬از آن‌جاکه اطالعات مربوط‬ ‫به ‪ Y0‬وجود ندارد پس داده‏ها از ‪t=2‬‏ آغاز می‏گردد‪ .‬به‌همین شکل اگر قصد محاسبه‬ ‫‪ rp‬داشته باشیم‪ ،‬سری داده‏ها از ‪ t=p+1‬شروع خواهد شد‪ .‬فرض کنید متغیر ‪ W‬را‬ ‫به‏صورت ‪ Wt=Yt‬برای ‪ t=p+1, ... ,T‬تعریف کرده باشــیم و متغیر ‪ Z‬را هم ‪Zt=Yt‬‬ ‫برای ‪ t=p+1, ...,T‬تعریف نماییم‪ .‬توجه دارید که تعداد مشاهدات ‪ T-p‬عدد شده‬ ‫است‪ .‬بنابراین زمانی که به دنبال محاسبه‪ rp‬باشیم‪ ،‬در عمل ‪ p‬مشاهده اول را به‌دور‬ ‫انداخته‏ایم‪ .‬اگر به‌دنبال محاسبه خودهمبستگی در وقفه‏های بسیار طوالنی باشیم‪،‬‬ ‫آن‌گاه مشاهدات اندکی برای پردازش باقی می‏ماند‪ .‬به‏صورت حدی اگر‪ p=T‬باشد‪،‬‬ ‫تعداد مشاهدات قابل بررسی صفر خواهد شد‪ .‬این نکته به ما می‏آموزد که ‪ p‬را خیلی‬ ‫بزرگ انتخاب نکنیم‪ .‬این موضوع به شــکل تقریبا مشابه در فصل ‪ 9‬و در انتخاب‬ ‫تعداد وقفه برای مدل با وقفه توزیعی نیز بیان شده بود‪.‬‬ ‫‪ -2‬یک تابع خودهمبستگی شامل خودهمبستگی با وقفه‏های مختلف می‏باشد‪.‬‬ ‫به‏صورت تئوریک‪ ،‬برای محاسبه ‪ r1‬داده‏ها شامل ‏‪ t=2, …,T‬می‏باشد‪ .‬برای محاسبه‬

‫‪245‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫به‏طور کلی‪ ،‬ممکن اســت نیاز به محاسبه همبستگی بین ‪ Y‬و ‪ Y‬با ‪ P‬وقفه‬ ‫داشته باشیم‪ .‬برای مثال مشــاهدات ما از درآمد خانوارها فصلی است‪ .‬در این‬ ‫حالت‪ ،‬همبســتگی بین ‪ Y‬و ‪ Y‬با وقفه ‪ P=4‬بیانگر همبستگی بین درآمد فعلی‬ ‫خانوارها و درآمد ســال گذشــته خانوارها می‏باشد (با توجه به این‌که هر سال‬ ‫شــامل ‪ 4‬فصل است)‪ .‬در این صورت ضریب همبستگی را با ‪ rp‬نشان خواهیم‬ ‫داد و آن را «خودهمبستگی با وقفه‪ »P‬می‏نامیم‪ .‬تابع خودهمبستگی مرتبط با ‪rp‬‬ ‫تابعی اســت که مقادیر ضریب همبستگی را برای ‪ p=1,…,P‬نشان می‏دهد که‬ ‫در آن ‪ P‬بیشــینه وقفه است و معموال سعی می‏شود تا مقدار آن اندکی طوالنی‬ ‫باشــد (برای مثال ‪ P=12‬برای داده‏های ماهانه)‪ .‬تابع خودهمبســتگی یکی از‬ ‫پرکاربردترین ابزارها برای تجزیه و تحلیل سری‏های زمانی تک‏متغیره می‏باشد‪.‬‬

‫‪ r2‬داده‏ها شــامل‏‪ t=3,…,T‬می‏باشــد و در نهایت برای آخرین وقفه داده‏ها شامل‬ ‫‏‪ t=P+1,…,T‬می‏باشــد‪ .‬این به‌آن معنی است که برای محاسبه خودهمبستگی در‬ ‫هر وقفه تعداد داده‏ها متفاوت می‏شــود‪ .‬به‌همین دلیل در روش استاندارد محاسبه‬ ‫خودهمبستگی ابتدا باید بیشــینه وقفه (‪ )P‬را انتخاب نماییم و سپس همه مقادیر‬ ‫خودهمبستگی را با سری مشاهدات ‪ t=P + 1, … ,T‬محاسبه کنیم‪.‬‬

‫ادامه مثال ‪ 10-1‬درآمد خانوارها در آمریکا‬

‫جدول ‪ 10-1‬تابع خودهمبستگی ‪( Y‬درآمد خانوارهای آمریکا) و ‪∆Y‬‬

‫تغییرات درآمد خانوارها را نشــان می‏دهد‪ .‬برای این محاسبه از بیشینه‬

‫تحلیل داده‌های اقتصادی‬

‫وقفه ‪ p = 12‬استفاده شده است‪ .‬این اطالعات همچنین در نمودارهایی‬ ‫که محور ‪X‬های آن تعداد وقفه و محور ‪Y‬های آن خودهمبستگی است‬

‫‪246‬‬

‫(نمودارهای ‪ 10-3‬و ‪ )10-4‬نشان داده شده است‪.‬‬ ‫جدول ‪ .10-1‬تابع خودهمبستگی‬ ‫تغییرات درآمد خانوارها‬

‫درآمد خانوارها‬

‫طول وقفه (‪)P‬‬

‫‪-0 .0100‬‬

‫‪0 .9997‬‬

‫‪1‬‬

‫‪0 .0121‬‬

‫‪0 .9993‬‬

‫‪2‬‬

‫‪0 .1341‬‬

‫‪0 .9990‬‬

‫‪3‬‬

‫‪0 .0082‬‬

‫‪0 .9986‬‬

‫‪4‬‬

‫‪-0 .1562‬‬

‫‪0 .9983‬‬

‫‪5‬‬

‫‪0 .0611‬‬

‫‪0 .9980‬‬

‫‪6‬‬

‫‪-0 .0350‬‬

‫‪0 .9978‬‬

‫‪7‬‬

‫‪-0 .0655‬‬

‫‪0 .9975‬‬

‫‪8‬‬

‫‪0 .0745‬‬

‫‪0 .9974‬‬

‫‪9‬‬

‫‪0 .1488‬‬

‫‪0 .9972‬‬

‫‪10‬‬

‫‪0 .0330‬‬

‫‪0 .9969‬‬

‫‪11‬‬

‫‪0 .0363‬‬

‫‪0 .9969‬‬

‫‪12‬‬

‫نکته بارز جدول فوق این اســت که خودهمبستگی درآمد خانوارهای‬

‫آمریکا تقریبا نزدیک به ‪ 1‬است که این موضوع حتی در وقفه‏های بلند‬ ‫هم تکرار شــده است‪ .‬در حالی‏که خودهمبســتگی در تغییرات درآمد‬ ‫خانوارها بسیار کوچک است‪ .‬رفتار آن تا حدودی تصادفی است و در‬

‫مجموع آن را می‏توان صفر در نظر گرفت‪ .‬این موضوع تا حدود زیادی‬ ‫برای اغلب ســری‏های زمانی اقتصاد کالن وجود دارد‪ :‬خودهمبستگی‬

‫برای ســری‏زمانی اصلی نزدیک یک اســت ولی خودهمبستگی برای‬ ‫تفاضل سری‏زمانی به مراتب کوچکتر (اغلب نزدیک به صفر) می‏باشد‪.‬‬

‫‪ Y‬در طول زمان از همبستگی شدیدی برخوردار است‪ .‬حتی‬ ‫‪ -1‬متغیر ‏‬

‫درآمد خانوارها در ســه فصل قبل همبستگی زیادی به درآمد خانوارها‬ ‫در دوره جاری دارد‪ .‬اما این موضوع در مورد ‪ ∆Y‬وجود ندارد‪ .‬رشــد‬

‫درآمد خانوارها در فصل جاری تقریبا هیچ همبســتگی به رشد درآمد‬ ‫خانوارها در فصل قبل ندارد‪.‬‬

‫‪ -2‬اگر مقادیر گذشــته «درآمــد خانوارها» را بدانیــم آن‌گاه خواهیم‬

‫توانست با تقریب خوبی مقادیر بعدی درآمد خانوارها را حدس بزنیم‪.‬‬ ‫در حالی‏که‪ ،‬دانستن مقادیر گذشته «تغییرات درآمد خانوارها» کمکی در‬ ‫پیش‏بینی مقادیر بعدی آن نخواهد کرد‪.‬‬

‫‪« Y‬گذشته را به‌خاطر دارد» چراکه با گذشته همبستگی‬ ‫‪ -3‬به‏طور کلی ‏‬ ‫شــدیدی دارد‪ .‬به‌همین خاطر در رفتار ‪ Y‬حافظه بلندمدت وجود دارد‪.‬‬

‫در حالی‏که ‪ ∆Y‬فاقد چنین ویژگی است‪.‬‬

‫‪ -4‬متغیر ‪ Y‬نامانا است و سری ‪ ∆Y‬مانا است‪ .‬ما هنوز به‏صورت رسمی‬

‫تعریفی از واژه نامانایی و مانایی که اهمیت بســیاری در اقتصادسنجی‬

‫‪247‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫در ادامه نکاتی برای درک بهتر خودهمبستگی ذکر شده است‪:‬‬

‫دارند ارائه نکردیم‪ .‬در ادامه توضیحات بیشتری در مورد آن‌ها خواهیم‬

‫داد ولی تا این‌جا به‌خاطر داشته باشید که سری‏های زمانی با مشخصات‬ ‫تابع خودهمبستگی ‪ Y‬نامانا هستند‪.‬‬

‫نمودار ‪ .10-3‬تابع خودهمبستگی تغییرات درآمد خانوارها‬

‫تحلیل داده‌های اقتصادی‬

‫‪248‬‬

‫نمودار ‪ .10-4‬تابع خودهمبستگی تغییرات درآمد خانوارها‬

‫مترین ‪10-3‬‬

‫از داده‏های درآمد خانوارها (‪ )Y‬در فایل ‪ INCOME.XLS‬استفاده کنید‪.‬‬

‫(الف) تابع خودهمبستگی را برای ‪ Y‬و ‪ ∆Y‬با بیشینه وقفه ‪ 4‬محاسبه نمایید‪.‬‬ ‫(ب) نمودار توابع خودهمبستگی را رسم کنید‪.‬‬ ‫(ج) نتایح به‏دست آمده در بخش الف و ب را تفسیر کنید‪.‬‬

‫مدل خودرگرسیونی برای رسی‏‏های زمانی تک‏متغیره‬

‫‪Yt = α + φYt −1 + et‬‬

‫که با توجه به توضیحات قبلی دوره زمانی قابل استفاده در این الگو دوره زمانی‬ ‫‪ t = 2,...,T‬دارد‪ .‬این الگو کامال شبیه الگوی با وقفه توزیعی است که در فصل قبل‬ ‫توضیح داده‏ایم با این تفاوت که متغیر توضیحی در این رگرسیون ‪ Yt −1‬است‪ .‬تابع‬ ‫خودهمبستگی و مفهوم نامانایی در تعیین مقدار ‪ φ‬در رگرسیون )‪ AR(1‬نقش اصلی‬

‫‪249‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫تابع خودهمبســتگی یک ابــزار کاربردی برای درک کلی از مشــخصات یک‬ ‫ســری‏زمانی اســت‪ .‬با این حال در فصل ســوم و چهارم بحث شــده بود که‬ ‫همبســتگی محدودیت‏هایی دارد و از این رو استفاده از رگرسیون نسبت به آن‬ ‫ارجحیت دارد‪ .‬در این‌جا هم همان دالیل حاکم است و همان محدودیت‏ها در‬ ‫تابع خودهمبستگی نیز وجود دارد‪ .‬از این رو نیازمند طراحی الگو‏هایی هستیم‬ ‫تا رابطه یک متغیر با وقفه‏هایش را بدون این محدودیت‏ها نشان دهد‪ .‬در ادبیات‬ ‫ل گرفته است ولی‬ ‫آماری روش‏های مختلفی برای تحلیل یک ســری‏زمانی شک ‏‬ ‫یکی از رایج‏ترین آن‌ها اســتفاده از رگرســیون است که می‏توانیم آن را الگوی‬ ‫خودرگرسیونی بنامیم‪ .‬همان‏طور که نام الگو نشان می‏دهد‪ ،‬این یک رگرسیون‬ ‫است که متغیر توضیحی آن وقفه‏های متغیری هستند که خود متغیر وابسته است‬ ‫(یعنی رگرســیونی بین یک متغیر با وقفه‏های خودش)‪ .‬عبارت خودرگرسیونی‬ ‫معموال به‏صورت خالصه «‪ »AR‬نامیده می‏شود‪.‬‬ ‫ما بحث خود پیرامون الگوی خودرگرسیونی را با مدلی آغاز می‏کنیم که یک‬ ‫متغیر توضیحی (یعنی یک وقفه) داشته باشد‪ .‬آن را )‪ AR(1‬می‏نامیم‪:‬‬

‫ایفا می‏کنند‪ .‬برای درک این موضوع سه حالت مختلف برای رگرسیون )‪ AR(1‬با سه‬ ‫مقدار مختلف برای ‪ φ‬را به‏صورت مصنوعی ایجاد می‏کنیم‪ .‬این سه مقدار ‪φ =0 ،‬‬ ‫‪ φ =0.8‬و ‪ φ =1‬است‪ .‬مقدار ‪ α‬برای هر سه سری‏زمانی یکسان و معادل ‪0/01‬‬ ‫است و برای هر سه سری‏زمانی خطای یکسانی را در نظر گرفته‏ایم‪.‬‬ ‫نمودار ‪.10-5‬‬

‫سری‏زمانی )‪AR (1‬‬

‫با ‪φ =0‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪250‬‬

‫ســری‏زمانی )‪ AR (1‬نوعی رفتار تصادفی با نوسانات حول یک میانگین که‬ ‫حدود ‪ 0.01‬است را نشــان می‏دهد‪ .‬در حقیقت این نمودار بسیار شبیه نمودار‬ ‫‪ 10-2‬است که تغییرات درآمد ملی را تصویر می‏نماید‪ .‬نمودار ‪ 10-7‬هم بسیار‬ ‫شــبیه نمودار ‪ 10-1‬است که سری‏زمانی درآمد ملی را نشان می‏دهد‪ .‬اما نمودار‬ ‫‪ 10-6‬چیزی بین دو نمودار با رفتار تصادفی ‪ 10-5‬و نمودار با روند قوی ‪10-7‬‬ ‫اســت‪ .‬سه نمودار فوق نشــان‏دهنده رفتارهایی است که ممکن است یک مدل‬ ‫)‪ AR (1‬داشــته باشد که البته در اقتصاد کالن عمومیت هم دارد‪ .‬به ازای مقادیر‬ ‫مختلف ‪ ، φ‬این مدل‏ها می‏توانند شــکل‏های متنوعی بگیرند که برای مدل‏سازی‬ ‫رشد متغیرهای اقتصاد کالن و یا رفتار توام با روند آن‌ها یا شرایط بینابینی قابل‬ ‫استفاده است‪.‬‬

‫نمودار ‪ .10-6‬سری‏زمانی )‪ AR (1‬با ‪φ =0 / 8‬‬

‫‪251‬‬

‫اما باید توجه داشــت که ‪ φ =1‬به شــرایطی گفته می‏شــود که آن را نامانا‬ ‫می‏نامیم‪ .‬همین نکته ما را قادر می‏سازد تا الاقل برای الگوهای )‪ AR (1‬تعریف‬ ‫دقیق‏تری از مانایی و نامانایی ارائه کنیم‪ .‬در الگوهای می‏توانیم بگوییم که ‪ Y‬مانا‬ ‫است اگر ‪ φ < 1‬و نامانا است اگر ‪ φ =1‬باشد‪ .‬حالت ممکن دیگر این است که‬ ‫‪ φ > 1‬باشد که این مورد بسیار به ندرت در اقتصاد رخ می‏دهد و مربوط به‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫نمودار ‪ .10-7‬سری‏زمانی )‪ AR (1‬با ‪φ =1‬‬

‫شرایطی است که سری‏زمانی رفتار انفجاری‪ 1‬از خود نشان دهد‪ .‬شواهد اندکی‬ ‫(مانند ابرتورم‪ )2‬برای چنیــن رفتاری وجود دارد و به‌همین دلیل در این کتاب‬ ‫پیرامون آن توضیحی نخواهیم داد‪ .‬یک اثبات ریاضی برای ویژگی‏های )‪AR (1‬‬ ‫و نحوه رابطه آن با موضوع نامانایی در پیوست ‪ 10-1‬قابل مشاهده است‪.‬‬

‫مترین ‪10-4‬‬

‫از داده‏هــای ‪ FIG95.XLS، FIG96.XLS‬و ‪ FIG97.XLS‬کــه از آن‌ها در رســم‬ ‫نمودارهای ‪ 10-5‬تا ‪ 10-7‬استفاده شده است برای حل تمرین‏های زیر استفاده کنید‪:‬‬

‫(الف) تابع خودهمبستگی را برای هر سری‏زمانی و با حداکثر وقفه ‪ 4‬محاسبه نمایید‪.‬‬

‫(ب) یافته‏های قســمت (الف) را با تمرین ‪ 10-3‬مرتبط کنید‪ .‬بر روی این سوال‬

‫تحلیل داده‌های اقتصادی‬

‫تمرکز نمایید که آیا الگوی )‪ AR (1‬خواهد توانســت یک سری‏زمانی اقتصاد کالن‬ ‫مثل مصرف را توضیح دهد‪.‬‬

‫‪252‬‬

‫نامانایی در مقابل مانایی رسی‏های زمانی‬

‫در قسمت قبل مفهوم «نامانایی» و «مانایی» را بدون هیچ‏گونه تعریف خاصی مورد‬ ‫بررســی قرار دادیم‪ .‬همان‏طور که خواهیم دید‪ ،‬تفاوت قائل شدن بین سری‏زمانی‬ ‫مانا و نامانا بسیار مهم است‪ .‬برای تعریف مشخص و دقیق این مفاهیم باید برخی‬ ‫موضوعات خاص آماری را مورد بررســی قرار دهیم که از هدف این کتاب خارج‬ ‫است‪ .‬اما برای درک بهتر این مفاهیم‪ ،‬تعاریفی در ادامه ارئه می‏گردد‪.‬‬ ‫به‏طور کلی‪ ،‬نامانایی به معنی هر چیزی اســت که مانا نیســت‪ .‬اما معموال‬ ‫اقتصاددانان به نوع خاصی از نامانایی توجه دارند که در بسیاری از سری‏زمانی‏های‬ ‫اقتصاد کالن وجود دارد و آن «نامانایی ریشــه واحد» است‪ .‬این موضوع را در‬ ‫ادامه شرح خواهیم داد ولی در این‌جا می‏توانیم برای سادگی عنوان کنیم که در‬ ‫الگوی )‪ AR (1‬ریشه واحد به معنی ‪ φ =1‬است‪ .‬در ادامه پنج تفاوت عمده بین‬ ‫‪2- hyperinflation‬‬

‫‪1- Explosive behavior‬‬

‫که در آن ‪ ρ = ∅ − 1‬اســت‪ .‬بنابراین اگر ‪ ∅ =1‬آن‌گاه ‪ ρ =0‬اســت‬ ‫و معادله قبل را می‏توان به تنهایی برای ‪ ∆Yt‬از نو نوشــت که به معنی نوســان‬ ‫‪ ∆Yt‬حول ‪ α‬است‪ .‬در ادامه به‌خاطر داشته باشید که برای آزمون وجود ریشه‬ ‫واحد می‏توانیم ‪ ρ =0‬را آزمون نماییم‪ .‬از آن‌جاکه مانا بودن سری‏زمانی به معنی‬ ‫‪ −1 < φ < 1‬است پس می‏توان گفت یک سری‏زمانی در صورتی مانا است که‬ ‫‪ ρ < 0‬باشد‪ .‬از این پس این قید را شرط مانایی می‏نامیم‪.‬‬ ‫حــال یک الگوی )‪ AR (1‬را در نظر بگیرید کــه در آن ‪( φ =1‬یا به‌عبارتی‬ ‫‪ ) ρ =0‬و ‪ α =0‬است‪ .‬در این حالت می‏توانیم الگوی را به شکل زیر بنویسیم‪:‬‬

‫‪1- Difference stationary‬‬

‫‪253‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫سری‏زمانی دارای ریشه واحد یا سری‏زمانی مانا برای متغیر ‪Y‬عنوان شده است‪:‬‬ ‫‪ -1‬در یک الگوی )‪ AR (1‬اگر ‪ φ =1‬باشــد‪ ،‬آن‌گاه ‪ Y‬دارای ریشــه واحد‬ ‫است‪ .‬اگر ‪ φ < 1‬باشد آن‌گاه ‪ Y‬مانا است‪.‬‬ ‫‪ -2‬اگر ‪ Y‬دارای ریشه واحد باشد‪ ،‬آن‌گاه خودهمبستگی‏های آن نزدیک به‬ ‫یک خواهد بود و با افزایش وقفه مقدار آن‏ها به شدت کاهش نمی‏یابد‪.‬‬ ‫‪ -3‬اگر ‪ Y‬دارای ریشه واحد باشد‪ ،‬آن‌گاه دارای حافظه بلند مدت است در‬ ‫حالی‏که سری‏زمانی مانا حافظه بلندمدتی ندارد‪.‬‬ ‫‪ -4‬اگر ‪ Y‬دارای ریشــه واحد باشد‪ ،‬آن‌گاه رفتاری مانند روند از خود نشان‬ ‫می‏دهد (به‏ویژه اگر ‪ α‬مخالف صفر باشد‪).‬‬ ‫‪ -5‬اگر ‪ Y‬دارای ریشــه واحد باشــد‪ ،‬آن‌گاه ‪ ∆Y‬مانا خواهد بود‪ .‬به‌همین‬ ‫دلیل ســری‏زمانی‏های دارای ریشه واحد گاهی با عبارت تفاضال مانا‪ 1‬شناخته‬ ‫می‏شوند‪.‬‬ ‫مفهوم نکته آخر شــاید با عبارت زیر روشــن‏تر شود‪ .‬اگر دو سمت معادله‬ ‫)‪ AR (1‬را منهای ‪ Yt-1‬نماییم‪ ،‬خواهیم داشت‪:‬‬ ‫‪∆Yt = α + ρYt −1 + e t‬‬

‫=‬ ‫‪Yt Yt −1 + et‬‬

‫الگوهای اینچنینی را گام تصادفی‪ 1‬می‏نامند‪ .‬چون ‪ φ =1‬است‪ Yt ،‬دارای ریشه‬ ‫واحد و نامانا اســت‪ .‬این الگوها کاربرد بســیاری در بازارهای سهام دارند‪ .‬قیمت‬ ‫سهام امروز برابر است با قیمت سهام دیروز بعالوه (یک مقدار غیرقابل پیش‏بینی)‬ ‫جزءخطا‪ .‬اگر قیمت ســهام از گام تصادفی تبعیت نکند آن‌گاه قیمت ســهام قابل‬ ‫پیش‏بینی می‏گردد و ســرمایه‏گذاران امکان آربیتراژ‪ 2‬خواهند داشت‪ .‬به‌همین دلیل‬ ‫این یک اعتقاد عمومی است که فرصت‏های آربیتراژی از این دست بسیار کم رخ‬ ‫می‏دهند و در اکثر مواقع قیمت دارایی‏های قابل مبادله (مثل سهام‪ ،‬نرخ ارز و نظایر‬ ‫آن‌ها) از گام تصادفی تبعیت می‏کند‪ .‬این قسمت یادآور این نکته است که نامانایی‬ ‫در بسیاری از سری‏های زمانی مالی و اقتصاد کالن وجود دارد‪.‬‬ ‫تحلیل داده‌های اقتصادی‬

‫‪254‬‬

‫ادامه مثال کاربردی درآمد ملی در آمریکا‬

‫الگوی )‪ AR (1‬یک الگوی رگرســیونی اســت و ما می‏توانیم از روش‬

‫‪ OLS‬بــرای رگرس کردن متغیر ‪ Y‬بر روی وقفه ‪ Y‬اســتفاده کنیم‪ .‬اگر‬ ‫∧‬

‫∧‬

‫این‌چنین کنیم آن‌گاه ‪ α =0 / 039‬و ‪ φ =0 / 996‬خواهد شد‪ .‬برآورد‬ ‫∧‬ ‫‪ OLS‬از ضریب ‪ φ‬برای یــک الگوی )‪ AR (1‬به ندرت دقیقا برابر با ‪1‬‬

‫می‏شود اما این مقدار می‏تواند به ‪ 1‬نزدیک باشد همان‏طور که در برآورد‬ ‫رگرسیون برای ‪ Y‬این‌چنین شده است‪.‬‬

‫اگر ‪ ∆Yt‬را بــر روی ‪ Yt −1‬با روش ‪ OLS‬رگرس کنیــم‪ ،‬مقدار برابر با‬ ‫‪ -0/004‬خواهد شد (که بســیار نزدیک به صفر است) و انتظار ما هم‬ ‫∧‬

‫∧‬

‫این بوده است که ‪ ρ = φ− 1‬باشد‪.‬‬

‫‪1- Random Walk‬‬

‫‪ -2‬يعني سرمايه‏گذاران خواهند توانست به سرعت سهام‏هاي با سود بيشتر را جايگزين سهام‏هايي با سود‬ ‫كمتر نمايند‪.‬‬

‫مترین ‪10-5‬‬

‫از داده‏هــای ‪ FIG95.XLS، FIG96.XLS‬و ‪ FIG97.XLS‬کــه از آن‌ها در رســم‬ ‫نمودارهای ‪ 10-5‬تا ‪ 10-7‬استفاده شده است برای حل تمرین‏های زیر استفاده کنید‪:‬‬

‫(الف) برآورد ‪ OLS‬برای مقادیر ‪ ρ‬و ‪ φ‬را با توجه به الگوی )‪ AR (1‬محاسبه نمایید‪.‬‬ ‫(ب) با توجه به پاسخ (الف) نشان دهید که در کدام سری‏زمانی ریشه واحد وجود دارد‪.‬‬ ‫(ج) اقدامات (الــف) و (ب) را برای متغیر مصرف که در فایل ‪INCOME.XLS‬‬

‫وجود دارد تکرار نمایید‪.‬‬

‫بسط الگوهای )‪AR(1‬‬

‫و نخستین وقفه آن است‪ .‬با این وجود امکان دارد که وقفه‏های بیشتری از ‪ Y‬در‬ ‫ردیــف متغیرهای توضیحی قرار گیرند‪ .‬به عبارتی الگوی )‪ AR (1‬را می‏توان به‬ ‫شکل زیر تا وقفه ‪ p‬بسط داد و آن را ) ‪ AR (p‬نامید‪:‬‬ ‫‪Yt = α + φ1Yt −1 + … + φp Yt −p + et‬‬

‫که دوره زمانی مدل ‪ t = p + 1,…,T‬خواهد بــود‪ .‬قصد نداریم تا در مورد‬ ‫ویژگی‏های این مدل توضیحی دهیم اما شــما را به این نکته توجه می‏دهیم که‬ ‫این مدل بسیار شبیه به الگوی )‪ AR (1‬است ولی عمومیت بیشتری دارد‪ .‬با این‬ ‫مدل می‏توان بســیاری از سری‏زمانی‏های اقتصاد کالن را مدل‌سازی کرد‪ .‬حال‬ ‫اگر به‌مانند قبل دو طرف معادله فوق را منهای ‪ Yt −1‬کنیم‪ ،‬با یک سری تبدیالت‬ ‫جبری می‏توانیم به عبارت زیر دست یابیم‪:‬‬ ‫‪∆Yt = α + ρYt −1 + γ1∆Yt −1 + … + γ p −1∆Yt −p +1 + et‬‬

‫که ضرایب این رگرســیون ‪ ρ, γ1,..., γ p‬تابع ســاده‏ای از( ‪ ) φ1,..., φp‬می‏باشد‪.‬‬ ‫برای مثال‪ ρ = φ1 + … + φp − 1‬اســت‪ .‬توجه داشــته باشــید که این مدل هم‬ ‫) ‪ AR (p‬اســت و تنها شــیوه نوشــتارش متفاوت اســت‪ .‬شــاید متوجه شده‬ ‫که‪∆Yt −p +‬در معادله نخســت به‪ ∆Yt −p +1‬در معادله دوم تبدیل شــده است‬ ‫باشــید ‪1‬‬

‫‪255‬‬

‫فصل ‪ :10‬تحلیل سری‏‏زمانی تک متغیره‬

‫پیش از این توضیح دادیم که الگوهای )‪ AR (1‬یک رگرسیون ساده است بین ‪Y‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪256‬‬

‫= ‪ .) ∆Yt −p +1‬هــر دو معادلــه دارای تعداد یکســانی ضریب‬ ‫( ‪∆Yt −p +1 − Yt −p‬‬ ‫(‪ )p + 1‬اســت که در معادله اول ( ‪ ) φp ,..., φ1, α‬و در معادله دوم ( ‪،... ، γ1 ، α ، ρ‬‬ ‫‪ ) γ p −1‬است‪ .‬نگذارید تا این موضوع شما را گمراه کند‪ ،‬این تنها شیوه متفاوتی از‬ ‫جایگذاری ضرایب در معادله اصلی است‪.‬‬ ‫نکته قابل توجه این اســت که معادله فوق همچنان یک رگرسیون است و‬ ‫‪ ρ =0‬نشان می‏دهد که الگوی )‪ AR(p‬سری‏زمانی‪ Y‬دارای ریشه واحد است‬ ‫و اگر ‪ −2 0‬باشد‪ ،‬در صورتی که نوسانات در دوره قبل به شکل غیرعادی‬ ‫باال بوده باشد‪( ،‬یعنی ‪ ∆y 2t−1‬زیاد باشد)‪ ،‬این موجب باال رفتن نوسانات در دوره‬ ‫فعلی خواهد شد‪ .‬در سوی مقابل‪ ،‬پایین بودن نوسانات دوره قبل‪( ،‬یعنی ‪∆y 2t−1‬‬ ‫کم باشد) به کم شدن نوسانات فعلی می‏انجامد‪ .‬به عبارت دیگر‪ ،‬اگر نوسانات‬ ‫باال باشــد‪ ،‬باال خواهد ماند و اگر پایین باشــد‪ ،‬پایین خواهد ماند‪ .‬به‏طور قطع‪،‬‬ ‫حضور جمله انحراف‪ ، et ،‬به این معنی اســت که امکان رخداد استثناء در این‬ ‫رفتار وجود دارد‪ .‬اما به‏طور کلی‪ ،‬این الگو نشان می‏دهد که ما شاهد فواصل یا‬ ‫خوشه‏هایی در طول زمان خواهیم بود که نوسانات در آن کم است یا بالعکس‬ ‫فواصلی که در آن نوســانات زیاد است‪ .‬در مطالعات تجربی قیمت دارایی‏های‬ ‫مالی چنین رفتاری بســیار مرسوم اســت‪ .‬برای مثال به یاد آورید که در فصل‬ ‫‪ 2‬نمــوداری از نرخ پوند به دالر را (نمودار ‪ 2-1‬را ببینید) مورد بررســی قرار‬ ‫دادیم‪ .‬اگر به این نمودار با دقت نگاه کنید مشــاهده می‏نمایید که در یک دوره‬ ‫طوالنی این نرخ تغییرات اندکی داشــته است (برای مثال دوره ‪ 1967-1949‬و‬ ‫دوره ‪ )1996-1993‬و در یک دوره طوالنی‏تر (‪ )1992-1985‬این نرخ نوسانات‬ ‫شدیدتری داشته است‪.‬‬ ‫مبحث فوق به الگوی )‪ AR(1‬اشاره داشته است ولی همین منطق را می‏توان‬ ‫به الگوی )‪ AR(p‬هم بســط داد‪ .‬همه مفاهیمی که در فصل ‪ 10‬در مورد چنین‬

‫الگوهایی ذکر کردیم در این‌جا هم صادق اســت‪ .‬تنها تفاوت این است که در‬ ‫تفســیر به جای استفاده از خود ســری‏زمانی می‏باید به نوسانات آن بپردازیم‪.‬‬ ‫تمامی تکنیک‏های آماری که در فصل‪ 10‬ذکر کردیم در این‌جا هم کاربرد خواهد‬ ‫داشت‪ .‬چنانچه سری‏زمانی مانا باشد (یعنی ‪ φ < 1‬در وضعیت )‪ ،)AR(1‬آن‌گاه‬ ‫برآورد ‪ OLS‬و ‪P-value‬‏ها می‏تواند به‏صورت اســتاندارد آن مورد تفسیر قرار‬ ‫گیرند‪ .‬آزمون ریشــه واحد نیز می‏تواند بــا روش دیکی‪-‬فولر صورت پذیرد‪.‬‬ ‫به‏طور خالصه‪ ،‬هیچ چیز آماری جدیدی در این‌جا وجود ندارد‪.‬‬ ‫نمودار ‪ .12-1‬لگاریتم قیمت سهام‬

‫تحلیل داده‌های اقتصادی‬

‫‪306‬‬

‫مثال ‪ 12-1‬الف‪ .‬نوسانات در بازار سهام‬

‫فایل ‪ STOCK.XLS‬که شامل داده‏های قیمت سهام یک شرکت است (‪ )Y‬که برای‬ ‫چهار سال و به‏صورت هفتگی انتخاب شده است (یعنی ‪ .)T=208‬از داده‏ها لگاریتم‬ ‫گرفته می‏شود‪ .‬نمودار ‪ 12-1‬نمودار سری‏زمانی آن را نشان می‏دهد‪.‬‬ ‫شــما می‏توانید ببینید که قیمت سهام در طول زمان رو به افزایش است‪ .‬اما‬ ‫دوره‏های متعددی وجود دارد که قیمت ســهام افت داشــته است‪ .‬قیمت سهام‬ ‫در ابتدا ‪ 24/53‬پوند بوده اســت که در آخرین ماه به ‪ 30/14‬پوند افزایش یافته‬

‫‪307‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫است‪ .‬در نمودار ‪ 12-2‬نموداری از ‪ ∆y‬که درصد تغییرات ‪ Y‬است ترسیم شده‬ ‫است‪ .‬در این نمودار تفاضل مرتبه اول داده‏هایی که در نمودار ‪ 12-1‬بوده است‬ ‫در ‪ 100‬ضرب شده است‪ ،‬یعنی ‪. 100 × ln ( Yt ) − ln ( Yt −1 ) ‬‬ ‫بررسی این نمودار نشان می‏دهد که به غیر از چند هفته که قیمت سهام افت‪،‬‬ ‫تغییرات قیمت این ســهام در عموم هفته‏ها مثبت بوده اســت‪ .‬در اواسط دوره‬ ‫مطالعه (حدود هفته‏های ‪ 90‬تا ‪ ،)110‬تغییرات عمده‏ای در جهت مثبت و منفی‬ ‫رخ داده است‪ .‬برای مثال در هفته‏های ‪ 94‬و ‪ 96‬قیمت سهام بیش از ‪ 1/5‬درصد‬ ‫رشــد داشته است که این رشد بسیار بزرگی در طول یک هفته به‏شمار می‏آید‪.‬‬ ‫چنانچه چنین رشــدی برای یک سال دوام بیاورد‪ ،‬قیمت سهام دو برابر خواهد‬ ‫شد (بازدهی ‪ 1/5‬درصد در هفته معادل بازدهی ‪ 100‬درصد در سال است)‪ .‬اما‬ ‫میزان افت قیمت ســهام در هفته‏های ‪ 93 ،92‬و ‪ 95‬تقریبا به همان اندازه بوده‬ ‫است‪ .‬به‏طور کلی نوسان قیمت سهام در این دوره بسیار بیشتر از سایر دوره‏ها‬ ‫بوده اســت‪ .‬به منظور بررسی نوسانات قیمت سهام‪ ،‬انحراف قیمت از میانگین‬ ‫داده‏های نمودار ‪ 12-2‬که تفاضل داده‏ها را نشــان می‏دهد را محاســبه و از آن‬ ‫مربع می‏گیریم‪ .‬یعنی باید اقدامات زیر را انجام دهیم‪:‬‬ ‫‪ -1‬میانگین تغییرات قیمت سهام را محاسبه کنید‪ 0/099 :‬درصد‬ ‫‪ -2‬مقدار باال را از تمامی تغییرات قیمت سهام کم کنید‪.‬‬ ‫‪ -3‬مربع نتیجه باال را محاسبه کنید‪.‬‬ ‫نمودار ‪ 12-3‬نتیجه این ســری را نشــان می‏دهد که می‏تواند معیاری برای‬ ‫نوســانات باشد‪ .‬توجه دارید که نوسانات به توان دوم رسیده است و نمی‏تواند‬ ‫منفی باشــد‪ .‬شکلی که در نمودار ‪ 12-3‬نشــان داده می‏شود حاکی از افزایش‬ ‫شــدید نوسانات در هفته‏های ‪ 90‬تا ‪ 97‬است و البته همین اتفاق کم و بیش در‬ ‫هفته‏های ‪ 4-8‬و ‪ 101-107‬نیز رخ داده است‪ .‬این نمودار تصویری از تغییرات‬ ‫نوسانات در طول زمان را نشان می‏دهد‪.‬‬ ‫یک روش مشخص برای بررسی رفتار نوسانات‪ ،‬استفاده از الگوی )‪AR(p‬‬ ‫است که در فصل ‪ 10‬آن را یاد گرفته‏ایم‪ .‬با آزمون‏هایی که در آن فصل ذکر شده‬

‫بود‪ ،‬الگوی )‪ AR(1‬برای نوســانات این سهام انتخاب شده است که در جدول‬ ‫‪ 12-1‬نشان داده می‏شود‪.‬‬

‫‪ ‬‬

‫ضریب‬

‫انحراف معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫عرض از مبدا‬

‫‪0/024‬‬

‫‪0/015‬‬

‫‪1/624‬‬

‫‪0/106‬‬

‫‪-0/005‬‬

‫‪0/053‬‬

‫‪0/737‬‬

‫‪0/047‬‬

‫‪15/552‬‬

‫‪0/000‬‬

‫‪0/643‬‬

‫‪0/830‬‬

‫‪∆y 2t−1‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪308‬‬

‫جدول ‪ .12-1‬الگوی )‪ AR(1‬نوسانات متغیر مورد بررسی‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حد باال در‬ ‫سطح ‪%95‬‬

‫می‏توان مشاهده نمود که در نوسانات هفته گذشته‪ ،‬قدرت توضیح دهندگی باالیی‬ ‫برای نوسانات هفته کنونی دارند‪ .‬ضریب مربوطه معنی دار است و ‪R2 = 0 / 54‬‬ ‫که نشــان می‏دهد ‪ 54‬درصد از تغییرات نوسانات را می‏توان با نوسانات هفته قبل‬ ‫توضیح داد‪ .‬به‌نظر می‏رسد که خوشه‏های نوسانی در این الگو وجود داشته باشد‪ .‬اگر‬ ‫نوســانات در یک دوره باال باشد‪ ،‬این امر موجب آن می‏شود که نوسانات در دوره‬ ‫بعد هم باال باشد‪ .‬این اطالعات ممکن است برای سرمایه‏گذارانی که قصد خرید این‬ ‫سهام را دارند‪ ،‬بسیار ارزنده باشد‪ .‬فرض کنید که سرمایه‏گذاری مشاهده نموده است‬ ‫که ‪0‬‬ ‫= ‪ ∆y t −1‬و در نتیجه ‪0‬‬ ‫= ‪ . ∆y 2t−1‬به بیان دیگر‪ ،‬قیمت سهام به اندازه متوسط‬ ‫تغییرات‪ ،‬در دوره ‪ t-1‬تغییر می‏یابد‪ .‬سرمایه‏گذار می‏خواهد پیش‏بینی نوسانات در‬ ‫دوره ‪ t‬را انجام دهد تا بتواند قضاوت مناسبی نسبت به ریسک سهام داشته باشد‪ .‬با‬ ‫توجه به این‌که جمله خطا غیرقابل پیش‏بینی است‪ ،‬سرمایه‏گذار می‏تواند آن را نادیده‬ ‫بگیرد (چراکه می‏تواند مثبت یا منفی باشــد)‪ .‬الگوی )‪ AR(1‬منسوب به نوسانات‬ ‫به‌شکل زیر است‪:‬‬ ‫‪∧2‬‬ ‫=‪∆ Y‬‬ ‫‪0.024 + 0.737∆y 2t −1‬‬ ‫‪t‬‬

‫چون ‪0‬‬ ‫= ‪ ، ∆y 2t−1‬سرمایه‏گذار پیش‏بینی می‏کند که نوسانات در دوره ‪ t‬برابر‬ ‫= ‪ ∆y 2t−1‬باشد‪ ،‬او پیش‏بینی خواهد کرد‬ ‫با ‪ 0/024‬خواهد بود‪ .‬اگر مشاهده او‪1‬‬ ‫که نوسانات در دوره ‪ t‬برابر با ‪( 0/761‬یعنی ‪ )0/024+0/737‬می‏شود‪ .‬این‌گونه‬ ‫اطالعات می‏تواند به مدلسازی مالی و رفتار سرمایه‏گذار کمک کند‪.‬‬

‫نمودار ‪ .12-2‬درصد تغييرات قیمت سهام‬

‫‪309‬‬

‫مترین ‪12-1‬‬

‫فایل ‪ NYSE.XLS‬شــامل داد‏ه درصد تغییرات قیمت سهام ( ‪ ) ∆Y‬طی ماه‏های‬ ‫‪ 1952‬تا ‪ 1995‬در بازار سهام نیویورک (‪ )NYSE‬است‪ .‬برای کسانی که به‏جزئیات‬

‫دقیق توجه دارند باید بگوییم که داده‏ها‪ ،‬میانگین وزنی ارزش بازدهی سهام هستند‬ ‫که با اســتفاده از شــاخص قیمت مصرف کننده‪ ،‬تورم‏زدایی شده‏اند‪ .‬توجه داشته‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫نمودار ‪ .12-3‬نوسانات قيمت سهام‬

‫باشید که این داده‏ها به شکل تفاضل ثبت شده‏اند و انحراف از میانگین گرفته نشده‬

‫است (یعنی ( ‪ ∆Y‬است و برابر با ‪ Y‬یا ‪ ∆y‬نیست)‪.‬‬

‫(الف) یک نمودار سری‏زمانی از این سری‏زمانی رسم کنید و درباره رفتار آن نظر بدهید‪.‬‬

‫(ب) بر اســاس مطالبی که در فصل ‪ 10‬یاد گرفته‏اید‪ ،‬ویژگی‏های این سری‏زمانی را‬ ‫بررسی نمایید‪ .‬تابع خودهمبستگی آن چگونه است؟ اگر الگوی )‪ AR(p‬ساخته شود‬ ‫مقدار ‪ p‬چقدر است؟ آیا ( ‪ ∆Y‬مانا است؟ آیا بازدهی سهام در ‪ NYSE‬قابل پیش‏بینی‬

‫است (یعنی آیا بازدهی‏های قبلی کمکی به پیش‏بینی مقادیر کنونی می‏کند)؟‬

‫ج‪ .‬فرض کنید که سری‏زمانی اصلی‪ ،Y ،‬از رفتار گام تصادفی پیروی می‏نماید به شکلی‬

‫که )‪ AR(0‬الگوی مناسبی برای ‪ ∆Y‬می‏باشد (شاید با وجود عرض از مبدا)‪ .‬نوسانات‬ ‫این متغیر را همان‏طور که در این فصل شرح داده شده است محاسبه نمایید‪.‬‬

‫(د) نمودار نوسانات سری‏زمانی را ترسیم نمایید‪ .‬آیا به نظر می‏رسد که خوشه‏های‬

‫تحلیل داده‌های اقتصادی‬

‫نوسانی در آن وجود داشته باشد؟‬

‫‪310‬‬

‫(ه) الگوی )‪ AR(p‬نوسانات را به‏دست آورید به شکلی که متناسب با ویژگی‏های‬ ‫آن باشد‪ .‬آیا نوسانات در دوره‏های گذشته می‏تواند به پیش‏بینی نوسانات در دوره‬ ‫جاری کمک نماید؟‬

‫الگوی خودهمبستگی با ناهمسانی رشطی واریانس (‪)ARCH‬‬

‫گروه الگوهای ‪( ARCH‬شــامل محلقــات آن) احتماال معروف‌ترین الگو برای‬ ‫بررســی نوســانات مالی می‏باشــد‪ .‬این الگوها را می‏توان با کار بر روی یک‬ ‫رگرسیون معروف معرفی نمود‪:‬‬ ‫‪Yt = α + β1X1t + β2 X2t + … + βk Xkt + et‬‬

‫توجه داشــته باشــد که این الگو شــامل بســیاری از الگوهــای دیگر‬ ‫اســت که پیــش از ایــن بــا آن کار کرده‏ایم‪ .‬برای مثــال اگر ‪X jt = Yt − j‬‬ ‫باشــد‪( ،‬یعنی متغیر توضیحی همان وقفه متغیر وابســته اســت) آن‌گاه این‬ ‫الگــوی به‏صــورت ‪ AR‬در خواهد آمــد‪ .‬وضعیت جالب دیگر آن اســت‬ ‫کــه اگر هیــچ متغیر توضیحــی در مجموع وجود نداشــته باشــد‪( ،‬یعنی‬

‫) ‪σ2t =var ( et‬‬

‫به بیان دیگر‪ σ2t ،‬عالمت نوسانات خواهد بود که برابر است با واریانس جمله‬ ‫انحراف می‏باشد‪ .‬این عبارت کاربرد بسیار مهمی در بازارهای مالی دارد (مانند قیمت‬ ‫گذاری ابزارهای مالی)‪ .‬توجه داشــته باشید که ما اجازه تغییر نوسانات را در مدل‬ ‫می‏دهیم‪-‬موضوع مهمی که در قسمت قبل در مورد آن بحث شد‪.‬‬ ‫الگوی ‪ ARCH‬با وقفه ‪ p‬که به‏صورت )‪ ARCH(p‬نشان داده می‏شود‪ ،‬فرض‬ ‫می‏کند که نوسانات امروز میانگینی از مربع انحرافات گذشته است‪:‬‬ ‫‪σ2t = γ 0 + γ1e2t −1 + … + γ p e2t −p‬‬

‫که در آن ‪ γ1.…. γ p‬ضرایبی هســتند که با بسته‏های نرم‏افزاری قابل برآورد‬ ‫می‏باشــند‪ .‬در وضعیتی که متغیر توضیحی وجود ندارد و متغیر وابسته برابر با‬ ‫‪ ∆y t‬است‪ ،‬داریم؛‬ ‫‪σ2t = γ 0 + γ1∆y 2t −1 + … + γ p ∆y 2t −p‬‬

‫که الگوی نوسانات ‪ ARCH‬وابسته به مقادیر اخیر ‪ ∆y 2t‬است‪ .‬معیاری که در‬ ‫ابتدای فصل برای نوســانات در نظر گرفتیم‪ .‬این مدل شباهت زیادی به الگوی‬ ‫خودهمبستگی دارد ( به‌همین دلیل بخشی از الگوی ‪ ARCH‬شامل ‪ AR‬می‏شود)‬ ‫و الگوهای ‪ ARCH‬دارای ویژگی‏های مشــترکی با ‪ AR‬هستند به‏جز این‌که در‬ ‫‪ ARCH‬تنها نوسانات سری‏ها مورد بررسی قرار می‏گیرد‪.‬‬

‫‪311‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫‪ ) α = β1 = … = βk = 0‬در ایــن حالت الگــوی ‪ ARCH‬که آن را توصیف‬ ‫خواهیــم کرد بــه یک الگوی ســاده تبدیل می‏شــود که به متغیر وابســته‬ ‫خــود متصل اســت‪ .‬حال اگــر متغیر وابســته را به همان بازدهی ســهام‬ ‫( ‪ ) ∆y t = ∆Yt − ∆ Y‬برگردانیــم‪ ،‬آن‌گاه الگــوی مــا تبدیل به مدل ســاده‬ ‫نوســانات مالی خواهد شد که در ابتدای فصل مشاهده نمودیم‪.‬‬ ‫الگوی ‪ ARCH‬مرتبط با واریانس (نوسانات) انحراف‪ ، et،‬است‪ .‬در صورتی‬ ‫که ویژگی‏های واریانس را فراموش نموده‏اید شاید الزم باشد که مبانی الگو را‬ ‫در پیوســت ‪ 2-3‬مطالعه نمایید‪ .‬با یک عالمت‏گذاری ساده (که در اقتصاد این‬ ‫شیوه رایج است) با این نشانه‏گذاری آغاز می‏نماییم‪:‬‬

‫مثال‪12-1‬ب‬

‫به‌وســیله الگوی ‪ ARCH‬دیگر مانند گذشته نیازی به کسر میانگین از‬ ‫بازدهی قیمت ســهام نخواهیم داشت (با اضافه کردن عرض از مبدا به‬

‫رگرسیون‪ ،‬به‏سادگی اجازه شکل‏گیری یک فرایند گام تصادفی با رانش‬ ‫را می‏دهیــم)‪ .‬مطابق با مثال قبل‪ ،‬از لگاریتم قیمت ســهام که در فایل‬

‫‪ STOCK.XLS‬وجود دارد اســتفاده می‏کنیم و تفاضل مرتبه اول آن را‬

‫به‏دست می‏آوریم ( ‪.) ∆Yt‬‬

‫الگــوی )‪ ARCH(1‬را بر اســاس متغیر وابســته ‪ ∆Yt‬برآورد می‏کنیم‬ ‫و در آن عــرض از مبدا را هم قرار می‏دهیم‪ .‬با اســتفاده از یک بســته‬

‫نرم‏افزاری‪ ،‬خروجی مشابه با جدول ‪ 12-2‬به‏دست خواهد آمد‪ .‬قسمت‬

‫تحلیل داده‌های اقتصادی‬

‫باالی جدول ‪ 12-2‬ضرایب معادله رگرسیونی را نشان می‏دهد‪ .‬در این‬ ‫‪312‬‬

‫قسمت ما تنها عرض از مبدا را قرار داده‏ایم (که با عالمت ‪ Ɣ0‬در معادله‬

‫رگرسیونی مشخص شده است)‪ .‬قسمت پایین جدول به معادله ‪ARCH‬‬

‫اختصاص یافته اســت‪ .‬وقتی با الگوی )‪ ARCH(1‬کار می‏کنیم‪ ،‬معادله‬

‫شامل عرض از مبدا (که با ‪ γ 0‬در الگوی ‪ ARCH‬مشخص شده است)‬

‫و یک وقفه برای مربع انحرافات (که با ‪ γ1‬در معادله ‪ ARCH‬مشخص‬ ‫شــده و در جدول ‪ 12-2‬با «وقفه ‪ »1‬نشان داده شده است)‪ .‬اعدادی که‬ ‫در جدول ‪ 12-2‬وجود دارد می‏تواند به همان شــکلی خوانده شود که‬ ‫پیش از این در رگرسیون به آن اشاره شده است‪.‬‬

‫جدول ‪ .12-2‬الگوی (‪ ARCH )1‬بازدهی سهام‬ ‫ضریب‬

‫‪P-value‬‬

‫‪0 .105‬‬

‫‪0 .000‬‬

‫حد پایین در سطح‬ ‫‪%95‬‬

‫حد باال در سطح‬ ‫‪%95‬‬

‫‪∆Yt‬‬ ‫عرض از مبدا‬

‫‪0 .081‬‬

‫‪0 .129‬‬

‫ضریب‬

‫‪P-value‬‬

‫حد باال در سطح‬ ‫‪%95‬‬

‫حد پایین در سطح‬ ‫‪%95‬‬ ‫‪ARCH‬‬

‫وقفه ‪1‬‬

‫‪0 .660‬‬

‫‪0 .000‬‬

‫‪0 .302‬‬

‫‪1 .018‬‬

‫عرض از مبدا‬

‫‪0 .024‬‬

‫‪0 .000‬‬

‫‪0 .016‬‬

‫‪0 .0320‬‬

‫جدول ‪ .12-3‬الگوی (‪ ARCH )2‬بازدهی سهام‬

‫عرض از مبدا‬

‫‪0 .109‬‬

‫‪0 .000‬‬

‫‪∆Yt‬‬

‫‪0 .087‬‬

‫‪0 .131‬‬

‫‪ARCH‬‬

‫وقفه ‪1‬‬

‫‪0 .717‬‬

‫‪0 .000‬‬

‫‪0 .328‬‬

‫‪1 .107‬‬

‫وقفه ‪2‬‬

‫‪-0 .043‬‬

‫‪0 .487‬‬

‫‪-0 .165‬‬

‫‪0 .079‬‬

‫عرض از مبدا‬

‫‪0 .025‬‬

‫‪0 .000‬‬

‫‪0 .016‬‬

‫‪0 .033‬‬

‫اعدادی که در ســتون «ضریب» دیده می‏شــود‪ ،‬نتیجه برآورد ضرایب‬

‫است (در این الگو‪ ،‬ضرایب با روش ‪ OLS‬برآورد نشده‏اند و با روشی‬ ‫پیچیده‏تر که ویژه ‪ ARCH‬است برآورد می‏شود)‪ .‬اعدادی که در ستون‬

‫«‪ »P-value‬همان ‪ P-value‬است که از آزمون فرضیه برابری با صفر‬

‫ضرایب به‏دست آمده است‪.‬‬

‫در این حالت‪ ،‬زمانی که ‪ P-value‬کمتر از ‪ 5‬درصد باشــد‪ ،‬می‏توانیم‬

‫نتیجه بگیریم که ضرایب از نظر آماری در ســطح ‪ %5‬معنی‏دار هستند‪.‬‬ ‫ستون‏های پایانی جدول فوق‪ ،‬سطوح اطمینان باال و پایین را در سطح‬

‫‪ 95‬درصد نشــان می‏دهد‪ .‬برآورد ضریب ‪( γ1‬ضریبی که با وقفه مربع‬

‫انحرافات در معادله ‪ )ARCH‬برابر با ‪ 0/66‬اســت که نشــان می‏دهد‬

‫‪313‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫ضریب‬

‫‪P-value‬‬

‫حد پایین در سطح‬ ‫‪%95‬‬

‫حد باال در سطح ‪%95‬‬

‫نوسانات در این ماه به شدت با مربع انحرافات در ماه قبل ارتباط دارد‪.‬‬ ‫این نشان‌دهنده نوعی پایداری نوسانات است به همان درجه‏ای که در‬ ‫ابتدای فصل به آن اشــاره شده بود‪ .‬به‌خاطر داشته باشید که ما پیش از‬

‫این فهمیدیم که ضرایب )‪ AR(1‬که قبال برآورد شده بود مانند ضرایب‬ ‫‪2‬‬ ‫‪ ∆y t‬است که در رگرسیون پیشین برابر ‪ 0/737‬تخمین زده شده بود‪.‬‬

‫طول وقفه‏هــای الگوی ‪ ARCH‬را به‌همان شــکلی که در هر الگوی‬ ‫ســری‏زمانی دیده بودیم می‏توان انتخاب کرد (یعنی با بررسی فرضیه‬

‫برابــر با صفر بودن ضرایب و مقایســه ‪ P-value‬با مقادیر بحرانی و‬ ‫کاســتن وقفه در صورتی که ضریب آن برابر با صفر باشد)‪ .‬برای مثال‬

‫اگر الگوی )‪ ARCH(2‬را با اســتفاده از داده‏های بازدهی سهام برآورد‬ ‫تحلیل داده‌های اقتصادی‬

‫کنیم‪ ،‬نتایج جدول ‪ 12-3‬به‏دست خواهد آمد‪.‬‬

‫‪314‬‬

‫ضرایب برآورد‏شده در جدول ‪ 12-3‬بسیار شبیه به )‪ ARCH(1‬است‪.‬‬ ‫اما ضریب مربوط به وقفه دوم (‪ )Ɣ 2‬معنی‏دار نیست چراکه ‪P-value‬‬

‫آن بزرگ‌تر از ‪ 0/05‬اســت‪ .‬به این ترتیب الگــوی )‪ARCH(1‬برای‬ ‫داده‏ها مناسب اســت و وقفه دوم که به الگوی )‪ ARCH(2‬وارد شده‬

‫است نتوانسته است توضیح‏دهندگی بیشتری ایجاد نماید‪.‬‬

‫بنا بــه دالیل زیادی (برای مثــال در قیمت‏گذاری مشــتقات مالی) برآورد‬ ‫‪ σ2t‬برای همه دوره‏ها مورد نیاز اســت‪ .‬ما نمی‏خواهیم در مورد نحوه محاســبه‬ ‫بسته‏های نرم‏افزاری صحبت کنیم ولی فقط الزم است بدانید که این بسته‏ها چنین‬ ‫قابلیتی دارند‪ .‬الگوهای ‪ ARCH‬دارای بسط‏های فراوانی است که در تحلیل‏های‬ ‫مالی مورد اســتفاده قرار می‏گیرد‪ .‬برای مثال بســته‏های نرم‏افزاری ‪ Stata‬هفت‬ ‫الگوی مختلــف ‪ ARCH‬با نام‏های ‪GARCH، SAARCH، TARCH، AARCH،‬‬ ‫‪ NARCH‬و ‪ NARCHK‬ارائه می‏دهد‪ .‬مدل معروف دیگری که در گروه مدل‏های‬

‫‪ ARCH‬قرار ندارد‪ ،‬نوســانات تصادفی نام دارد‪ .‬اگر شــما نیاز جدی به تحلیل‬ ‫نوسانات مالی دارید می‏باید مطالعات عمیق‏تری را در این زمینه انجام دهید‪ .‬در‬ ‫ادامه الگوی معروف دیگری به نام ‪ GARCH‬که همان ‪ ARCH‬تعمیم یافته است‬ ‫را توضیح می‌دهیم‪ .‬این الگو برگرفته از الگوی ‪ ARCH‬است که وقفه نوسانات‬ ‫محاسبه‏شده (در کنار مربع انحرافات دارای وقفه) به الگو اضافه می‏گردد‪ .‬یعنی‬ ‫الگوی ‪ GARCH‬که با وقفه‏های (‪ )p,q‬که با )‪ GARCH(p,q‬نشــان داد‏ه می‏شود‬ ‫دارای معادله نوسانات به شرح زیر است‪:‬‬ ‫ویژگی‏های ‪ GARCH‬بسیار شبیه ‪ ARCH‬است‪ .‬برای مثال ضرایب به همان‬ ‫روش ضرایب ‪ AR‬تفســیر می‌شــوند و می‌توان هر یک از آن‌ها را با پایداری‬ ‫نوسانات مرتبط نمود‪ .‬با این حال می‏توان نشان داد که‪ GARCH‬دارای انعطاف‬ ‫به مراتب بیشــتر‪ ،‬ظرفیت بهتر و قابلیت تطبیق مناسب‏تری برای توضیح رفتار‬ ‫نوسانات مالی است‪.‬‬

‫مثال ‪12-1‬ج نوسانات در قیمت سهام‬

‫اگر یــک الگوی )‪GARCH(1,1‬را با داده‏های بازدهی ســهام برآورد‬ ‫کنیم‪ ،‬به نتایج جدول ‪ 12-4‬می‏رســیم‪ .‬اعدادی که در این جدول قرار‬ ‫دارند را می‏توان مشابه با جدول ‪ ARCH‬تفسیر نمود‪ .‬اما در این جدول‬

‫یــک ردیف اضافه وجود دارد کــه ‪ GARCH-1‬نام دارد که وقفه اول‬

‫‪ GARCH‬است و شــامل ضریب ‪ λ1‬می‏باشد (که اثر نوسانات با وقفه‬ ‫اول است)‪.‬‬

‫می‏تـ�وان دید که این ضریب معنی‏دار نیسـ�ت چراکـ�ه مقدا ر �‪P-val‬‬

‫‪ ue‬آن بیــش از ‪ 5‬درصد اســت‪ .‬از این رو برای ایــن داده‪ ،‬به الگوی‬

‫‪315‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫‪σ2t = γ 0 + γ1e2t −1 + … + γ p e2t −p + λ1σ2t −1 + … + λ qσ2t − q‬‬

‫)‪ GARCH(1,1‬چندان نیازی نیست و همان الگوی )‪ ARCH(1‬کامال‬ ‫مناسب به نظر می‏رسد‪.‬‬

‫جدول ‪ .12-1‬الگوی (‪ GARCH )1.1‬بازدهی سهام‬ ‫ضریب‬

‫‪P-value‬‬

‫عرض از مبدا‬

‫‪0 .109‬‬

‫‪0 .000‬‬

‫سطح پایین ‪ 95‬درصد‬

‫سطح باالی ‪95‬درصد‬

‫‪∆Yt‬‬

‫‪0 .087‬‬

‫‪0 .131‬‬

‫‪ARCH‬‬

‫وقفه ‪1‬‬

‫‪0 .714‬‬

‫‪0 .000‬‬

‫‪0 .327‬‬

‫‪1 .101‬‬

‫‪GARCH-1‬‬

‫‪-0 .063‬‬

‫‪0 .457‬‬

‫‪-0 .231‬‬

‫‪0 .104‬‬

‫عرض از مبدا‬

‫‪0 .026‬‬

‫‪0 .000‬‬

‫‪0 .015‬‬

‫‪0 .038‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪316‬‬

‫مترین ‪12-2‬‬

‫فایل ‪ NYSE.XLS‬شامل داده‏های درصد تغییرات قیمت سهام ( ‪ ) ∆Y‬در هر ماه‬ ‫از سال ‪ 1952‬تا ‪ 1995‬در بازار سهام نیویورک است‪.‬‬

‫(الــف) الگوی )‪ ARCH(p‬را بــرای ‪ p‬های مختلف برآورد کنیــد‪ .‬آیا در آن‌ها‬

‫خوشه‏های نوســانی دیده می‏شــود (یعنی آیا الگوی ‪ ARCH‬به الگوی ساده‏ای‬ ‫می‏رسد که در آن نوسانات ثبات داشته باشند که به معنی ‪γ1 =…. =γ p =0‬‬ ‫است)؟ کدام ‪ p‬مناسب‏تر است؟‬

‫(ب) برای ‪ p‬انتخابی شــما‪ ،‬نمودار سری‏زمانی نوســانات را رسم نمایید (یعنی‬ ‫نموداری از ‪.) σ2t‬‬

‫(ج) مرحلــه الف و ب را با الگــوی )‪ GARCH(p,q‬تکرار نماییــد‪ .‬آیا نمودار‬

‫نوسانات که در بند قبل به‏دست آوردید مشابه ‪ ARCH‬و ‪ GARCH‬است؟‬

‫علیت گرنجر‬

‫‪1‬‬

‫‪1- Granger Causality‬‬

‫‪317‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫در این کتاب اشاره اندکی به علیت داشته‏ایم و این کار از طریق نحوه تفسیر همبستگی‬ ‫و نتایج رگرســیون بوده است که تا حدودی به علیت باز می‏گشت‪ .‬برای مثال در‬ ‫فصل ســوم مثالی را در مورد رابطه نوشیدن الکل و نرخ سرطان ریه مورد بررسی‬ ‫قرار دادیم که این دو با هم وابسته بوده‏اند در صورتی که نوشیدن الکل علت ایجاد‬ ‫سرطان ریه نیست‪ .‬در این‌جا همبستگی‪ ،‬علیت را نشان نمی‏دهد‪ .‬در واقع مصرف‬ ‫سیگار است که موجب ســرطان ریه می‏گردد ولی وجود همبستگی بین مصرف‬ ‫سیگار و نوشیدن الکل موجب می‏شود که رابطه همبستگی بین الکل و سرطان ریه‬ ‫شکل بگیرد‪ .‬در مباحثی که پیرامون رگرسیون داشتیم‪ ،‬تا حدودی کار دشوارتر بود‪.‬‬ ‫بر زمین ســفت‌تر ‪ ،....‬راه نمی‌روند! این اوضاع زمانی تغییر کرد که به‌دنبال دالیل‬ ‫اقتصادی برای تعیین متغیر وابســته یا متغیر توضیحی بودیم‪ .‬در بسیاری از مسائل‬ ‫همین‏قدر که متغیری مانند ‪ X‬قادر به توضیح متغیر دیگری مانند ‪ Y‬می‌بود برای‌مان‬ ‫کفایت می‏کرد تا ‪ X‬را «علت» ‪ Y‬بدانیم‪.‬‬ ‫برای مثال در مثال قیمت خانه در فصل ‪ ،4‬قیمت خانه باید «علت» ویژگی‏های‬ ‫آن خوانده شــود (مثال تعداد اتاق‏خواب‏ها یا تعداد حمام‏ها)‪ .‬در حالی‏که در بحث‬ ‫متغیر محذوف فصل ‪ ،6‬توضیح دادیم که در یک رگرسیون چندگانه چنانچه یک‬ ‫متغیر مهم حذف شده باشد‪ ،‬ممکن است تفسیر‏های گمراه‏کننده‏ای پیرامون علیت‬ ‫صورت گیرد‪ .‬جدای از این‪ ،‬رگرسیون‏های فراوانی وجود دارد که در آن مشخص‬ ‫نیست که کدام متغیر علت کدام متغیر است‪ .‬برای مثال در تمرین ‪ ،11-8‬رگرسیونی‬ ‫را بین افزایش دستمزد (‪ )Y‬و افزایش قیمت محصوالت (‪ )X‬اجرا نمودید‪ .‬ممکن‬ ‫است که افزایش قیمت محصوالت علت افزایش دستمزدها باشد (یعنی ‪ X‬علت ‪Y‬‬ ‫باشد) چراکه با افزایش قیمت کاالها‪ ،‬کارگران دستمزد باالتری را مطالبه می‏نمایند‪.‬‬ ‫ممکن اســت ادعای دیگری هم وجود داشته باشد که ‪ Y‬علت ‪ X‬است‪ .‬چراکه با‬ ‫افزایش دســتمزد کارگران‪ ،‬سود بنگاه کاهش یافته و در نتیجه قیمت محصوالت‬

‫تحلیل داده‌های اقتصادی‬

‫‪318‬‬

‫بیشتر می‏شود پس افزایش دستمزدها علت افزایش قیمت محصوالت است‪ .‬به بیان‬ ‫دیگر‪ ،‬علیت می‏تواند در هر یک از دو سمت جریان داشته باشد یا آن‌که به‏صورت‬ ‫همزمان در هر دو ســمت وجود داشته باشــد‪ .‬بنابراین وقتی که ما از واژه «علت»‬ ‫در رگرسیون استفاده می‏کنیم‪ ،‬می‏باید ضمن استفاده از منطق‏های عقالنی‪ ،‬احتیاط‬ ‫بسیاری نیز به خرج دهیم‪ .‬اما هنگام کار بر روی داده‏های سری‏زمانی‪ ،‬می‏توانیم تا‬ ‫حدودی با قاطعیت بیشتری در مورد علیت نظر بدهیم‪ .‬در واقع چون زمان به عقب‬ ‫بــاز نمی‏گردد‪ ،‬بنابراین اگر ‪ A‬قبل از ‪ B‬رخ داده باشــد‪ ،‬آن‌گاه می‏توان گفت که ‪A‬‬ ‫علت رخداد ‪ B‬است چراکه امکان ندارد ‪ B‬علت شکل‏گیری ‪ A‬باشد‪ .‬به بیان دیگر‪،‬‬ ‫وقایعی که در گذشته رخ داده‏اند می‏توانند علت رخدادهای امروز باشند‪ .‬اما وقایع‬ ‫آینده هرگز نمی‏توانند علت رخدادهای امروز باشند‪ .‬این درک شهودی را می‏توان‬ ‫به‌کمک رگرسیون و استفاده از مفهوم علیت گرنجر بررسی کرد‪ .‬مبنای این مفهوم‬ ‫این است که ‪ X‬علت گرنجری ‪ Y‬می‏باشد چنانچه مقادیر گذشته ‪ X‬قادر به توضیح‬ ‫‪ Y‬باشد‪ .‬واضح است که اگر علیت گرنجر وجود داشته باشد به‏طور قطع نمی‏توان‬ ‫گفت که ‪ X‬علت ‪ Y‬است‪ .‬به‌همین علت است که از عبارت «علیت گرنجر» به جای‬ ‫واژه «علیت» استفاده می‏کنیم‪ .‬با این وجود وقتی که مقادیر گذشته ‪ X‬قادر به توضیح‬ ‫مقادیر کنونی ‪ Y‬باشــند‪ ،‬الاقل این پیشنهاد مطرح است که شاید ‪ X‬علت ‪ Y‬باشد‪.‬‬ ‫علیت گرنجر تنها در مورد متغیرهای ســری‏زمانی کاربرد دارد‪ .‬برای درک مفاهیم‬ ‫بنیادی علیت گرنجر بین دو متغیر (‪ X‬و ‪ )Y‬ابتدا فرض می‏کنیم که هر دو متغیر مانا‬ ‫هستند‪ .‬وضعیت نامانایی که ‪ X‬و ‪ Y‬دارای ریشه واحد باشند ولی هم‏انباشتگی داشته‬ ‫باشند را هم در ادامه مورد بررسی قرار می‏دهیم‪.‬‬

‫علیت گرنجر در یک الگوی ساده ‪ARDL‬‬

‫با فرض این‌که متغیرهای ‪ X‬و ‪ Y‬مانا هستند‪ ،‬بر اساس مباحث فصل ‪ 11‬الگوی‬ ‫‪ ARDL‬زیر یک پیشنهاد مناسب برای الگویی ساده است‪:‬‬ ‫‪Yt = α + φ1Yt −1 + β1Xt −1 + et‬‬

‫این الگو نشان می‏دهد که مقادیر مربوط به دوره قبلی ‪ X‬توان توضیح‏دهندگی‬

‫آزمون علیت گرنجر در الگوی ‪ ARDL‬با وقفه‏های ‪ p‬و ‪q‬‬

‫الگوی ‪ ARDL‬باال محدود به وجود یک وقفه برای ‪ X‬و ‪ Y‬بود‪ .‬اما در حالت کلی‬ ‫و به همان شکل که در فصل ‪ 11‬توضیح دادیم می‏توانیم این الگو را به وقفه‏های‬ ‫‪1‬‬ ‫مختلف )‪ ARDL(p,q‬تعمیم دهیم‪:‬‬ ‫‪Yt = α + δt + φ1Yt −1 + … + φp Yt −p + β1Xt −1 + … + βq Xt − q + et‬‬

‫که در آن ‪ X‬علت گرنجری ‪ Y‬است اگر یکی یا همه ضرایب ‪ β1.....βq‬از نظر‬ ‫آماری معنی‏دار باشند‪ .‬یعنی اگر ‪ X‬در هر زمانی در گذشته قادر به توضیح ‪ Y‬بوده‬ ‫باشد‪ ،‬آن‌گاه می‏توانیم بگوییم که ‪ X‬علت گرنجری ‪ Y‬است‪ .‬با توجه به این‌که فرض‬ ‫کردیم ‪ X‬و ‪ Y‬ریشــه واحد ندارند‪ ،‬با برآورد ‪ OLS‬ضرایب رگرسیونی و محاسبه‬ ‫‪ -1‬توجه داشــته باشــيد كه متغير ‪ Xt‬از الگو حذف شده است‪ ،‬چراكه در عليت گرنجر ما به دنبال نقش‬ ‫گذشته متغيرها هستيم و مقدار دوره جاري آن‌ها در الگو جايي ندارد‪ .‬اگر ‪ Xt‬را در الگو قرار مي‏داديم‪ ،‬اين‬ ‫كار به منظور پیراستن الگو از پيچيدگي‏هايي است كه هنگام تفسیر ضرايب پيش مي‏آيد‪.‬‬

‫‪319‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫مقدار کنونی ‪ Y‬را دارد‪ .‬ضریب ‪ β1‬میزان اثرگذاری‪ Xt −1‬بر ‪ Yt‬را اندازه می‏گیرد‪ .‬اگر‬ ‫‪ β1 =0‬باشد آن‌گاه مقادیر گذشته ‪ X‬اثری بر ‪ Y‬ندارد و در نتیجه ‪ X‬نمی‏تواند علت‬ ‫گرنجری ‪ Y‬باشد‪ .‬یعنی اگر ‪ β1 =0‬آن‌گاه مقادیر گذشته ‪ X‬در مقابل مقادیر گذشته‬ ‫‪ Y‬توانایی توضیح‏دهندگی ندارند‪ .‬حال با توجه به این‌که می‏دانیم چگونه یک الگوی‬ ‫‪ ARDL‬را برآورد کنیم و آزمون فرضیه را انجام دهیم‪ ،‬آزمون علیت گرنجر ســاده‬ ‫خواهد بود‪ .‬به این شکل که با برآورد ‪ OLS‬رگرسیون فوق که می‏تواند با اکسل یا‬ ‫بسته‏های نرم‏افزاری اقتصادسنجی انجام شود‪ P-value ،‬مربوط به ضریب متغیر ‪Xt-1‬‬ ‫محاسبه و معناداری آن آزمون می‏شود‪ .‬اگر ‪ β1‬از نظر آماری معنادار بود (برای مثال‬ ‫‪ )P-value< 0/05‬آن‌گاه نتیجه می‏گیریم که ‪ X‬علت گرنجری ‪ Y‬است‪ .‬فرضیه صفر‬ ‫در این آزمون ‪ H0 :β1 =0‬است‪ .‬یعنی فرضیه صفر عدم وجود علیت گرنجر است‪.‬‬ ‫پس بهتر است که آزمون ‪ H0 :β1 =0‬را آزمون عدم وجود علیت گرنجر بنامیم‪ .‬اما‬ ‫در متن از همان عبارت عام آزمون علیت گرنجر استفاده می‌کنیم‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪320‬‬

‫‪ P-value‬برای هر یک از ضرایب می‏توانیم در مورد وجود علیت گرنجر تصمیم‬ ‫بگیریم‪ .‬اگر از سطح خطای ‪ 5‬درصد استفاده می‏کنید آن‌گاه اگر یکی از ‪P-value‬‬ ‫هــای مربوط به ضرایب ‪ β1.….βq‬کوچک‌تر از ‪ 0/05‬بود‪ ،‬آن‌گاه می‏توانید نتیجه‬ ‫بگیرید که علیت گرنجر وجود دارد‪ .‬اما اگر هیچ‏یک از ضرایب ‪ P-value‬کوچک‌تر‬ ‫از ‪ 0/05‬نداشــتند‪ ،‬نتیجه می‏گیرید که علیت گرنجر وجود ندارد‪ .‬راهبردی که در‬ ‫باال توضیح داده شــد بسیار ســاده و کاربردی و با استفاده از بسته‏های نرم‏افزاری‬ ‫به‏راحتی قابل اجرا است‪ .‬اما توجه داشته باشید که یک روش رسمی دقیق‏تر‪-‬و البته‬ ‫پیچیده‏تر‪ -‬برای این آزمون وجود دارد‪ .‬به‌خاطر داشته باشید که فرضیه صفر در واقع‬ ‫عدم وجود علیت گرنجر است‪ .‬یعنی ‪ X‬علت گرنجری ‪ Y‬نیست اگر مقادیر گذشته‬ ‫‪ X‬توانایی توضیح‏دهندگی مقدار کنونی ‪ Y‬را نداشته باشند‪ .‬در این صورت فرضیه‬ ‫صفر ‪ H0 :β1 = β2 = … = βq = 0‬خواهد شد که بر اساس آن ‪ X‬علت گرنجری‬ ‫‪ Y‬نیســت و اگر این فرضیه رد شود‪ ،‬آن‌گاه ‪ X‬علت گرنجری ‪ Y‬خواهد بود‪ .‬توجه‬ ‫داشته باشید که آزمون این فرض تا حدودی با آزمونی که در پاراگراف قبلی توضیح‬ ‫دادیم متفاوت است چراکه باید به‏صورت همزمان ‪ β1 = β2 = … = βq = 0‬مورد‬ ‫آزمون قرار گیرد که با آزمون این‌که یک ضریب با وقفه ‪ q‬را در ‪ βi =0‬برای‪i=1.‬‬ ‫‪ … .q‬تنهایی آزمون کنیم متفاوت است‪ .‬ما این‌جا در مورد این‌که چنین آزمونی که‬ ‫همزمان چند ضریب برابر با صفر باشــند‪ ،‬صحبتی نخواهیم کرد ولی خوانندگان‬ ‫عالقه‏مند می‏توانند به پیوست ‪ 12-1‬مراجعه کنند‪.‬‬ ‫با این وجود اگر راهبرد ساده توضیح داده شده در این کتاب را مورد استفاده‬ ‫قــرار دهید باید به این نکات توجه کنید‪ :‬اگر دریافتید که یکی یا همه ضرایب‬ ‫‪ β1.….βq‬بــا توجه به آمــاره ‪ t‬یا ‪ P-value‬معنی‏دار هســتند‪ ،‬می‌توانید نتیجه‬ ‫بگیرید که ‪ X‬علت گرنجری ‪ Y‬اســت‪ .‬اگر هیچ‏یک از ضرایب معنی‏دار نبودند‪،‬‬ ‫احتماال در وضعیتی هستید که ‪ X‬علت گرنجری ‪ Y‬نیست اما اگر از روش دوم‬ ‫که همه ضرایب را با هم آزمون می‏نماید استفاده می‏کردید‪ ،‬نتیجه‏گیری شما با‬ ‫خطای کمتری در زمینه عدم علیت گرنجری مواجه بود‪.‬‬

‫مثال ‪ 12-2‬الف‪ :‬آیا افزایش دستمزد علت گرنجری افزایش قیمت‬ ‫است؟‬ ‫داده‏های ســاالنه ‪ 1855-1987‬قیمت و دســتمزد انگلســتان در فایل‬

‫‪ WP.XLS‬وجــود دارد که پیش از این در تمریــن ‪ 11-8‬دیده‏اید‪ .‬اگر‬ ‫آن تمرین را انجام داده باشید‪ ،‬شاید به‌خاطر داشته باشید که لگاریتم هر‬ ‫دو متغیر دارای ریشه واحد بوده است ولی هم‏انباشته نیستند‪ .‬اما تفاضل‬

‫و قیمت تفســیر کرد‪ .‬ما از این داده‏ها برای بررســی این‌که آیا افزایش‬ ‫دســتمزد علت افزایش قیمت است استفاده می‏کنیم‪ .‬دالیل خوبی برای‬

‫وجود چنین رابطه‏ای وجود دارد‪ .‬در نهایت اگر دســتمزد افزایش یابد‪،‬‬ ‫شــرکت‏ها انگیزه کافی برای افزایش قیمت و جلوگیری از کاهش سود‬ ‫را خواهند داشــت‪ .‬جدول ‪ 12-5‬شــامل نتایج برآورد ‪ OLS‬رگرسیون‬

‫افزایــش قیمت (‪ ) ∆P‬برای چهار وقفه خــودش و چهار وقفه افزایش‬ ‫دستمزد (‪ ) ∆W‬و روند قطعی را نشان می‏دهد‪ .‬آزمون فرضیه به وسیله‬ ‫‪ P-value‬نشان می‏دهد که تنها روند قطعی و وقفه آخر افزایش قیمت‬

‫توان توضیح‏دهندگی افزایش قیمت فعلی را دارند‪ .‬تمامی ضرایب مربوط‬

‫به وقفه‏های افزایش دستمزد بی‏معنی هستند‪ .‬بنابراین‪ ،‬بر اساس مباحثی‬ ‫که داشته‏ایم‪ ،‬افزایش دستمزد علت گرنجری افزایش قیمت نیست‪.‬‬ ‫جدول ‪ 12-5‬الگوی ‪ ARDL‬که تورم قیمت متغیر وابسته است‬

‫‪ ‬‬

‫ضریب‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حد باال در‬ ‫سطح ‪%95‬‬

‫عرض از مبدا ‪-0/751‬‬

‫‪0/710‬‬

‫‪-1/058‬‬

‫‪0/292‬‬

‫‪-2/156‬‬

‫‪0/654‬‬

‫‪∆Pt −1‬‬

‫‪0/822‬‬

‫‪0/170‬‬

‫‪4/850‬‬

‫‪0/000‬‬

‫‪0/486‬‬

‫‪1/158‬‬

‫‪∆Pt − 2‬‬

‫‪-0/041‬‬

‫‪0/186‬‬

‫‪-0/222‬‬

‫‪0/825‬‬

‫‪-0/409‬‬

‫‪0/326‬‬

‫‪321‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫این دو سری‪ ،‬مانا بوده که آن‌ها را می‏توان به‌عنوان نرخ افزایش دستمزد‬

‫‪ ‬‬

‫ضریب‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حد باال در‬ ‫سطح ‪%95‬‬

‫‪∆Pt −3‬‬

‫‪0/142‬‬

‫‪0/186‬‬

‫‪0/762‬‬

‫‪0/448‬‬

‫‪-0/227‬‬

‫‪0/511‬‬

‫‪∆Pt − 4‬‬

‫‪-0/181‬‬

‫‪0/175‬‬

‫‪-1/035‬‬

‫‪0/303‬‬

‫‪-0/526‬‬

‫‪0/165‬‬

‫‪∆Wt −1‬‬

‫‪-0/016‬‬

‫‪0/143‬‬

‫‪-0/114‬‬

‫‪0/909‬‬

‫‪-0/299‬‬

‫‪0/267‬‬

‫‪∆Wt − 2‬‬

‫‪-0/118‬‬

‫‪0/143‬‬

‫‪-0/823‬‬

‫‪0/412‬‬

‫‪-0/402‬‬

‫‪0/166‬‬

‫‪∆Wt −3‬‬

‫‪-0/042‬‬

‫‪0/143‬‬

‫‪-0/292‬‬

‫‪0/771‬‬

‫‪-0/324‬‬

‫‪0/241‬‬

‫‪∆Wt − 4‬‬

‫‪0/038‬‬

‫‪0/142‬‬

‫‪0/266‬‬

‫‪0/791‬‬

‫‪-0/244‬‬

‫‪0/319‬‬

‫روند قطعی‬

‫‪0/030‬‬

‫‪0/011‬‬

‫‪2/669‬‬

‫‪0/009‬‬

‫‪0/0077‬‬

‫‪0/052‬‬

‫تحلیل داده‌های اقتصادی‬

‫علیت دوطرفه‬

‫‪322‬‬

‫در بسیاری از شرایط مشخص نیست که علیت در کدام سمت وجود دارد‪ .‬مثال آیا‬ ‫وقفه‌های افزایش دستمزد علت افزایش قیمت است یا این‌که سمت علیت برعکس‬ ‫است؟ در این شرایط که علیت می‏تواند در هر سمتی وجود داشته باشد مهم است‬ ‫که آن را مورد بررسی دقیق قرار دهید‪ .‬اگر ‪ Y‬و ‪ X‬دو متغیری مورد مطالعه باشند‪،‬‬ ‫عالوه بر این‌که باید رگرسیونی بین ‪ ،Y‬وقفه‏های ‪ Y‬و وقفه‏های ‪( X‬مانند باال) برقرار‬ ‫کنید می‏باید رگرسیونی هم بین ‪ X‬با وقفه‏هایش و وقفه‏های ‪ Y‬ایجاد نمایید‪ .‬توجه‬ ‫داشته باشید که این امکان وجود دارد که ‪ Y‬علت گرنجری ‪ X‬باشد و همزمان ‪ X‬هم‬ ‫علت گرنجری ‪ Y‬باشــد‪ .‬در روابط پیچیده اقتصادی‪ ،‬این‌گونه روابط علی دوسویه‬ ‫تا حدودی رایج و منطقی اســت‪ .‬مثال به رابطــه نرخ بهره و نرخ ارز فکر کنید‪ .‬از‬ ‫ت نرخ بهره بر نرخ ارز در آینده‬ ‫دیدگاه اقتصاد کالن این غیرمنطقی نیست که سیاس ‏‬ ‫اثرگذار باشد و به‌همین شکل منطقی است که فکر کنیم نرخ ارز می‏تواند بر آینده‬ ‫سیاســت‏گذاری نرخ بهره موثر واقع گردد (برای مثال اگر تصور شود که نرخ ارز‬ ‫خیلی باال است بانک مرکزی ممکن است نرخ بهره را در آینده کاهش دهد)‪.‬‬

‫مثال ‪ 12-2‬ب‪ :‬آیا افزایش قیمت علت گرنجری افزایش دستمزد است؟‬ ‫در مثال ‪ 12-2‬الــف‪ ،‬از داده‏های ‪ WP.XLS‬برای بررســی این‌که آیا‬

‫افزایش دســتمزد علت گرنجری افزایش قیمت اســت استفاده کردیم‪.‬‬ ‫آن‌جــا یافتیم که این رابطه علّی برقرار نیســت‪ .‬با این وجود این امکان‬ ‫وجــود دارد که رابطــه علیت در جهت عکس آن برقرار باشــد که بر‬

‫این اســاس افزایش قیمت می‏تواند علت گرنجری افزایش دســتمزد‬ ‫قیمت دوره‏های گذشــته توجه می‏کنند و بر آن اســاس درخواســت‬

‫خــود را برای دســتمزد دوره جاری مطرح می‏نماینــد‪ .‬جدول ‪12-6‬‬ ‫شــامل نتایــج بــرآورد ‪ OLS‬تخمین رگرســیون افزایش دســتمزد‬

‫( ‪ ) ∆W‬بــر روی چهار وقفه خودش و همچنین چهــار وقفه افزایش‬ ‫قیمت ( ‪ ) ∆P‬و روند قطعی در آن است‪ .‬در این‌جا شواهدی یافت شده‬ ‫اســت که افزایش قیمت علت گرنجری افزایش دستمزد است‪ .‬به‏طور‬

‫ویژه‪ ،‬ضریب ( ‪ ) ∆Pt −1‬معنی‏داری باالیی دارد که نشان می‏دهد که نرخ‬ ‫افزایش قیمت در سال قبل‪ ،‬قادر بوده است تا به‏خوبی افزایش دستمزد‬

‫را در دوره کنونی توضیح دهد‪.‬‬

‫جدول ‪ .12-6‬الگوی ‪ ARDL‬که تورم دستمزد متغیر وابسته است‬

‫‪ ‬‬

‫ضریب‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حد باال در‬ ‫سطح ‪%95‬‬

‫عرض از مبدا ‪-0/609‬‬

‫‪0/835‬‬

‫‪-0/730‬‬

‫‪0/467‬‬

‫‪-2/262‬‬

‫‪1/044‬‬

‫‪∆Wt −1‬‬

‫‪0/053‬‬

‫‪0/168‬‬

‫‪0/312‬‬

‫‪0/755‬‬

‫‪-0/280‬‬

‫‪0/386‬‬

‫‪∆Wt − 2‬‬

‫‪-0/040‬‬

‫‪0/169‬‬

‫‪-0/235‬‬

‫‪0/814‬‬

‫‪-0/374‬‬

‫‪0/294‬‬

‫‪∆Wt −3‬‬

‫‪-0/058‬‬

‫‪0/168‬‬

‫‪-0/348‬‬

‫‪0/728‬‬

‫‪-0/391‬‬

‫‪0/274‬‬

‫‪∆Wt − 4‬‬

‫‪0/036‬‬

‫‪0/167‬‬

‫‪0/215‬‬

‫‪0/830‬‬

‫‪-0/295‬‬

‫‪0/367‬‬

‫‪323‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫باشــد‪ .‬در کل می‏تــوان گفت کــه اتحادیه‏های کارگری بــه افزایش‬

‫‪ ‬‬

‫ضریب‬

‫انحراف‬ ‫معیار‬

‫آماره ‪t‬‬

‫‪P-value‬‬

‫حد پایین در‬ ‫سطح ‪%95‬‬

‫حد باال در‬ ‫سطح ‪%95‬‬

‫‪∆Pt −1‬‬

‫‪0/854‬‬

‫‪0/200‬‬

‫‪4/280‬‬

‫‪0/000‬‬

‫‪0/459‬‬

‫‪1/249‬‬

‫‪∆Pt − 2‬‬

‫‪-0/217‬‬

‫‪0/218‬‬

‫‪-0/993‬‬

‫‪0/323‬‬

‫‪-0/649‬‬

‫‪0/215‬‬

‫‪∆Pt −3‬‬

‫‪0/234‬‬

‫‪0/219‬‬

‫‪1/067‬‬

‫‪0/288‬‬

‫‪-0/200‬‬

‫‪0/668‬‬

‫‪∆Pt − 4‬‬

‫‪-0/272‬‬

‫‪0/205‬‬

‫‪-1/323‬‬

‫‪0/188‬‬

‫‪-0/678‬‬

‫‪0/135‬‬

‫روند قطعی‬

‫‪0/046‬‬

‫‪0/013‬‬

‫‪3/514‬‬

‫‪0/020‬‬

‫‪0/072‬‬

‫مترین ‪12-3‬‬

‫در مثال ‪12-2‬الف و ب‪ ،‬از داده‏های ‪ WP.XLS‬استفاده شده است که در آن ‪p=q=4‬‬ ‫تحلیل داده‌های اقتصادی‬

‫قرار داده شــده اســت (وقفه برای هر دو متغیر ‪ 4‬است)‪ .‬با استفاده از افزایش قیمت‬

‫‪324‬‬

‫به‌عنوان متغیر وابســته و اجرای آزمون‏های رایج در فصل ‪ 11‬صورت گرفته است که‬

‫وقفه بهینه برای ‪ p‬و ‪ q‬انتخاب شده است‪ .‬بررسی کنید که آیا بر اساس )‪ARDL(p,q‬‬

‫که انتخاب کرده‏اید‪ ،‬افزایش دستمزد علت گرنجری افزایش قیمت است‪ .‬این بررسی را‬ ‫در شرایطی که افزایش دستمزد متغیر وابسته است تکرار نمایید‪.‬‬

‫مترین ‪12-4‬‬

‫فایل داده‏های ‪ LONGGDP.XLS‬که شــامل داده‏های ‪ GDP‬سرانه واقعی برای‬ ‫چهار اقتصاد بزرگ انگلیسی‌زبان (آمریکا‪ ،‬انگلیس‪ ،‬کانادا و استرالیا) طی سال‏های‬

‫‪ 1870-1993‬است‪.‬‬

‫(الف) تفاضل متغیرها را محاسبه کنید تا رشد ‪ GDP‬سرانه برای این چهار کشور‬ ‫را داشته باشید‪.‬‬

‫(ب) بررسی کنید که رشد ‪ GDP‬در کدام‏یک از کشورها می‏تواند علت گرنجری رشد‬

‫‪ GDP‬در کشوری دیگر باشد‪ .‬برای مثال آیا رشد ‪ GDP‬در آمریکا علت گرنجری رشد‬ ‫‪ GDP‬در انگلستان است؟ آیا در مورد کانادا هم این رابطه صادق است؟‬

‫علیت گرنجر با متغیرهای هم‏انباشته‬

‫آزمون علیت گرنجر بین متغیرهای هم‏انباشته بسیار شبیه روشی است که پیش‬ ‫از این توضیح دادیم‪ .‬مرســوم است که با انواع الگوهای تصحیح خطا (‪)ECM‬‬ ‫که در فصل ‪ 11‬توضیح دادیم کار کنیم‪:‬‬ ‫‪∆Yt = ϕ + δt + λet −1 + γ1∆Yt −1 + … + γ p ∆Yt −p + ω1∆Xt −1 + … + ωq ∆Xt − q + ε t‬‬

‫‪325‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫توضیحات مختصر فــوق به علیت گرنجری تمرکز یافت که تنها دو متغیر‬ ‫‪ X‬و ‪ Y‬در آن وجــود دارد‪ .‬اما هیچ دلیلی وجــود ندارد که مبانی تکنیکی فوق‬ ‫به متغیرهای بیشــتری تعمیم نیابد‪ .‬برای مثال اگر ســه متغیر ‪ X، Y‬و ‪ Z‬را در‬ ‫اختیار داشــته باشــیم و بخواهیم تحقیق کنیم که آیا ‪ X‬یا ‪ Z‬علت گرنجری ‪Y‬‬ ‫هســتند‪ ،‬می‏توانیم به‏سادگی رگرسیونی برای ‪ Y‬بسازیم که متغیرهای توضیحی‬ ‫آن وقفه‏های ‪ ،Y‬وقفه‏های ‪ X‬و وقفه‏های ‪ Z‬باشد‪.‬اگر بگوییم وقفه‏های ‪ Z‬معنی‏دار‬ ‫بوده‏انــد و وقفه‏های ‪ X‬این‌گونه نبوده‏انــد آن‌گاه می‏توانیم بگوییم که ‪ Z‬علت‬ ‫گرنجری ‪ Y‬است ولی ‪ X‬نیست‪.‬‬

‫‪∆Yt −p + ω1∆Xt −1 + … + ωq ∆Xt − q + ε t‬‬

‫همان‏طور که در فصل ‪ 11‬توضیح دادیم‪ ،‬این همان الگوی ‪ ARDL‬است به‏جز‬ ‫=‪e‬‬ ‫آن‌که در آن عبارت ‪ λet −1‬وجود دارد‪ .‬به‌خاطر دارید که ‪Yt −1 − α − βXt −1‬‬ ‫‪t −1‬‬ ‫اســت‪ ،‬که با برآوردی رگرسیونی بین ‪ Y‬و ‪ X‬به‏دســت می‏آید و پسماند آن برای‬ ‫رگرســیون فوق ذخیره می‏گردد‪ .‬درک ما این است که ‪ X‬علت گرنجری ‪ Y‬است‬ ‫وقتی که مقادیر گذشــته ‪ X‬بتواند توضیحــی برای مقادیر کنونــی ‪ Y‬ارائه دهد‪.‬‬ ‫به‏کارگیری این مفهوم در ‪ ECM‬به این شکل است که مقادیر گذشته ‪ X‬را به شکل‬ ‫‪ ∆Xt −1,…, ∆Xt −q‬و ‪ et −1‬در نظر بگیریم‪ .‬بر این اساس ‪ X‬علت گرنجری ‪ Y‬نیست‬ ‫اگر ‪ ω1 = ω2 = … = ωq = λ = 0‬باشــد‪ .‬در فصل ‪ 11‬توضیح دادیم که چگونه‬ ‫می‌توان با بسته‌های نرم‌افزاری یک مدل ‪ ECM‬را برآورد کرد یا آن‌که در یک روش‬ ‫دو مرحله‏ای رگرســیون ‪ OLS‬ضرایب و مقادیر آماره ‪ t‬و ‪ P-value‬محاسبه شود‬

‫که بر اســاس آن‌ها می‏توان آزمون علیت گرنجــر را مانند آزمون مانایی انجام داد‪.‬‬ ‫همچنین آزمون ‪ F‬که در پیوســت ‪ 12-1‬توضیح داده شد هم می‏تواند برای آزمون‬ ‫‪ ω1 = ω2 = … = ωq = λ = 0‬استفاده شود‪ .‬در پاراگراف قبلی نحوه آزمون این‌که‬ ‫آیا ‪ X‬علت گرنجری ‪ Y‬اســت را توضیح دادیم‪ .‬آزمون این‌که ‪ Y‬علت گرنجری ‪X‬‬ ‫است باید با آزمون عکس که ‪ X‬علت گرنجری ‪ Y‬است در ‪ ECM‬مورد بررسی قرار‬ ‫گیرد‪ .‬یکی از مفاهیم جذاب در تئوری هم‏انباشتگی گرنجر که الزم است در این‌جا‬ ‫به‌آن اشاره شود این است که‪ :‬اگر ‪ X‬و ‪ Y‬هم‏انباشته باشند‪ ،‬آن‌گاه نوعی علیت بین‬ ‫آن دو برقرار است‪ .‬به این ترتیب که ‪ X‬باید علت گرنجری ‪ Y‬باشد یا این‌که ‪ Y‬علت‬ ‫گرنجری ‪ X‬باشد یا آن‌که علیت در هر دو سمت برقرار است‪.‬‬

‫مترین ‪12-5‬‬

‫تحلیل داده‌های اقتصادی‬

‫از داده‏های مصرف (‪ )Y‬و درآمد (‪ )X‬در فایل ‪ INCOME.XLS‬اســتفاده کنید‪ .‬در‬

‫‪326‬‬

‫نتیجه تمرین ‪ 11-5‬می‏دانیم که این دو هم‏انباشته هستند‪.‬‬

‫آزمون کنید که آیا ‪ Y‬علت گرنجری ‪ X‬است یا آن‌که ‪ X‬علت گرنجری ‪ Y‬است‪.‬‬

‫خودرگرسیونی برداری (‪)1VAR‬‬

‫بحث ما پیرامون علیت گرنجر به‏صورت طبیعی ما را به سمت خودرگرسیونی‬ ‫یــا همان (‪ )VAR‬هدایت می‏کند‪ .‬قبل از توضیــح در مورد کاربردهای عام این‬ ‫الگو و نحوه برآورد آن‪ ،‬ابتدا باید بدانیم که ‪ VAR‬چیســت‪ .‬ابتدا فرض می‏کنیم‬ ‫که همه متغیرها مانا هستند‪ .‬اگر متغیرهای اصلی ریشه واحد داشته باشند آن‌گاه‬ ‫باید از الگویی اســتفاده شــود که تفاضل متغیرها را مورد استفاده قرار می‏دهد‬ ‫(که دیگر ریشــه واحد ندارند)‪ .‬در انتهای این فصل به بسط این نوع الگوها در‬ ‫شرایط هم‏انباشتگی می‏پردازیم‪.‬‬ ‫‪ -1‬عبارت ‪ VAR‬در اقتصادسنجي شناخته شده است اما به‌خاطر داشته باشيد كه در اقتصاد مالي مفهوم‬ ‫«ارزش در معرض ريســك» نيز با ‪ var‬نشان داد ‏ه مي‏شود كه مفهوم متفاوتي است‪ .‬اما معموال دومي را با‬ ‫حروف كوچك مي‏نويسند‪.‬‬

‫وقتی ما علیت گرنجر بین ‪ X‬و ‪ Y‬را مورد بررســی قرار می‏دادیم‪ ،‬با الگوی‬ ‫محدود )‪ ARDL(p,q‬کار می‏کردیم که ‪ Y‬متغیر وابســته بوده است‪ .‬از این الگو‬ ‫برای آن‌که بدانیم ‪ X‬علت گرنجری ‪ Y‬است استفاده می‏شده است‪ .‬سپس سعی‬ ‫نمودیــم که علیت را در جهت عکس هــم مورد آزمون قرار دهیم که در آن ‪X‬‬ ‫متغیر وابسته شده بود‪ .‬می‏توانیم دو معادله را به‏صورت زیر بنویسیم‪:‬‬ ‫‪Yt = α1 + δ1t + φ11Yt −1 + … + φ1p Yt −p + β11Xt −1 + … + β1q Xt −q + e1t‬‬

‫اولین معادله برای این به کار می‏رود که بدانیم ‪ X‬علت گرنجری ‪ Y‬است یا‬ ‫نه‪ .‬معادله دوم هم برای این آزمون اســت که بدانیم ‪ Y‬علت گرنجری ‪ X‬است‬ ‫یا نه‪ .‬توجه دارید که همه ضرایب زیرنویســی دارند که نشان می‏دهد در کدام‬ ‫معادله قــرار گرفته‏اند‪ .‬برای مثال ‪ α1‬عرض از مبدا معادله اول اســت و ‪α 2‬‬ ‫عرض از مبدا معادله دوم‪ .‬همچنین جمله انحراف هم دارای زیرنویس است تا‬ ‫مشخص شود به معادله اول تعلق دارد یا به معادله دوم‪.‬‬ ‫یک الگوی ‪ VAR‬بســطی از الگوی خودرگرســیونی (‪ )AR‬است که در آن‬ ‫بیــش از یک متغیر تحت بررســی قرار می‏گیرد‪ .‬به یــاد دارید که الگوی ‪AR‬‬ ‫معرفی‏شــده در فصل ‪ 10‬تنها شــامل یک متغیر وابســته (‪ )Y‬بوده است که به‬ ‫وقفه‏های خود (و شاید روند معین) وابسته بوده است‪ .‬اما در الگوی ‪ VAR‬بیش‬ ‫از یک متغیر وابسته وجود دارد (برای مثال ‪ Y‬و ‪ )X‬و در آن بیش از یک معادله‬ ‫هم وجود دارد (برای مثال یکی در حالتی که ‪ Y‬متغیر وابســته است و دیگری‬ ‫برای آن‌که ‪ X‬متغیر وابســته باشد)‪ .‬هر معادله از وقفه تمامی متغیرهای مطالعه‬ ‫به‌عنوان متغیر توضیحی (و شــاید از روند قطعی) استفاده می‏نماید‪ .‬دو معادله‬ ‫باال ســاختار یک الگوی ‪ VAR‬دومتغیره را نشان می‏دهد‪ .‬برای مثال در معادل ‏ه‬ ‫اول‪ ،‬متغیر ‪ Y‬وابســته به ‪ p‬وقفه خودش و ‪ q‬وقفه ‪ X‬اســت‪ .‬تعداد وقفه ‪ p‬و ‪q‬‬ ‫می‏تواند با روش آزمون پی‌در‌پی که در فصل ‪ 10‬توضیح داده شد‪ ،‬انتخاب شود‪.‬‬

‫‪327‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫‪Xt = α 2 + δ2 t + φ21Yt −1 + … + φ2p Yt −p + β21Xt −1 + … + β2q Xt −q + e2t‬‬

‫با این حال اگر ‪ VAR‬بیش از دو متغیر داشته باشد‪ ،‬تعداد وقفه‏های بسیار زیادی‬ ‫می‏باید مورد بررســی قرار گیرد‪ .‬از این رو مرســوم است که در همه معادالت‬ ‫‪ p=q‬در نظر گرفته شــود یا به عبارتی تعداد وقفه یکســانی برای همه متغیرها‬ ‫ایجاد می‌شود که الگویی که از آن بر‏می‏آید را )‪ VAR(p‬می‏نامند‪ .‬الگوی )‪VAR(p‬‬ ‫زیر دارای سه متغیر ‪ X، Y‬و ‪ Z‬است‪:‬‬

‫‪Yt = α1 + δ1t + φ11Yt −1 + … + φ1p Yt −p + β11Xt −1 + … + β1p Xt −p + θ11Z t −1 + … + θ1p Z t −p + e‬‬

‫‪Xt −p + θ11Z t −1 + … + θ1p Z t −p + e1t‬‬

‫‪Xt = α 2 + δ2 t + φ21Yt −1 + … + φ2p Yt −p + β21Xt −1 + … + β2p Xt −p + θ21Z t −1 + … + θ2p Z t −p + e‬‬

‫‪Xt −p + θ21Z t −1 + … + θ2p Z t −p + e2t‬‬

‫‪Z t = α 3 + δ3 t + φ31Yt −1 + … + φ3p Yt −p + β31Xt −1 + … + β3p Xt −p + θ31Z t −1 + … + θ3p Z t −p + e‬‬ ‫تحلیل داده‌های اقتصادی‬

‫‪Xt −p + θ31Z t −1 + … + θ3p Z t −p + e3t‬‬ ‫‪328‬‬

‫توجــه دارید که هر معادله عالوه بــر عرض از مبدا و روند قطعی دارای ‪p‬‬

‫وقفه برای هر متغیر تحت بررسی است‪ .‬الگوی )‪ VAR(p‬با بیش از سه متغیر هم‬ ‫می‏تواند به‌شــکل مشابه تنظیم شود‪ .‬از آن‌جاکه فرض نمودیم تمامی متغیرهای‬ ‫استفاده‏شده در الگوی )‪ VAR(p‬مانا هستند‪ ،‬برآورد و آزمون فرضیه می‏تواند به‬ ‫شکل معمول صورت گیرد‪ .‬یعنی می‏توانید ضرایب هر معادله را با روش ‪OLS‬‬ ‫برآورد کنید‪ .‬آماره ‪ t‬و ‪ P-value‬محاسبه‏شــده کمک می‏کند تا تشخیص دهید‬ ‫کدام ضرایب معنی‏دار هستند‪ .‬همچنین می‏توانید به پیوست ‪ 12-1‬مراجعه کنید‬ ‫ش آزمون ‪ F‬که پیچیده‏تر است را ببینید‪.‬‬ ‫تا رو ‏‬ ‫با توضیحات باال‪ ،‬اســتفاده از مدل ‪ VAR‬ســاده خواهد بود‪ .‬شاید برای‌تان‬ ‫جالب باشــد که چنین الگویی چه کاربردی دارد و چرا کسی باید از این الگو‬ ‫اســتفاده نماید‪ .‬یکی از کاربردهای این الگو‪ ،‬آزمون علیت گرنجر است‪ .‬به این‬ ‫شــکل که الگوی ‪ VAR‬چارچوبی برای آزمون علیت گرنجر بین متغیرها ایجاد‬ ‫می‌کند‪ .‬اما در واقع دالیل مهم‏تری برای استفاده از چنین الگویی وجود دارد که‬ ‫باید به آن‌ها اشاره شود‪.‬‬

‫‪329‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫در این کتاب‪ ،‬همواره تاکید داشــتیم که در مورد تفسیر ضریب همبستگی یا‬ ‫نتایج رگرســیون به علیت یا اثرگذاری می‏باید دقت فراوانی صورت گیرد‪ .‬تئوری‬ ‫اقتصــاد و عقل متعارف در مورد برخی متغیرها می‏تواند کمک بزرگی به تفســیر‬ ‫نماید‪ .‬در فصل‏های ‪ 4‬تا ‪ 6‬مثال‌های فراوانی را بررسی کردیم که در آن‌ها‪ ،‬رگرسیون‬ ‫ت یا ‪X‬‬ ‫منعکس‏کننده علیت بود‪ .‬مثال‪( X ،‬تراکم جمعیت) علت ‪( Y‬جنگل‏زدایی) اس ‏‬ ‫(اندازه خانه( بر ‪( Y‬قیمت خانه) اثر می‌گذارد‪ .‬در هر دو حالت‪ ،‬امکان‏پذیر نیست که‬ ‫قاطعانه بگوییم ‪ Y‬علت ‪ X‬است یا فقط بر آن اثرگذار است‪.‬‬ ‫اما مثال‏های بســیاری وجود دارد که نه بر اســاس تئوری اقتصادی و نه بر‬ ‫اســاس عقل متعارف نمی‏توانید یک رابطه رگرســیونی بسازید که ضرایب آن‬ ‫را به‌عنوان علیت تفســیر کنید‪ .‬مثال‪ ،‬آیا ‪( Y‬افزایش دستمزد) علت ‪( X‬افزایش‬ ‫قیمت) است؟ یا عکس آن صادق است؟ تئوری اقتصادی و مشاهدات عمومی‬ ‫بــه ما می‏گویند که هر دو حالت ممکن اســت و شــاید آزمون علیت گرنجر‬ ‫بتواند پاسخی برای این سوال داشته باشد‪ .‬حوزه اقتصاد کالن پر است از چنین‬ ‫مثال‏هایی که نمی‏توان به‏صورت مشــخص جهت علیت را از قبل تعیین نمود‪.‬‬ ‫آیا نرخ بهره علت تغییر نرخ ارز اســت یا برعکس؟ آیا رشد ‪ GDP‬علت تغییر‬ ‫نرخ بهره است یا برعکس؟ یا هر دو؟ پاسخ به این سوال‏ها نامشخص است و‬ ‫از این رو تفسیر ضرایب رگرسیونی که ‪ Yt‬و ‪ Xt‬در آن قرار دارند دشوار است‪.‬‬ ‫پیش از این از موضوع هم‏انباشتگی و ضریب فزاینده بلندمدت صرف‏نظر کرده‬ ‫بودیم ولی باید بدانیم که اگر هم‏انباشتگی وجود داشته باشد‪ ،‬در تفسیر نتیجه برآورد‬ ‫ضرایــب به‌عنوان علیت باید احتیاط کنیم‪ .‬برای مثال در فصل ‪ 11‬یافتیم که قیمت‬ ‫‪( Y‬پرتقال ارگانیک) و ‪( X‬پرتقال معمولی) با یکدیگر هم‏انباشته هستند و ضریب‬ ‫فزاینده بلندمدتی که اثر ‪ X‬بر ‪ Y‬را نشــان می‏دهد ‪ 0/996‬اســت‪ .‬این نتیجه نشان‬ ‫می‏دهد که قیمت ‪ X‬بر ‪ Y‬اثر می‏گذارد (به‌این شکل که با افزایش ‪ 1‬واحدی قیمت‬ ‫پرتقال معمولی‪ ،‬قیمت پرتقال ارگانیک احتماال به اندازه ‪ 0/996‬واحد در بلندمدت‬ ‫افزایش می‏یابد)‪ .‬در این حالت بعید به نظر می‏رســد که قیمت پرتقال ارگانیک بر‬ ‫قیمت پرتقال معمولی اثرگذار باشد چراکه این نوع پرتقال سهم بسیار کوچکی از‬

‫تحلیل داده‌های اقتصادی‬

‫‪330‬‬

‫بازار را در اختیار دارد‪ .‬یعنی ‪ X‬بر ‪ Y‬اثرگذار است ولی ‪ Y‬بر ‪ X‬اثر نمی‏گذارد‪ .‬اما اگر‬ ‫رگرسیونی ترتیب می‏دادیم که در آن ‪ X‬متغیر وابسته می‌بود (یعنی پرتقال ارگانیک‬ ‫متغیر توضیحی و پرتقال معمولی متغیر وابســته باشد) باز هم می‏توانستیم رابطه‬ ‫هم‏انباشتگی را تشخیص دهیم و ضریب فزاینده بلندمدت را محاسبه کنیم‪ .‬اما در‬ ‫این حالت محاسبات ما دچار خطا می‌بود‪.‬‬ ‫موضوعی که در پاراگراف باال توضیح دادیم در الگوی ‪ VAR‬یا به‏طور کلی‬ ‫شکل نمی‏گیرد یا آن‌که در حد ضعیفی رخ می‏دهد‪ .‬چراکه ما از گذشته تمامی‬ ‫متغیرها برای توضیح متغیر وابسته استفاده می‏کنیم (مثال در معادله اول وقف ‏ه همه‬ ‫متغیرها از ‪ t-1‬به قبل به‌عنوان متغیر توضیحی قرار گرفته اســت‪ .‬متغیر وابسته‬ ‫نیز ‪ Yt‬اســت)‪ .‬همواره این امکان وجود دارد که گذشته بتواند اکنون را توضیح‬ ‫دهد ولی امکان ندارد که اکنون بر گذشته اثر بگذارد)‪ .‬از این رو در الگوی ‪VAR‬‬ ‫متغیرهای توضیحی ممکن اســت بر متغیر وابســته اثر بگذارند ولی این امکان‬ ‫وجود ندارد که متغیر وابســته بر متغیر توضیحی موثر واقع شود‪ .‬مساله تفسیر‬ ‫ضرایب رگرسیون ‪ Yt‬بر ‪ Xt‬در الگوی ‪ VAR‬مطرح نمی‌شود‪.‬‬ ‫یکی از موضوعات بحث‏برانگیز در مورد الگوهای ‪ VAR‬این است که آن‌ها‬ ‫غیرتئوریک هســتند‪ .‬به عبارت دیگر خیلی سفت و سخت به تئوری اقتصادی‬ ‫پایبند نیســتند‪ .‬مثال به رابطه بین نرخ بهره‪ ،‬سطح عمومی قیمت‏ها‪ ،‬عرضه پول‬ ‫و ‪ GDP‬حقیقی فکر کنیــد‪ .‬تئوری‏های اقتصاد کالن روابط پیچیده‏ای را برای‬ ‫این متغیرها در نظر می‏گیرند‪ .‬الگوی ‪ IS-LM‬شــاید یکی از شناخته‏شده‏ترین‬ ‫آن‌ها اســت ولی در واقع تعداد بیشتری از این الگوها وجود دارد‪ .‬اما در جایی‬ ‫کــه نظریه‏پرداز اقتصاد کالن می‏خواهد ایــن نظریات را به کاربردهای تجربی‬ ‫تبدیــل کند‪ ،‬کاربرد الگوهــای ‪ VAR‬در عمل توجه چندانــی به آن تئوری‏ها‬ ‫نمی‏کند‪ .‬الگوی ‪ VAR‬می‏گوید‪« :‬نرخ بهره‪ ،‬سطح قیمت‏ها‪ ،‬عرضه پول و ‪GDP‬‬ ‫حقیقی جملگی به هم مرتبط هســتند‪ .‬ما این روابط را به‏گونه‏ای اجرا می‏کنیم‬ ‫که هر متغیر به وقفه‏های خودش و وقفه همه متغیرهای دیگر وابســته باشد‪».‬‬ ‫در عمل یک رابطه واقعی بین الگوی تجربی ‪ VAR‬و تئوری اقتصاد کالن (مثل‬

‫‪ )IS-LM‬وجود ندارد‪ .‬کسانی که از ‪ VAR‬استفاده می‏کنند از این الگو به‌خاطر‬ ‫عملکرد عالی آن در پیش‏بینی دفاع می‏نمایند‪ .‬در ادامه این موضوع را با جزئیات‬ ‫بیشــتری توضیح خواهیــم داد اما در این‌جا باید تنها ایــن موضوع را به‌خاطر‬ ‫بسپارید که این موضوع دلیل محکمی برای استفاده از الگوهای ‪ VAR‬است‪ .‬در‬ ‫بسیاری مســائل‪ ،‬الگوی ‪ VAR‬پیش‏بینی بهتری نسبت به الگوهای درهم‏ریخته‬ ‫اقتصاد کالن دارد‪.‬‬

‫اقتصاددانــان اغلب از این اطالعــات اقتصاد کالن اســتفاده می‏کنند‪:‬‬ ‫‪( R‬نــرخ بهــره)‪( M ،‬عرضــه پــول)‪( P ،‬ســطح قیمت‏هــا)‪،‬‬

‫‪ GDP( Y‬حقیقی)‪ .‬با توجه به عالمت‏هایی که برای این متغیرها به کار‬

‫گرفته می‏شــود‪ ،‬به صورت غیررسمی به چنین الگوهای ‪ RMPY‬گفته‬ ‫می‏شود‪ .‬فایل ‪ RMPY.XLS‬شــامل داده‏های فصلی این متغیرها برای‬

‫آمریکا طی دوره زمانی‪ 1947Q1‬تا‪ 1992Q4‬می‏باشد‪:‬‬ ‫• نرخ بهره سه ماهه اوراق خزانه (‪)R‬‬

‫• عرضه پول (‪ )M‬و در مقیاس میلیارد دالر (‪)M2‬‬

‫• ســطح عمومی قیمت‏ها بر اساس شاخص ضمنی بر اساس سال پایه‬ ‫‪)P( 1987‬‬

‫• تولیــد ناخالص حقیقی در مقیاس میلیــارد دالر بر مبنای قیمت‏های‬ ‫‪)Y( 1987‬‬

‫پیش از آن‌که تحلیلی بر روی این داده‏ها صورت گیرد‪ ،‬باید آزمون ریشه‬ ‫واحد انجام شود‪ .‬به‌خاطر دارید که اگر ریشه واحد وجود داشته باشد ولی‬ ‫رابطه هم‏انباشتگی در بین نباشد‪ ،‬امکان شکل‏گیری رگرسیون ساختگی‬

‫وجود خواهد داشــت‪ .‬در این صورت باید با داده‏های دیگری کار کنید‪.‬‬

‫‪331‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫مثال ‪ 12-3‬الگوی )‪ VAR(1‬با متغیرهای ‪RMPY‬‬

‫در سوی مقابل اگر ریشــه واحد وجود داشته باشد و هم‏انباشتگی بین‬

‫داده‏ها هم در بین باشد‪ ،‬آن‌گاه اطالعات اقتصادی مهمی در اختیار است‬

‫که نشانگر هم‏سو بودن و رفتار روندگونه مشابه متغیرها است‪.‬‬

‫در این مســاله‪ ،‬فرضیه وجود ریشــه واحد و عدم وجود هم‏انباشتگی‬

‫رد نشده اســت‪ .‬بنابراین برای پرهیز از رگرسیون ساختگی با داده‏های‬ ‫متفاوتــی کار خواهیم کــرد‪ .‬در این خصوص ابتــدا از داده‏ها لگاریتم‬ ‫می‏گیریم و ســپس تفاضل آن را محاسبه می‏نماییم و بعد آن را در ‪100‬‬

‫ضرب می‏کنیم‪ .‬حاال با درصد تغییرات داده‏های اصلی روبه‌رو هســتیم‬

‫(برای مثال عدد ‪ 1‬به معنی ‪ 1‬درصد تغییر است)‪ .‬یعنی‪:‬‬ ‫درصد تغییر در نرخ بهره ( ‪) ∆R‬‬

‫تحلیل داده‌های اقتصادی‬

‫درصد تغییر در عرضه پول ( ‪) ∆M‬‬

‫‪332‬‬

‫درصد تغییر در سطح عمومی قیمت‏ها که همان تورم است ( ‪) ∆P‬‬

‫درصد تغییر در تولید ناخالص داخلی که همان رشد اقتصادی است ( ‪) ∆Y‬‬

‫جــدول ‪ 12-7‬نتایج برآورد ‪ OLS‬الگوی )‪ VAR(1‬را نشــان می‏دهد‪.‬‬

‫توجه داشــته باشــید که این جدول اندک تفاوت‏هایی با جداول قبلی‬ ‫دارد‪ .‬از آن‌جاکه چهار متغیر در الگوی ‪ VAR‬وجود دارند‪ ،‬چهار معادله‬

‫نیز برای آن‌ها شکل گرفته است‪ .‬نتیجه برآورد برای هر چهار معادله را‬ ‫در یک جدول گزارش شــده است‪ .‬برای جا شدن کل نتایج‪ ،‬تنها نتیجه‬

‫برآورد ضریب و ‪ P-value‬آن را در جدول قرار دادیم‪.‬‬

‫با تفکیک ضرایب معنی‏دار (آن‌هایی که ‪ P-value‬کمتر از ‪ 0/05‬دارند)‬

‫به رفتارهای جالبی پی می‏بریم‪ .‬نخســت این‌که در همه معادالت وقفه‬ ‫متغیر وابسته معنی‏دار اســت‪ .‬مثال در معادله اول که متغیر وابسته‬

‫‪∆R‬‬

‫است‪ ،‬ضریب مربوط به ‪ ∆R t −1‬معنی‏دار است‪ .‬دوم این‌که نتایج اطالعات‬

‫خوبی از علیت گرنجر به ما می‏دهند‪ .‬در معادله‏ای که ‪ ∆R‬متغیر وابسته‬ ‫است‪ ،‬می‏توانیم ببینیم که هم رشد ‪ GDP‬و هم رشد پول‪ ،‬علت گرنجری‬

‫نرخ بهره هستند‪ .‬به عبارت دیگر‪ ،‬وقفه‌های این دو متغیر قادر به توضیح‬ ‫مقدار کنونی نرخ بهره است‪ .‬با توجه به معادله ‪ ، ∆M‬درمی‏یابیم که رابطه‬

‫علیــت گرنجر بین نرخ بهره و عرضه پول در هر دو ســمت در جریان‬ ‫است‪.‬‬

‫جالب اســت که نرخ تورم علت گرنجری هیچ متغیری نیست اما ‪∆R‬‬

‫و ‪ ∆M‬هــر دو‪ ،‬علت گرنجری تورم هســتند‪ .‬اقتصاددانان حوزه کالن با‬ ‫اســتفاده از این اطالعات می‏توانند به پرسش‏های نظری خاصی پاسخ‬

‫بدهند (مثال آیا تــورم یک پدیده کامال پولی اســت؟ آیا نتایج تجربی‬ ‫دیــدگاه پولیون را مورد حمایت قرار می‏دهد؟ یــا از دیدگاه کینزین‏ها‬

‫حمایت می‌شــود؟ آیا بخش واقعی اقتصاد بر تورم اثرگذار است؟)‪ ،‬اما‬ ‫بحث در مورد جزئیات این موضوعات فراتر از این کتاب است‪.‬‬ ‫جدول ‪ .12-7‬نتایج برآورد‬ ‫‪ ‬‬

‫متغیر وابسته‬

‫الگوی ‪ VAR‬برای ‪RMPY‬‬

‫متغیر وابسته‬

‫متغیر وابسته‬

‫متغیر وابسته‬

‫ضریب‬

‫‪P-value‬‬

‫ضریب‬

‫‪P-value‬‬

‫ضریب‬

‫‪P-value‬‬

‫ضریب‬

‫‪P-value‬‬

‫عرض از مبدا‬

‫‪-3/631‬‬

‫‪0/162‬‬

‫‪0/335‬‬

‫‪0/001‬‬

‫‪0/161‬‬

‫‪0/138‬‬

‫‪0/495‬‬

‫‪0/005‬‬

‫‪∆R t −1‬‬

‫‪0/222‬‬

‫‪0/003‬‬

‫‪-0/013‬‬

‫‪0/000‬‬

‫‪0/010‬‬

‫‪0/002‬‬

‫‪0/00‬‬

‫‪0/940‬‬

‫‪∆Mt −1‬‬

‫‪3/391‬‬

‫‪0/007‬‬

‫‪0/749‬‬

‫‪0/000‬‬

‫‪0/121‬‬

‫‪0/021‬‬

‫‪0/283‬‬

‫‪0/000‬‬

‫‪∆Pt −1‬‬

‫‪1/779‬‬

‫‪0/228‬‬

‫‪0/061‬‬

‫‪0/303‬‬

‫‪0/519‬‬

‫‪0/000‬‬

‫‪-0/117‬‬

‫‪0/242‬‬

‫‪∆Yt −1‬‬

‫‪3/224‬‬

‫‪0/004‬‬

‫‪-0/032‬‬

‫‪0/480‬‬

‫‪-0/039‬‬

‫‪0/407‬‬

‫‪0/309‬‬

‫‪0/000‬‬

‫روند‬

‫‪-0/056‬‬

‫‪0/011‬‬

‫‪0/00‬‬

‫‪0/695‬‬

‫‪0/002‬‬

‫‪0/048‬‬

‫‪-0/003‬‬

‫‪0/035‬‬

‫‪333‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫اما نرخ بهره علت گرنجری ‪ GDP‬نیســت و این رابطه یک‏سویه است‪.‬‬

‫مترین ‪12-6‬‬

‫از داده‏های ‪ R، M، P‬و ‪ Y‬در ‪ RMPY.XLS‬استفاده کنید‪.‬‬ ‫(الف) آزمون ریشه واحد را برای هر متغیر انجام دهید‪.‬‬

‫(ب) آزمون هم‏انباشتگی را برای متغیرها انجام دهید‪.‬‬

‫(ج) از داده‏های ‪ ∆P ، ∆M ، ∆R‬و ‪ ∆Y‬در ‪ RMPY.XLS‬اســتفاده کنید و آزمون‬ ‫ریشه واحد را برای آن‌ها انجام دهید‪.‬‬

‫انتخاب وقفه در الگوهای ‪VAR‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪334‬‬

‫نتیجه مثال ‪ 12-3‬که بر اســاس الگوی )‪ VAR(1‬بنا شــده بود که در آن ‪ p=1‬را‬ ‫انتخــاب کرده بودیم و در نتیجه همه متغیرهــای توضیحی با یک وقفه بر متغیر‬ ‫وابســته اثر می‏گذاشتند‪ .‬اما در حالت کلی شاید بخواهیم که ‪ p‬را به مقادیر غیر از‬ ‫یک تعمیم دهیم‪ .‬ادبیات انبوهی در ارتباط با انتخاب وقفه در الگوهای ‪ VAR‬وجود‬ ‫دارد که عموم آن‌ها پیچیده هستند و نمی‏توان آن‌ها را به کمک اکسل اجرا کرد‪ .‬اما‬ ‫بسته‏های نرم‏افزاری خروجی‏های مختلفی در ارتباط با انتخاب وقفه ارائه می‏دهند‪.‬‬ ‫مثال نرم‏افزار ‪ Stata‬اطالعات مختلفی در این زمینه ارائه می‏دهد که از جمله آن‌ها‬ ‫معیار آکائیک‪ ،)AIC( 1‬معیار شوارز‪-‬بیز‪ )SBIC( 2‬و معیار هانان‪-‬کوئین‪)HQIC( 3‬‬ ‫است‪ .‬توضیح کامل پیرامون آن‌ها به درک مفاهیمی نیاز دارد که فراتر از سطح این‬ ‫کتاب است‪ .‬اما برای استفاده از آن‌ها الزم است بدانید که از این معیارها برای تمامی‬ ‫وقفه‏های ‪ VAR‬از ‪ 1‬تا ‪ pmax‬می‌توان اســتفاده کرد (حداکثر وقفه‏ای که منطقی به‬ ‫نظر می‏رسد)‪ .‬آن‌گاه آن وقفه‏ای را انتخاب پایین‌تر می‌کنید که اندازه معیارها در آن‬ ‫کوچک‌ترین باشد‪ .‬همچنین‪ ،‬روش استفاده از آماره ‪ t‬و ‪ P-value‬که در این کتاب‬ ‫به آن اشاره کردیم هم می‏تواند اطالعات مهمی در مورد تعداد وقفه‌ها به ما بدهد‪.‬‬ ‫این نکات در مثال ‪ 12-4‬توضیح داده می‏شود‪.‬‬

‫‪1- Akaike’s information criterion‬‬ ‫‪2- Schwarz-Bayes information criterion‬‬ ‫‪3- Hannan-Quinn information criterion‬‬

‫مثال ‪ 12-4‬الف‪ :‬الگوی )‪VAR(2‬با متغیرهای ‪RMPY‬‬ ‫در مثــال ‪ 12-3‬از داده‏های ‪∆P ، ∆M ، ∆R‬‬

‫و ‪ ∆Y‬برای برآورد یک الگوی‬

‫)‪ VAR(1‬استفاده نمودیم‪ .‬حال در جدول ‪ 12-8‬برآورد یک الگوی )‪VAR(2‬‬

‫نشان داده شده است‪ .‬ضرایب متعددی از وقفه دوم متغیرها معنی‏دار هستند‪.‬‬

‫برای مثال ‪ ∆R t −2‬در معادله‏ای که ‪ ∆R t‬متغیر وابسته است معنی‏دار است‪ .‬این‬ ‫نشان می‏دهد که الگوی )‪ VAR(1‬استفاده‏شده در مثال ‪ 12-3‬مناسب نبوده‬ ‫همراه داشته باشد‪ ،‬نگاه دقیقی به معادله‏ای که ‪ ∆Y‬در آن متغیر وابسته است‬

‫بیاندازید‪ .‬به‌خاطر دارید که در الگوی )‪ VAR(1‬نتیجه گرفته بودیم که تورم‬ ‫علت گرنجری رشد ‪ GDP‬نیست‪ .‬حاال در الگوی )‪ VAR(2‬به این نتیجه‬

‫می‏رسیم که تورم علت گرنجری رشد ‪ GDP‬هست‪ .‬با توجه به این‌که رابطه‬ ‫بین تورم و رشد ‪ GDP‬یکی از موضوعات بسیار بحث‏برانگیز در اقتصاد‬

‫کالن مدرن است‪ ،‬بهای سنگینی بابت انتخاب الگوی غلط )‪ VAR(1‬باید‬ ‫پرداخت شود‪.‬‬

‫جدول ‪ .12-7‬نتایج برآورد‬ ‫‪ ‬‬

‫متغیر وابسته‬ ‫ضریب‬

‫الگوی ‪ VAR‬برای ‪RMPY‬‬

‫متغیر وابسته‬

‫‪P-value‬‬

‫ضریب‬

‫‪-4/00‬‬

‫‪0/103‬‬

‫‪0/261‬‬

‫‪0/017‬‬

‫‪∆R t −1‬‬

‫‪0/315‬‬

‫‪0/000‬‬

‫‪-0/017‬‬

‫‪0/000‬‬

‫‪∆Mt −1‬‬

‫عرض از مبدا‬

‫متغیر وابسته‬

‫متغیر وابسته‬

‫‪P-value‬‬

‫ضریب‬

‫‪P-value‬‬

‫ضریب‬

‫‪P-value‬‬

‫‪0/113‬‬

‫‪0/311‬‬

‫‪0/513‬‬

‫‪0/006‬‬

‫‪0/009‬‬

‫‪0/004‬‬

‫‪0/002‬‬

‫‪0/670‬‬

‫‪2/824‬‬

‫‪0/106‬‬

‫‪0/655‬‬

‫‪0/000‬‬

‫‪0/086‬‬

‫‪0/280‬‬

‫‪0/310‬‬

‫‪0/019‬‬

‫‪∆Pt −1‬‬

‫‪3/049‬‬

‫‪0/061‬‬

‫‪-0/020‬‬

‫‪0/785‬‬

‫‪0/366‬‬

‫‪0/000‬‬

‫‪0/074‬‬

‫‪0/545‬‬

‫‪∆Yt −1‬‬

‫‪3/696‬‬

‫‪0/000‬‬

‫‪-0/051‬‬

‫‪0/270‬‬

‫‪-0/010‬‬

‫‪0/835‬‬

‫‪0/270‬‬

‫‪0/001‬‬

‫‪∆R t − 2‬‬

‫‪-0/346‬‬

‫‪0/000‬‬

‫‪0/003‬‬

‫‪0/298‬‬

‫‪-0/001‬‬

‫‪0/795‬‬

‫‪-0/010‬‬

‫‪0/085‬‬

‫‪∆Mt − 2‬‬

‫‪-2/201‬‬

‫‪0/213‬‬

‫‪0/157‬‬

‫‪0/045‬‬

‫‪0/025‬‬

‫‪0/755‬‬

‫‪-0/094‬‬

‫‪0/480‬‬

‫‪∆Pt − 2‬‬

‫‪1/164‬‬

‫‪0/457‬‬

‫‪0/095‬‬

‫‪0/170‬‬

‫‪0/282‬‬

‫‪0/000‬‬

‫‪-0/233‬‬

‫‪0/049‬‬

‫‪∆Yt − 2‬‬

‫‪1/085‬‬

‫‪0/303‬‬

‫‪0/036‬‬

‫‪0/445‬‬

‫‪-0/046‬‬

‫‪0/334‬‬

‫‪0/153‬‬

‫‪0/054‬‬

‫روند‬

‫‪-0/045‬‬

‫‪0/029‬‬

‫‪0/00‬‬

‫‪0/798‬‬

‫‪0/001‬‬

‫‪0/209‬‬

‫‪-0/003‬‬

‫‪0/104‬‬

‫‪335‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫است‪ .‬برای آن‌که بدانید انتخاب الگوی اشتباه ممکن است چه اشکاالتی به‬

‫مترین ‪12-7‬‬

‫از نتایج جدول ‪ 12-8‬استفاده کنید‪ .‬علیت گرنجر بین متغیرها را بررسی کنید‪.‬‬

‫مترین ‪12-8‬‬

‫از داده‏های ‪ ∆P ، ∆M ، ∆R‬و ‪ ∆Y‬در فایل ‪ RMPY.XLS‬استفاده کنید‪:‬‬

‫(الف) با وقفه ‪ pmax = 5‬شروع کنید‪ .‬وقفه مناسب ‪ VAR‬انتخاب کنید‪.‬‬

‫(ب) از نتایج قســمت الف اســتفاده و رابطه علیت گرنجر بین متغیرها را بررسی‬ ‫کنید‪.‬‬

‫مترین ‪12-9‬‬

‫تحلیل داده‌های اقتصادی‬

‫مجموعه داده‏های ‪ LONGGDP.XLS‬همان‏طور که به‌خاطر دارید شــامل ‪GDP‬‬

‫سرانه چهار کشور بزرگ انگلیسی‏زبان (انگلستان‪ ،‬آمریکا‪ ،‬استرالیا و کانادا) است‪.‬‬

‫‪336‬‬

‫دوره زمانی داده‏ها ‪ 1870‬الی ‪ 1993‬است‪ .‬تفاضل داده‏ها را به‏دست آورید تا رشد‬ ‫‪ GDP‬ســرانه این چهار کشور را داشته باشید‪ .‬یک الگوی ‪ VAR‬برای این داده‏ها‬ ‫بسازید‪.‬‬

‫پیش‏بینی با الگوهای ‪VAR‬‬

‫با وجود این‌که پیش‏بینی یکی از فعالیت‏های مهم اقتصاددانان به‌شــمار می‏رود‪،‬‬ ‫در این کتاب مطالب اندکی درباره آن گفته‏ایم‪ .‬اما حوزه پیش‏بینی بسیار گسترده‬ ‫است‪ .‬با توجه به انبوه مطالعات و روش‏های مختلف تا حدودی غیرممکن است‬ ‫که این حوزه را در کتابی این‌چنین پوشــش دهیم‪ .‬با این وجود عموم بسته‏های‬ ‫نرم‏افزاری دارای امکانات خاص پیش‏بینی هستند که استفاده از آن‌ها هم بسیار‬ ‫آســان اســت‪ .‬وقتی الگویی را برآورد کردید (مثال یک الگوی ‪ VAR‬یا ‪،)AR‬‬ ‫به‏سادگی فشــردن یک دکمه می‏توانید عملیات پیش‏بینی را انجام دهید‪ .‬به‌بیان‬ ‫دیگر‪ ،‬بسیاری از بسته‏های نرم‏افزاری می‏توانند خروجی پیش‏بینی را ارائه دهند‬

‫‪Yt = α1 + δ1t + φ11Yt −1 + β11Xt −1 + e1t‬‬ ‫‪Xt = α 2 + δ2 t + φ21Yt −1 + β21Xt −1 + e2t‬‬

‫نمی‏توان ‪ YT +1‬را مشاهده کرد‪ ،‬اما شاید بخواهید حدسی در مورد آن بزنید‪.‬‬ ‫از معادله اول الگوی ‪ VAR‬اســتفاده کنید و ‪ t=T+1‬قرار دهید‪ .‬آن‌گاه به تعریفی‬ ‫از ‪ YT +1‬می‏رسیم‪:‬‬ ‫‪YT +1 = α1 + δ1 ( T + 1) + φ11YT + β11XT + e1T +1‬‬

‫این معادله به‏صورت مســتقیم برای دســتیابی به ‪ YT +1‬کافی نیست‪ ،‬چراکه‬ ‫اطالعی از ‪ e1T +1‬نداریم‪ :‬نمی‏دانیم چه تکانه‏های پیش‏بینی نشده‏ای در دوره آتی‬ ‫به اقتصاد وارد خواهد شد‪ .‬از سوی دیگر‪ ،‬نمی‏دانیم مقدار ضرایب چقدر است‪.‬‬ ‫اما اگر از مقدار جمله خطا (که قابل پیش‏بینی نیســت) صرف‏نظر کنیم‪ ،‬آن‌گاه‬ ‫∧‬ ‫می‏توانیم با برآورد ‪ OLS‬ضرایب به پیش‏بینی ‪ Y T +1‬برسیم‪:‬‬ ‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫‪Y T +1 = α1 + δ1 ( T + 1) + φ11 YT + β11 XT‬‬

‫‪337‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫بدون آن‌که نیاز به درک عمیقی از فرایند پیش‏بینی داشته باشید‪.‬‬ ‫در این‌جا مقدمــه مختصری برای برخی مفاهیم مرتبــط با پیش‏بینی ارائه‬ ‫می‏دهیم‪ .‬تمامی مباحثی که در ادامه خواهیم داشت به پیش‏بینی الگوهای ‪VAR‬‬ ‫اختصاص دارد با این حال توجه به این نکته مهم اســت که تمامی این مفاهیم‬ ‫را می‏توانیــد به پیش‏بینی در الگوهای ســری‏زمانی تک‏معادله تعمیم دهید‪ .‬در‬ ‫مجموع می‏دانیم که یک الگوی ‪ AR‬شبیه ‪ VAR‬است با این تفاوت که تنها یک‬ ‫معادله دارد‪.‬‬ ‫پیش‏بینی غالبا زمانی انجام می‏شود که داده‏های سری‏زمانی در اختیارمان باشد‪.‬‬ ‫شما بر اساس مشاهداتان حدس می‏زنید که چه اتفاقی در آینده رخ خواهد داد‪ .‬به‬ ‫بیان فنی‏تر‪ ،‬شما داده‏های دوره زمانی ‪ t = 1, … ,t‬را برای پیش‏بینی دوره زمانی ‪T+1،‬‬ ‫‪ T+2‬و بیشتر استفاده می‏کنید‪ .‬برای درک این‌که چگونه پیش‏بینی انجام می‏شود به‬ ‫الگوی )‪ VAR(1‬زیر که دارای دو متغیر ‪ Y‬و ‪ X‬است توجه کنید‪:‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪338‬‬

‫توجه داشــته باشید که همه چیز در فرمول باال از داده‏های اصلی یا برآورد‬ ‫رگرسیونی قابل دستیابی است‪ .‬فقط باید چند عدد (ضرایب برآورد‏شده بر اساس‬ ‫∧‬ ‫‪ ،OLS‬مقدار ‪ XT ، YT‬و‪ )T+1‬را جایگذاری نمایید تا مقدار ‪ Y T +1‬را محاســبه‬ ‫∧‬ ‫کنید‪ .‬به‌روش مشابه می‏توانید به مقدار ‪ XT +1‬دست یابید‪ .‬شاید پیش‏بینی کردن‬ ‫به این روش وقت‏گیر و خسته‏کننده باشد ولی بسته‏های نرم‏افزاری قادر به انجام‬ ‫تمامی این محاسبات هستند‪.‬‬ ‫در پاراگراف باال شــیوه پیش‏بینی برای یک دوره آینده را شــرح دادیم‪.‬‬ ‫می‏توانیم راهبرد مشــابهی برای دو دوره آتی هم انجام دهیم‪ ،‬الزم است که‬ ‫تنها یک بســط اضافی انجام دهیم‪ .‬در حالتی که می‏خواســتیم یک دوره را‬ ‫∧‬ ‫∧‬ ‫پیش‏بینی کنیم از ‪ XT‬و ‪ YT‬اســتفاده می‏کردیم تا ‪ Y T +1‬و ‪ XT +1‬را به‏دســت‬ ‫∧‬ ‫آوریــم‪ .‬در حالتی که بخواهیــم دو دوره را پیش‏بینی کنیم‪ ،‬آن‌گاه ‪ Y T + 2‬و‬ ‫∧‬ ‫‪ XT + 2‬به ‪ YT +1‬و ‪ XT +1‬وابســته هســتند‪ .‬اما با توجه به این‌که داده‏های ما‬ ‫حداکثــر تا دوره ‪ T‬وجــود دارد از مقادیر ‪ YT +1‬و ‪ XT +1‬اطالعی نداریم‪ .‬از‬ ‫∧‬ ‫∧‬ ‫ایــن رو مقادیر ‪ YT +1‬و ‪ XT +1‬را بــا ‪ Y T +1‬و ‪ XT +1‬جایگذاری می‏کنیم‪ .‬به‬ ‫ایــن ترتیب ما از معادله مربوطــه ‪ VAR‬بدون در نظر گرفتن جمله انحراف‪،‬‬ ‫جایگذاری ضرایب ‪ OLS‬و مقادیر گذشــته متغیرها برای پیش‏بینی اســتفاده‬ ‫خواهیم کرد‪ .‬در فرمول زیر داریم‪:‬‬ ‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫‪Y T + 2 = α1 + δ1 ( T + 2 ) + φ11 Y T +1 + β11 XT +1‬‬

‫معادله باال را می‏توانید در اکســل به‏دست آورید هرچند کمی خسته‏کننده‬ ‫∧‬ ‫است‪ .‬همچنین مقدار ‪ X T + 2‬را در معادله زیر می‏توان محاسبه نمود‪.‬‬ ‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫∧‬

‫‪XT + 2 = α 2 + δ2 ( T + 2 ) + φ21 Y T +1 + β21 XT +1‬‬

‫با چشم‏پوشــی از مقدار انحرافی که می‏تواند در هر دوره وجود داشــته باشد‪،‬‬ ‫می‏توانیــم این روش را به دوره‏های بیشــتری تعمیم دهیــم‪ .‬در هر دوره ضمن‬ ‫جایگذاری ضرایب ‪ OLS‬و مقادیر گذشته متغیرها می‏توانیم اقدام به پیش‏بینی نماییم‪.‬‬ ‫مطالب قبلی پیرامون نحوه محاسبه برآورد نقطه‏ای پیش‏بینی بود‪ .‬قطعا آن‌چه‬

‫‪339‬‬

‫مثال ‪ 12-4‬ب‪ :‬الگوی (‪VAR)2‬متغیرهای ‪RMPY‬‬

‫در این مثال‪ ،‬پیش‏بینی چهار متغیر ‪ ∆P ، ∆M ، ∆R‬و ‪ ∆Y‬را بر اســاس‬ ‫داده‏هــای ‪ RMPY.XLS‬ایجاد کرده‏ایم‪ .‬در مثــال ‪ 12-4‬الف الگوی‬

‫)‪ VAR(2‬را بــرای این داده‏ها طی دوره زمانی‪ 1947Q2‬تا ‪1992Q4‬‬

‫اســتفاده نمودیم‪ .‬روش مرسوم این است که تعدادی از داده‏ها را برای‬

‫مقایســه پیش‏بینی نگه داشــته باشــیم‪ .‬بنابراین در این‌جا از داده‏های‬ ‫‪ 1947Q2‬تا‪ 1991Q4‬اســتفاده و الگوی )‪ VAR(2‬را برآورد کردیم؛‬

‫ســپس پیش‏بینی برای دوره‪ 1992Q1‬تــا‪ 1992Q4‬انجام می‏دهیم و‬ ‫بعد پیش‏بینی انجام‏شده برای سال ‪ 1992‬را با واقعیت مقایسه می‏کنیم‪.‬‬ ‫این مقایسه‪ ،‬دیدگاه روشنی در مورد دقت عملکرد پیش‏بینی در الگوی‬

‫فوق می‏دهد‪.‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫که در واقعیت رخ خواهد داد کامال شــبیه به پیش‏بینی شــما نخواهد بود‪ .‬در‬ ‫فصل ‪ ،5‬مطالب مشابهی را عنوان کردیم‪ .‬گفتیم که ‪ OLS‬تنها مقادیری را برای‬ ‫ضرایــب معین می‏کنند که نمی‏تواند کامال دقیق باشــد‪ .‬به‌همین دلیل در ادامه‬ ‫تخمین ‪ ،OLS‬پیشــنهاد دادیم که سطح اطمینان را به‏دست آوریم‪ .‬این موضوع‬ ‫بازخوردی از ســطح بی‏اطمینانی ما نسبت به مقدار ضرایب برآورد شده است‪.‬‬ ‫هنگام پیش‏بینی نیز‪ ،‬محاســبه سطوح اطمینان می‏تواند تا حدودی آگاهی‏بخش‬ ‫باشــد‪ .‬این اقدام زمانی بیشتر عمومیت می‏یابد که نهادهای دولتی هم بخواهند‬ ‫برای پیش‏بینی‏های خود ســطوح اطمینان را گزارش نمایند‪ .‬مثال بانک مرکزی‬ ‫ممکن است اطالعیه‏ای را به این شرح صادر کند‪« :‬پیش‏بینی ما از تورم در سال‬ ‫آینده ‪ 1/8‬درصد است و ‪ 95‬درصد اطمینان داریم که این نرخ بین ‪ 1/45‬درصد‬ ‫تا ‪ 2/15‬درصد خواهد بود»‪ .‬بسیاری از بسته‏های نرم‏افزاری به‏صورت خودکار‬ ‫این سطوح اطمینان را محاسبه می‏نمایند‪.‬‬

‫جدول ‪ 12-9‬شــامل پیش‏بینی و مقدار واقعی تورم و رشــد‬

‫‪GDP‬‬

‫در ســال ‪ 1992‬است‪ .‬در تفســیر باید توجه داشته باشید که متغیرها‬

‫درصد تغییر در فصل هستند‪.‬مثال‪ ،‬پیش‏بینی نرخ تورم‬

‫در ‪1992Q2‬‬

‫برابر با ‪ 0/731‬اســت که یعنی تورم ‪ 2/96‬درصدی در سال‪ .‬جدول‬ ‫‪ 12-9‬نشــان می‏دهد که الگوی )‪ VAR(2‬پیش‏بینی‏های خوبی برای‬

‫تورم داشــته اســت به‏جز‪ 1992Q3‬که تورم واقعی به شــکل غیر‬ ‫معمولی پایین بوده اســت‪ .‬اما پیش‏بینی برای رشد ‪ GDP‬به‌هیچ‌وجه‬ ‫خوب نیست‪ .‬در الگوی ‪ VAR‬که ســاخته‏ایم‪ ،‬رشد اقتصادی کندتر‬

‫از واقعیت پیش‏بینی شده است‪.‬‬ ‫تحلیل داده‌های اقتصادی‬

‫جدول ‪ .12-9‬پیش‏بینی تورم و رشد ‪ GDP‬برای سال ‪ 1992‬با‬ ‫‪ ‬‬

‫‪340‬‬

‫پیش‏بینی‬

‫‪∆P‬‬

‫واقعیت‬

‫‪∆P‬‬

‫پیش‏بینی‬

‫‪∆P‬‬

‫الگوی)‪VAR(2‬‬ ‫واقعیت‬

‫‪∆P‬‬

‫‪1992Q1‬‬

‫‪0/626‬‬

‫‪0/929‬‬

‫‪-0/019‬‬

‫‪0/865‬‬

‫‪1992Q2‬‬

‫‪0/731‬‬

‫‪0/689‬‬

‫‪0/220‬‬

‫‪0/698‬‬

‫‪1992Q3‬‬

‫‪0/862‬‬

‫‪0/289‬‬

‫‪0/275‬‬

‫‪0/838‬‬

‫‪1992Q4‬‬

‫‪0/940‬‬

‫‪0/813‬‬

‫‪0/271‬‬

‫‪1/393‬‬

‫مترین ‪12-10‬‬

‫از متغیرهای ‪ ∆P ، ∆M ، ∆R‬و ‪ ∆Y‬در ‪ RMPY.XLS‬استفاده کنید‪.‬‬

‫(الف) در مثال ‪ 12-4‬ب‪ ،‬از الگوی ‪ )VAR(2‬اســتفاده شده بود‪ .‬از الگوی )‪ VAR(p‬با‬ ‫مقادیر مختلف ‪( p‬مثال ‪ p=3‬و ‪ )p=4‬برای پیش‏بینی سال ‪ 1992‬استفاده کنید‪ .‬آیا هیچ‬

‫یک از این الگوهای ‪ VAR‬می‏توانند پیش‏بینی بهتری ارائه دهند‪.‬‬

‫(ب) داده‏هایی که در مثال ‪ 12-4‬ب اســتفاده شــده است طی دوره‪ 1947Q2‬تا‬ ‫‪ 1991Q1‬برای پیش‏بینی سال ‪ 1992‬استفاده شده است‪ .‬حاال از داده‏های‪1947Q2‬‬

‫تا‪ 1990Q4‬برای پیش‏بینی سال ‪ 1991‬و ‪( 1992‬یعنی دو سال) استفاده کنید‪.‬‬

‫ج‪ .‬همینطور ســعی کنید که پیش‏بینی را برای دوره‏های طوالنی‏تری استفاده کنید‪.‬‬ ‫مثال در قسمت ب‪ ،‬پیش‏بینی برای دو سال انجام شده بود‪ .‬حاال پیش‏بینی را برای‬ ‫سه سال انجام دهید‪ .‬چهار سال‪ ،‬پنج سال و همینطور بیشتر‪ .‬نتایج را بررسی کنید‪.‬‬

‫آیا به این نتیجه می‏رسید که ‪ VAR‬در دوره‏های کوتاه‏مدت پیش‏بینی بهتری نسبت‬

‫به دوره بلندمدت ارائه می‏دهد‪.‬‬

‫خودرگرسیونی برداری همراه با هم‏انباشتگی‬

‫‪341‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫در ابتدای بررسی موضوع الگوهای ‪ VAR‬فرض کردیم که همه متغیرها مانا هستند‪.‬‬ ‫اگر برخی از متغیرهای اصلی ریشــه واحد داشته باشند و هم‏انباشته نباشند‪ ،‬آن‌گاه‬ ‫آن متغیری که ریشه واحد دارد می‏باید تفاضل‏گیری شود و حاصل مانا شده آن در‬ ‫الگوی ‪ VAR‬وارد گردد‪ .‬این همه حاالت را پوشش می‏دهد به‏جز حالتی که متغیرها‬ ‫ریشه واحد داشته باشند و در عین‏حال هم‏انباشته هم باشند‪.‬‬ ‫به‌خاطر دارید که در این حالت‪ ،‬هنگام بحث در مورد علیت گرنجر‪ ،‬پیشنهاد‬ ‫داده بودیم که با ‪ ECM‬کار کنید‪ .‬راهبرد مشــابهی در این‌جا هم قابل اســتفاده‬ ‫اســت‪ .‬به‏صورت ویژه‪ ،‬در کنار کار بر روی الگوهای خودرگرسیونی برداری‬ ‫(‪ )VAR‬باید بــا کارکرد الگوهای تصحیح خطای برداری (‪ )VECM‬نیز آشــنا‬ ‫شــوید‪ .‬مانند ‪ ،VAR‬الگوی ‪ VECM‬نیز دارای یک معادله برای هر متغیر است‪.‬‬ ‫اگر دو متغیر ‪ X‬و ‪ Y‬وجود داشــته باشد‪ ،‬آن‌گاه الگوی ‪ VECM‬به صورت زیر‬ ‫خواهد بود‪:‬‬

‫‪∆Yt = ϕ1 + δ1t + λ1et −1 + γ11∆Yt −1 + … + γ1p ∆Yt −p + ω11∆Xt −1 + … + ω1q ∆Xt − q + ε1t‬‬ ‫‪+ ω11∆Xt −1 + … + ω1q ∆Xt − q + ε1t‬‬

‫‪∆Xt = ϕ2 + δ2 t + λ 2 et −1 + γ 21∆Yt −1 + … + γ 2p ∆Yt −p + ω21∆Xt −1 + … + ω2q ∆Xt − q + ε‬‬ ‫‪+ ω21∆Xt −1 + … + ω2q ∆Xt − q + ε2t‬‬ ‫همان‏طور که قبال دیده‏ایم ‪Yt −1 − α − βXt −1‬‬ ‫=‪ e‬است‪ .‬توجه دارید که‬ ‫‪t −1‬‬ ‫‪ VECM‬شــبیه الگوی ‪ VAR‬اســت که تفاضل متغیرها در آن وارد شده است‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪342‬‬

‫تفاوت دو الگو در عبارت ‪ et −1‬اســت‪ .‬دســتیابی به این عبارت از مسیر برآورد‬ ‫‪ OLS‬رگرسیونی بین ‪ Y‬و ‪ X‬میسر است که جمله پسماند آن ذخیره شود‪ .‬آن‌گاه‬ ‫می‏توانیم با روش ‪ OLS‬برآورد الگوی ‪ ECM‬و ‪ P-value‬و ســطوح اطمینان را‬ ‫به‏دســت آوریم‪ .‬تعیین تعداد وقفه‏ها و پیش‏بینی به همان روشی که در الگوی‬ ‫‪ VAR‬مشاهده شــد قابل اجرا است؛ تنها با اضافه شدن این پیچیدگی که برای‬ ‫پیش‏بینی عبارت تصحیح خطا نیاز به مقدار محاسبه‏شــده ‪ et‬خواهیم داشت‪.‬‬ ‫این مورد به‏ســادگی و با برآورد مقادیر ‪ α‬و ‪ β‬و جایگزینی ‪ et‬با پســماند ‪ut‬‬ ‫امکان‏پذیر است‪ .‬البته بسته‏های نرم‏افزاری برآورد‪ ،‬آزمون فرضیه و پیش‏بینی در‬ ‫الگوهای ‪ VECM‬را به‏صورت خودکار انجام می‏دهند‪.‬‬ ‫مانند همــه الگوهای قبلی‪ ،‬می‏باید پیش از هر چیز‪ ،‬آزمون ریشــه واحد‬ ‫بر روی متغیرها انجام شــود تا در مــورد مانایی یا نامانایی آن‌ها آن‌ها مطمئن‬ ‫شــویم‪ .‬اگر متغیرها دارای ریشه واحد بودند‪ ،‬آن‌گاه باید آزمون هم‏انباشتگی‬ ‫بر روی آن‌ها انجام شــود‪ .‬در فصل ‪ 11‬روشــی را برای آزمون هم‏انباشتگی‬ ‫معرفی کردیم که بر مبنای کنترل وجود ریشــه واحد در پســماند رگرسیون‬ ‫هم‏انباشــتگی اجرا می‏شد‪ .‬اما روش‏های دیگری نیز برای آزمون هم‏انباشتگی‬ ‫وجود دارد که از جمله معروف‏ترین آن‌ها آزمون جوهانســن‪ 1‬است‪ .‬توضیح‬ ‫در مــورد این آزمون فراتر از مباحث این کتاب اســت‪ .‬بــا این حال اگر به‬ ‫بســته‏ نرم‏افزاری دسترسی دارید که آزمون جوهانسن را انجام می‏دهد‪ ،‬آن‌گاه‬ ‫می‏توانید آن را به‏صورت یک تمرین اجرا کنید و ما هم در این‌جا توضیحات‬ ‫مختصری پیرامون آن خواهیم داد‪.‬‬ ‫نخســتین نکته‏ای که باید توجه داشته باشــید این است که وقتی با چندین‬ ‫متغیــر ســری‏زمانی کار می‏کنید همــواره این امــکان وجــود دارد که بیش‬ ‫از یک رابطه هم‏انباشــتگی وجود داشــته باشــد‪ .‬در واقع اگر با ‪ M‬متغیر کار‬ ‫می‏کنیــد این امکان وجــود دارد که ‪ M-1‬رابطه هم‏انباشــتگی بین آن‌ها وجود‬ ‫‪1- Johansen test‬‬

‫‪343‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫داشــته باشــد (و این یعنی این‌که حداکثر ‪ M-1‬پسماند هم‏انباشتگی در الگوی‬ ‫‪ VECM‬قرار دارد)‪ .‬برای مثال در مثال ‪ 12-5‬ما هم‏انباشــتگی بین ســه متغیر‬ ‫را مورد بررســی قرار دادیم‪ :‬مصرف‪ ،‬دارایــی و درآمد‪ .‬همان‏طور که خواهیم‬ ‫دید احتماال تنها یک رابطه هم‏انباشــتگی بین این ســه متغیر وجود دارد‪ .‬وقتی‬ ‫‪ c، a‬و ‪ y‬دارای ریشــه واحد هســتند ‪C‬‬ ‫اما ‪ c t − α − β1at − β2 y t‬مانا است‪ ،‬بر‬ ‫اساس تئوری امکان دارد که دو رابطه هم‏انباشتگی بین آن‌ها وجود داشته باشد‬ ‫(اگر ‪ c t − y t‬و ‪ at − y t‬هر دو مانا باشند)‪ .‬به‌همین دلیل غالبا به جای آن‌که تنها‬ ‫به دنبال وجود هم‏انباشتگی باشیم به دنبال تعداد روابط هم‏انباشتگی هستیم‪.‬‬ ‫آزمون جوهانسن برای تشخیص تعداد روابط هم‏انباشتگی در الگوی ‪VECM‬‬ ‫قابل استفاده است‪ .‬بنا به دالیلی از عبارت «تعداد روابط هم‏انباشتگی» استفاده نمی‌کنیم‬ ‫و عبارت «مرتبه هم‏انباشتگی» را جایگزین آن می‏نماییم‪ .‬جزئیات آزمون جوهانسن‬ ‫تا حدودی پیچیده اســت ولی مانند هر آزمون فرضیه‏ای می‏توانید مقایسه‏ای بین‬ ‫آماره آزمون و سطح بحرانی داشته باشید و اگر اندازه آماره آزمون در منطقه بحرانی‬ ‫قرار گرفت‪ ،‬فرضیه صفر را رد نمایید‪ .‬خوشــبختانه بسته‏های نرم‏افزاری متعددی‬ ‫(نظیر ‪ )Stata‬تمامی این اعداد را برای شما محاسبه می‏کنند‪ .‬ما نحوه کار با آن‌ها را‬ ‫در مثال ‪ 12-5‬خواهیم دید‪ .‬قبل از آن‌که به این مثال برســیم توجه داشته باشید که‬ ‫وقتی از آزمون جوهانسن استفاده می‏نمایید‪ ،‬می‏باید تعداد وقفه‏ها را مشخص کرده‬ ‫باشید و نسبت به وجود روند قطعی هم تصمیم گرفته باشید‪ .‬طول وقفه‏ها با روش‬ ‫آزمون فرضیه یا استفاده از معیارهایی که در باال توضیح دادیم قابل انتخاب است‪.‬‬ ‫در الگوهــای ‪ VECM‬می‏توانید عرض از مبدا و روند قطعی را به الگو وارد نمایید‬ ‫(همان‏طــور که در معادالت باال این کار را انجام دادیم)‪ .‬به‌همین شــکل می‏توانید‬ ‫عرض از مبدا یا روند قطعی را به رگرســیون هم‏انباشــتگی هم اضافه نمایید (اگر‬ ‫پسماند هم‏انباشتگی ‪ c t − α − β1at − β2 y t‬باشــد‪ ،‬که عرض از مبدا در آن قرار‬ ‫گرفته است)‪ .‬آزمون جوهانسن تا حدودی به ترکیب این اجزای معین حساس است‬ ‫و شما باید قبل از اجرای آزمون جوهانسن در مورد آن‌ها تصمیم بگیرید‪.‬‬

‫مترین ‪12-11‬‬

‫از داده‏های تمرین ‪ 12-9‬و الگوی ‪ VAR‬به کار رفته در آن استفاده کنید و پیش‏بینی‬

‫برای رشد ‪ GDP‬کشــورها تهیه کنید‪ .‬الگو را با افق‏های مختلف پیش‏بینی تکرار‬ ‫کنید‪ .‬آیا الگوی ‪ VAR‬پیش‏بینی مناسبی ارائه می‏دهد؟‬

‫مثال ‪ 12-5‬مرصف‪ ،‬ثروت انباشته و بازدهی مورد انتظار سهام‬

‫لتائو و لودویگســون‪ )2001(1‬با طرح یک نظری مالی اظهار داشتند که‬ ‫مصرف‪ ،‬دارایی و درآمد می‏باید هم‏انباشــته باشند و پسماند این رابطه‬

‫هم‏انباشــتگی می‏باید قابلیت پیش‏بینی بازدهی اضافی ســهام را داشته‬

‫تحلیل داده‌های اقتصادی‬

‫باشد‪ .‬آن‌ها در ادامه مشاهدات تجربی در رابطه با این نظریه ارائه دادند‪.‬‬

‫ما این تئوری را تکرار نمی‏کنیم (نمی‏خواهیم به دیدگاه آن مقاله پیرامون‬ ‫‪344‬‬

‫پیش‏بینی بپردازیم) اما تاکید می‌کنیم که کار آن‌ها بر اســاس ابزارهایی‬

‫انجام شــده اســت که ما در این فصل به آن پرداختیم‪ :‬هم‏انباشتگی و‬

‫برآورد ‪.VECM‬‬

‫وجود این رابطه هم‏انباشــتگی را بر اساس داده‏های آمریکا طی دوره‬ ‫‪ 1951Q4‬تا‪ 2003Q1‬بررسی نمودیم‪ .‬مصرف‪( ،c ،‬این داده لگاریتم‬

‫مخارج ســرانه بر روی خدمــات و کاالهای کــم‏دوام مانند کفش و‬ ‫لباس اســت)‪ .‬معیار دارایی‪( ،a ،‬لگاریتم ثروت سرانه خانوارها شامل‬ ‫دارایی‏هــای مالی‪ ،‬دارایی‏های خانگی و مصــرف کاالهای با دوام) و‬

‫لگاریتم درآمد نیروی‏ کار پس از مالیات با ‪ y‬نشــان داده می‏شود‪ .‬این‬ ‫داده‏ها در فایل ‪ CAY.XLS‬در دسترس است‪ .‬آزمون ریشه واحد نشان‬ ‫می‏دهد که همه این متغیرها ریشه واحد دارند‪ .‬اگر از آزمون جوهانسن‬

‫با طول وقفه یک اســتفاده کنیم و بخش متغیرهــای قطعی را فقط به‬ ‫‪1- Lattau and Ludvigson‬‬

‫عرض از مبدا محدود کنیم‪( ،‬یعنی مثال از روند قطعی استفاده نکنیم)‪،‬‬

‫به نتایج جدول ‪ 12-10‬می‏رسیم (ما از نرم‏افزار ‪ Stata‬استفاده کردیم‬

‫هرچند با سایر بسته‏های نرم‏افزاری هم به نتایج مشابهی می‏رسیم)‪.‬‬

‫چگونه باید این جدول را تفســیر نمود؟ ابتــدا توجه نمایید که «آماره‬

‫تریس» نام یک آماره در آزمون جوهانسن است و «مرتبه» هم نشان‏دهنده‬ ‫تعداد رابطه‏های هم‏انباشتگی است که اگر مرتبه (‪ )0‬باشد‪ ،‬نشان می‏دهد‬

‫اســاس وجود تعداد مشخصی رابطه هم‏انباشــتگی تعریف می‏گردد و‬

‫فرضیه مقابل این است که تعداد روابط هم‏انباشتگی بزرگ‌تر از فرضیه‬ ‫آزمون‏شده می‏باشد‪.‬‬

‫در جدول باال آماره تریس و مقادیر بحرانی گزارش شده‏اند‪ .‬آماره تریس‬ ‫در فرضیــه وجود صفر رابطه هم‏انباشــتگی‪ ،‬بزرگ‌تر از مقدار بحرانی‬

‫آن در ســطح خطای ‪ 5‬درصد است‪ .‬این نشــان می‏دهد که می‏توانیم‬

‫فرضیه عدم وجود رابطه هم‏انباشــتگی را رد نماییم (یعنی تعداد روابط‬

‫هم‏انباشتگی بزرگ‌تر یا مساوی یک است)‪ .‬بنابراین آزمون جوهانسن‬ ‫نشان می‏دهد که رابطه هم‏انباشتگی بین متغیرها وجود دارد‪.‬‬

‫همان‏طور که می‏بینید فرضیه وجود یک رابطه هم‏انباشتگی هم در سطح‬

‫خطای ‪ 5‬درصد رد نشده است‪ .‬با توجه به اطالعات فوق به نظر می‏رسد‬

‫که یک رابطه هم‏انباشتگی وجود دارد (که بر اساس لتائو و لودویگسون)‬ ‫محاســبه پسماند هم‏انباشتگی می‏تواند امکان پیش‏بینی بازدهی سهام را‬ ‫ایجاد کند‪ .‬از ســوی دیگر‪ ،‬شما می‏توانید از این اطالعات برای تصریح‬

‫الگــوی ‪ VECM‬با یک رابطه هم‏انباشــتگی (و همچنین یک تصحیح‬ ‫خطا) استفاده کنید‪.‬‬

‫‪345‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫که رابطه هم‏انباشــتگی وجود ندارد‪ .‬در آزمون جوهانســن‪ ،‬فرضیه بر‬

‫جدول ‪ .12-10‬آزمون جوهانسن برای بررسی هم‏انباشتگی‬

‫داده‏های ‪CAY.XLS‬‬

‫مرتبه‬

‫آماره تریس‬

‫مقدار بحرانی ‪%5‬‬

‫‪0‬‬

‫‪32/27‬‬

‫‪29/68‬‬

‫‪1‬‬

‫‪6/93‬‬

‫‪15/41‬‬

‫‪2‬‬

‫‪0/95‬‬

‫‪3/76‬‬

‫مترین ‪12-12‬‬

‫برای این سوال از داده‏های پرتقال معمولی و ارگانیک در فایل ‪ORANGE.XLS‬‬

‫استفاده کنید‪.‬‬

‫(الف) از ‪ pmax = 4‬شــروع کنید و وقفه مناسب را برای الگوی ‪ VECM‬انتخاب‬

‫تحلیل داده‌های اقتصادی‬

‫کنید و هر معادله را تخمین بزنید‪.‬‬

‫(ب) از الگوی ‪ VECM‬در قســمت الف اســتفاده کنید و پیش‏بینی برای افق‏های‬

‫‪346‬‬

‫مختلف انجام دهید‪ .‬آیا الگوی ‪ VAR‬می‏تواند به‏خوبی پیش‏بینی نماید؟‬

‫مترین ‪12-13‬‬

‫از داده‏های مصرف (‪ )Y‬و درآمد (‪ )X‬از فایل ‪ INCOME.XLS‬استفاده کنید‪.‬‬

‫(الــف) فرض کنید (شــاید بر خالف یافته‏های تمریــن ‪ )11-5‬که متغیر ‪ Y‬و ‪X‬‬

‫هم‏انباشته هستند‪ .‬مراحل مختلف تمرین ‪ 12-11‬را برای پیش‏بینی تکرار کنید‪.‬‬

‫(ب) حاال فرض کنید که ‪ Y‬و ‪ X‬ریشــه واحد دارند و هم‏انباشــته نیستند‪ .‬الگوی‬ ‫‪ VAR‬بر اســاس تفاضل داده‏های فوق (یعنی ‪ ∆X‬و ‪ ) ∆Y‬بســازید و بعد فرایند‬ ‫پیش‏بینی را تکرار کنید‪.‬‬

‫(ج) نتایج به‏دســت آمده در بخش الف و ب را مقایســه کنید‪ .‬فرض غلط وجود‬

‫هم‏انباشتگی چه اثر بر عملکرد پیش‏بینی داشته است‪.‬‬

‫خالصه فصل‬

‫‪347‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫‪ -1‬به نظر می‏رسد که بسیاری از متغیرهای سری‏زمانی به‏ویژه قیمت دارایی‏ها‬ ‫رفتار گام تصادفی دارند‪ .‬به‌همین دلیل‪ ،‬دشوار است که در مورد تغییرات آن‌ها‬ ‫در آینــده پیش‏بینی انجام دهیم‪ .‬با این حال‪ ،‬نوســانات این‏گونه متغیرها اغلب‬ ‫دارای رفتار قابل پیش‏بینی است‪.‬‬ ‫‪ -2‬مربع تغییرات در قیمت دارایی‪ ،‬معیاری برای اندازه‏گیری نوسانات است‪.‬‬ ‫‪ -3‬روش‏های مرسوم ســری‏زمانی برای مدل‏سازی رفتار نوسانات قیمت‬ ‫دارایی‏ها قابل استفاده اســت‪ .‬تنها تفاوت این است که نوسانات قیمت دارایی‬ ‫به‌عنوان متغیر اصلی مورد استفاده قرار می‏گیرد در حالی‏که در سایر الگوها خود‬ ‫قیمت دارایی متغیر اصلی است‪.‬‬ ‫‪ -4‬الگوی ‪ ARCH‬روش قالب در اندازه‏گیری نوســانات است‪ .‬این الگوها‬ ‫شامل دو معادله می‏شوند‪ .‬یکی رگرسیون معمولی است و دومی معادله نوسانات‬ ‫اســت که در آن‪ ،‬نوسانات به‌عنوان واریانس (متغیر در طول زمان) جزء خطای‬ ‫رگرسیون اولی شناخته می‏شود‪.‬‬ ‫‪ -5‬الگوهای ‪ ARCH‬بسیار شبیه به الگوهای ‪ AR‬هستند‪ .‬به‏جز این‌که الگوی‬ ‫‪ AR‬به معادله نوسانات تعلق دارد‪.‬‬ ‫‪ -6‬بســط‏های مختلفی و فراوانی برای ‪ ARCH‬وجــود دارد که ‪GARCH‬‬ ‫شناخته‏شده‏ترین آن‌ها است‪.‬‬ ‫‪ -7‬الگوهای ‪ ARCH‬و ‪ GARCH‬با عموم بسته‏های نرم‏افزاری قابل برآورد‬ ‫هستند (ولی برآورد آن‌ها با اکسل دشوار است)‪.‬‬ ‫‪ -8‬متغیر ‪ X‬علت گرنجری متغیر ‪ Y‬اســت اگر گذشــته ‪ X‬بتواند وضعیت‬ ‫کنونی ‪ Y‬را توضیح دهد‪.‬‬ ‫‪ -9‬اگر ‪ X‬و ‪ Y‬مانا باشند‪ ،‬روش‏های آماری معمول بر مبنای ‪ ARDL‬می‏تواند‬ ‫برای آزمون علیت گرنجر مورد استفاده قرار گیرد‪.‬‬ ‫‪ -10‬اگر ‪ X‬و ‪ Y‬دارای ریشــه واحد و هم‏انباشــته باشند‪ ،‬آن‌گاه روش‏های‬ ‫آماری مبتنی بر ‪ ECM‬برای علیت گرنجر قابل استفاده است‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪ -11‬خودرگرسیونی برداری (‪ )VAR‬برای هر متغیر تحت مطالعه یک معادله‬ ‫دارد‪ .‬هر معادله یک متغیر را به‌عنوان متغیر وابسته انتخاب می‏کند‪.‬‬ ‫‪ -12‬الگوهای ‪ VAR‬برای پیش‏بینی مناســب هستند‪ .‬آزمون علیت گرنجر و‬ ‫تشخیص روابط بین چند متغیر سری‏زمانی از جمله کاربردهای این الگو است‪.‬‬ ‫‪ -13‬اگر همه متغیرها در الگوی ‪ VAR‬مانا باشند آن‌گاه روش برآورد ‪OLS‬‬ ‫قابل استفاده خواهد بود و آماره‏های معمول این برآورد (نظیر آمار ه ‪ t‬و �‪P-val‬‬ ‫‪ )ue‬برای آزمون معنی‏داری کاربرد خواهد داشت‪.‬‬ ‫‪ -14‬اگر متغیرهای تحت بررســی ریشه واحد داشــته باشند و هم‏انباشته‬ ‫باشند آن‌گاه الگوی تغییر یافته ‪ VAR‬که آن را تصحیح خطای برداری (‪)VECM‬‬ ‫می‏نامیم قابل استفاده است‪.‬‬ ‫‪ -15‬آزمون جوهانســن یک روش بسیار معروف برای آزمون هم‏انباشتگی‬ ‫است که در بسیاری از بسته‏های نرم‏افزاری وجود دارد‪.‬‬ ‫‪348‬‬

‫پیوست ‪ :12-1‬آزمون فرضیه برای بیش از یک رضیب‬

‫در فصــل ‪ 5‬و ‪ 6‬پیرامون آماره ‪ F‬بحث داشــته‏ایم که از آن برای آزمون فرضیه‬ ‫‪ R2 = 0‬در رگرسیون چندگانه استفاده می‏شود‪:‬‬ ‫‪Y = α + β1X1 + … + βk Xk + e‬‬

‫گفته‏ایــم که چگونــه از آن برای آزمون ‪ H0 : β1 = … = βk = 0‬اســتفاده‬ ‫می‏شــود (که یعنی همه ضرایب رگرســیون به اتفاق صفر هستند)‪ .‬همچنین‬ ‫در مــورد آزمون فرضیه معنی‏دار هر ضریب به‏تنهایــی با آماره ‪ t‬و ‪P-value‬‬ ‫مطالبی داشــته‏ایم‪ .‬با این وجود ابــزاری در اختیار نداریم تا یک آزمون فوری‬ ‫در شــرایط خاص انجام دهیم (برای مثال شرایطی که ‪ k=4‬باشد و ما بخواهیم‬ ‫‪ H0 : β1 =β2 =0‬را آزمون کنیم)‪ .‬چنین آزمونی در بحث علیت گرنجر مورد‬ ‫نیاز بوده اســت (در مثالی که الگوی رگرسیونی ما شامل ‪ 4‬وقفه برای افزایش‬ ‫قیمت‪ ،‬چهار وقفه برای افزایش دســتمزد و روند قطعی بوده است و ما قصد‬ ‫داشتیم تا تنها فرضیه برابری چهار ضریب مربوط به افزایش دستمزد با صفر را‬

‫‪Y = α + β1X1 + β2 X2 + β3 X3 + β4 X4 + e‬‬

‫و بخواهید آزمون فرضیه ‪ H0 : β2 =β4 =0‬را انجام دهید‪ ،‬آن‌گاه رگرسیون‬ ‫مقید به شکل زیر خواهد بود‪:‬‬ ‫‪Y = α + β1X1 + β3 X3 + e‬‬

‫راهبرد کلی این اســت که آماره آزمون محاســبه گردد و با مقادیر بحرانی‬ ‫مقایسه شود‪ .‬اگر آماره آزمون در منطقه بحرانی قرار داشت آن‌گاه فرضیه صفر‬ ‫رد می‏شود در غیر این‏صورت فرضیه صفر را می‏پذیرید‪ .‬به‏طور خالصه همواره‬ ‫در هر آزمون فرضیه‏ای دو چیز مورد نیاز اســت‪ ،‬آماره آزمون و مقادیر بحرانی‪.‬‬ ‫در ادامه آماره آزمون ‪ F‬را می‏بینیم‪:‬‬ ‫‪J‬‬

‫)‬

‫‪− RR2‬‬

‫) ‪(T − k‬‬

‫‪2‬‬ ‫‪U‬‬

‫‪(R‬‬

‫) ‪(1 − R‬‬ ‫‪2‬‬ ‫‪U‬‬

‫=‪f‬‬

‫که در آن ‪ RU2‬و ‪ RR2‬مربوط به الگوی نامقید و مقید هســتند‪ .‬تعداد قیدها با‬

‫‪349‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫مورد بررسی قرار دهیم)‪ .‬هدف اصلی این پیوست شرح یک قاعده سرانگشتی‬ ‫برای آزمون چنین فرضیاتی است‪.‬‬ ‫آمــاره ‪ F‬که در فصل ‪ 5‬توضیــح داده‏ایم تنها یک حالت خاص از توزیع ‪F‬‬ ‫است که مقادیر بحرانی آن را از جدول استخراج نمودیم‪ .‬در این کتاب ما کمتر‬ ‫به تئوری‏های آماری پرداختیم و در مورد نحوه استفاده از جداول آماری مطلبی‬ ‫نداشــتیم‪ .‬اما اگر قصد دارید تا کارهای بیشــتری در زمینه علیت گرنجر انجام‬ ‫دهیــم توصیه می‏کنیم ک مبانی آماری مرتبــط را مطالعه کنید یا به یک کتاب‬ ‫اقتصادسنجی مراجعه و مفاهیمی که زیربنای آزمون فرضیه است را فرا بگیرید‪.‬‬ ‫برای درک مبانی آماره ‪ F‬و شیوه کار آن‪ ،‬تفاوت بین رگرسیون مقید و رگرسیون‬ ‫نامقید را شــرح می‏دهیم‪ .‬در بیشتر فرضیات شما می‏خواهید تا قیدی را به مدل‬ ‫وارد نمایید‪ .‬پس ما باید بتوانیم تمایز بین رگرسیون مقید و رگرسیون نامقید را‬ ‫دریابیم‪ .‬مثال اگر رگرسیون نامقید ما به شکل زیر باشد‪:‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪350‬‬

‫‪ J‬نشان داده می‏شود (در مثال باال ‪ J=2‬است چراکه ‪ β2 =0‬و ‪ β4 =0‬دو قید‬ ‫به‌شمار می‏روند)‪ .‬در عبارت فوق‪ T ،‬تعداد کل مشاهدات و ‪ k‬تعداد متغیرهای‬ ‫توضیحی در الگوی نامقید است‪.‬‬ ‫مقدار آماره ‪ F‬با اجرای رگرســیون مقید و رگرسیون نامقید قابل دست‏یابی‬ ‫است (با برآورد رگرســیون نامقید مقدار ‪ RU2‬و با برآورد رگرسیون مقید مقدار‬ ‫‪ RR2‬را به‏دســت می‏آوریم) و سپس با جایگذاری اعداد مقدار آماره ‪ F‬به‏دست‬ ‫خواهد آمد‪ .‬اگر فرضیه خود را مشخص کرده باشید‪ ،‬اکثر بسته‏های نرم‏افزاری‬ ‫برای شما به‏صورت خودکار مقدار ‪ F‬را محاسبه می‏کنند‪.‬‬ ‫اما یافتــن نقاط بحرانی به مراتب پیچیده‏تر خواهــد بود‪ .‬در روش اصلی‪،‬‬ ‫مقادیر بحرانی به ‪ T-k‬و ‪ J‬وابسته هستند‪ .‬جدول ‪ 12-11‬شامل مقادیر بحرانی‬ ‫مرتبط با موضوع است اما برای محاسبات سرانگشتی ‪ T-k‬به اندازه کافی بزرگ‬ ‫در نظر گرفته شــده است‪ .‬مثال اگر تعداد مشاهدات شما زیاد باشد و در آزمون‬ ‫‪ J=2‬باشــد‪ ،‬آن‌گاه در سطح خطای ‪ 5‬درصد‪ ،‬مقدار بحرانی شما ‪ 3‬خواهد بود‬ ‫که باید با مقدار آماره ‪ F‬مقایسه گردد‪.‬‬ ‫جدول ‪ .12-11‬مقادیر بحرانی‬

‫آماره ‪ F‬وقتی ‪T-k>100‬‬

‫سطح معناداری‬

‫‪J=2‬‬

‫‪J=3‬‬

‫‪J=4‬‬

‫‪J=5‬‬

‫‪J=10‬‬

‫‪J=20‬‬

‫‪5%‬‬

‫‪3/00‬‬

‫‪2/60‬‬

‫‪2/37‬‬

‫‪2/21‬‬

‫‪1/83‬‬

‫‪1/57‬‬

‫‪1%‬‬

‫‪4/61‬‬

‫‪3/78‬‬

‫‪3/32‬‬

‫‪3/02‬‬

‫‪2/32‬‬

‫‪1/88‬‬

‫جدول ‪ .12-12‬مقادیر بحرانی‬

‫آماره ‪ F‬وقتی ‪T-k=40‬‬

‫سطح معناداری‬

‫‪J=2‬‬

‫‪J=3‬‬

‫‪J=4‬‬

‫‪J=5‬‬

‫‪J=10‬‬

‫‪J=20‬‬

‫‪5%‬‬

‫‪3/23‬‬

‫‪2/92‬‬

‫‪2/69‬‬

‫‪2/53‬‬

‫‪2/08‬‬

‫‪1/84‬‬

‫‪1%‬‬

‫‪5/18‬‬

‫‪4/31‬‬

‫‪3/83‬‬

‫‪3/51‬‬

‫‪2/80‬‬

‫‪2/37‬‬

‫در جــداول فوق قید ‪ J=1‬وجود ندارد چراکه در آن‏صورت از آماره ‪ t‬برای‬ ‫بررســی یک ضریب استفاده می‏شده اســت‪ .‬توجه دارید که مقادیر بحرانی با‬

‫مثال ‪12-6‬‬

‫در متــن اصلی این فصل‪ ،‬آزمون علیت گرنجر با اســتفاده از داده‏های‬

‫افزایش قیمت و دســتمزد انجام شــده اســت‪ .‬ما در‌یافتیم که افزایش‬

‫دســتمزد علت گرنجری افزایش قیمت نیســت‪ ،‬اما افزایش قیت علت‬ ‫گرنجری افزایش دستمزد اســت‪ .‬این‌جا بررسی مجددی بر روی این‬

‫رابطه با روش صحیح (آزمون ‪ )F‬انجام می‏دهیم‪.‬‬

‫ابتــدا رابطه‏ای را بررســی می‏کنیم که در آن‪ ،‬افزایش دســتمزد علت‬ ‫گرنجری تورم قیمت‏ها اســت‪ .‬در درون متن اصلــی این فصل برای‬ ‫الگوهای غیرمقید‪ )Y( ،‬افزایش قیمت و (‪ )X‬افزایش دستمزد است و از‬ ‫الگوی نامقید استفاده شده است‪.‬‬

‫‪Y = α + δt + φ1Yt −1 + … + φ4 Yt − 4 + β1Xt −1 + … + β4 Xt − 4 + et‬‬ ‫تعداد دوره‏های زمانی ‪ T=128‬اســت‪( K=9 ،‬به این دلیل که ‪p=q=4‬‬

‫است و روند قطعی در الگو قرار گرفته است)‪ .‬برآورد ‪ OLS‬الگو نتیجه‬

‫‪351‬‬

‫فصل ‪ :12‬کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬

‫افزایش تعداد قیدها کوچک‌تر می‏شــوند‪ .‬این موضــوع می‏تواند برای آزمون‬ ‫قیدهای بزرگ‌تری که در جداول فوق نیستند مورد استفاده قرار گیرد‪.‬‬ ‫مثــا مقدار بحرانی برای ‪ J=7‬جایی بیــن مقدار بحرانی ‪ J=5‬و ‪ J=10‬قرار‬ ‫دارد‪ .‬دانســتن این موضوع که مقادیر بحرانی بین چه اعــدادی قرار دارند در‬ ‫بســیاری از اوقات برای تصمیم‏گیری در مورد یک فرضیه گره‏گشا خواهد بود‪.‬‬ ‫به‌همین دلیل هرچند جداول فوق همه قیدها را در بر ندارند اما شــما می‏توانید‬ ‫از آن‌ها در آزمون‏های مختلفی بهره بگیرید‪.‬‬ ‫تفاوت جدول ‪ 12-11‬و جدول ‪ 12-12‬در مقدار ‪ T-k‬است‪ .‬در جدول اول‬ ‫فرض شده است که این مقدار بزرگ‌تر از ‪ 100‬است (‪ )T-k>100‬اما در جدول‬ ‫دوم ایــن مقدار برابر با ‪ 40‬اســت (‪ .)T-k=40‬همان‏طور کــه می‏بینید‪ ،‬مقادیر‬ ‫بحرانی در جدول ‪ 12-11‬بزرگ‌تر هستند‪.‬‬

‫‪2‬‬ ‫می‏دهد که ‪ . RU = 0.616‬فرضیه‏ای که مبتنــی بر عدم وجود رابطه‬

‫علیت اســت ( ‪ ) H0 : β1 = … = β4 = 0‬دارای چهار قید می‏باشد و‬ ‫بنابراین ‪ J=4‬است‪ .‬الگوی مقید به این شکل خواهد بود‪:‬‬ ‫‪Y = α + δt + φ1Yt −1 + … + φ4 Yt − 4 + et‬‬

‫در الگوی مقید باال مقدار ‪ RR2 = 0.613‬است‪.‬‬

‫بر اســاس آماره‏های فوق مقدار ‪ F‬برابر با ‪ 0/145‬خواهد شد‪ .‬با توجه‬ ‫به این‌که ‪ T-k=119‬بسیار بزرگ است‪ ،‬ما می‏توانیم ‪ 0/145‬را با مقدار‬ ‫بحرانی ‪ 2/37‬مقایسه کنیم‪ .‬چون ‪ 0/145>2/37‬است‪ ،‬نمی‏توانیم فرضیه‬ ‫صفر را در ســطح ‪ 5‬درصد رد نماییم‪ .‬یعنی فرضیه‏ای که در آن افزایش‬

‫تحلیل داده‌های اقتصادی‬

‫دستمزد علت گرنجری افزایش قیمت نیست‪ ،‬رد نمی‏شود‪.‬‬

‫برای آزمون این‌که افزایش قیمت علت گرنجری افزایش دستمزد است‪،‬‬

‫‪352‬‬

‫همین مراحل را تکرار می‏کنیم‪ .‬با این تفاوت که متغیر وابســته افزایش‬ ‫دستمزد شده است و افزایش قیمت متغیر توضیحی خواهد شد‪ .‬با برآورد‬

‫‪ OLS‬الگوهای مقید و نامقید‪ RR2 = 0.532 ،‬و ‪ RU2 = 0.605‬خواهد‬ ‫شد‪ .‬توجه دارید که باقی موارد در فرمول محاسبه ‪ F‬تغییری نمی‏کند‪ .‬با‬ ‫جایگذاری اعداد در معادله‪ ،‬مقدار ‪ F‬برابر با ‪ 33/412‬می‏شود که بسیار‬

‫بزرگ‌تر از مقدار بحرانی در سطح ‪ 5‬درصد و حتی ‪ 1‬درصد است‪ .‬یعنی‬ ‫با اطمینان می‏توانیم فرضیه ‪ H0 : β1 = … = β4 = 0‬را رد کنیم و نتیجه‬ ‫بگیریم که افزایش قیمت علت گرنجری افزایش دستمزد است‪.‬‬ ‫توجه داشته باشید که نتایج به‏دست آمده در این مثال (افزایش دستمزد‬

‫علت گرنجری افزایش قیمت نیست ولی افزایش قیمت علت گرنجری‬ ‫افزایش دســتمزد است) کامال مشابه نتایجی است که درون متن اصلی‬

‫به‏دست آمده است‪.‬‬

‫منبع‬

‫ کاربرد الگوهای سری‏زمانی در اقتصاد کالن و مدیریت مالی‬:12 ‫فصل‬

Lettau, M and Ludvigson, S. (2001) «Consumtion, aggregate wealth and expected stock returns», Journal of Finance, 56(3): 815-849.

353

‫فصل ‪13‬‬ ‫محدویت‏ها و راه‏حل‏ها‬

‫‪1- Second best‬‬

‫‪355‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫رگرسیون و تکنیک‏های مرتبط با آن ابزارهایی بسیار قدرتمند برای مواجهه‬ ‫با مســائل عملی اقتصــاد و یافتن راه‏حل‏هایی برای آن‏ها هســتند‪ .‬با این حال‬ ‫اگر تکنیک‏های آماری مانند رگرســیون‪ ،‬راه‏حل نهایی تمام مشکالت و مسائل‬ ‫اقتصادی را در آستین می‏داشــتند‪ ،‬اقتصاددانان و آماردانان می‏بایست ب ‏ه دنبال‬ ‫شغل جدیدی می‏بودند! در این فصل محدودیت‏های روش رگرسیونی حداقل‬ ‫مربعــات معمولــی (‪ )OLS‬و روش‏های غلبه بر آن‏هــا به‏طور خالصه معرفی‬ ‫می‏شود‪ .‬همان‏طور که در ادامه خواهیم دید‪ ،‬در برخی حالت‏ها استفاده از روش‬ ‫‪ OLS‬بهترین انتخاب ممکن نیست و روش‏های جایگزینی وجود دارد که بهتر‬ ‫است از آن‏ها اســتفاده شود‪ .‬در برخی حالت‏های دیگر استفاده از روش ‪OLS‬‬ ‫قطعا به نتایج غلط منجر می‏شود؛ از این رو نباید از ‪ OLS‬استفاده کرد‪.‬‬ ‫درک تفاوت دو حالت فوق‏الذکر بسیار مهم است ‪ -‬یعنی حالتی که استفاده از‬ ‫روش ‪ OLS‬به اصطالح دومین بهترین‪ 1‬اســت و حالتی که استفاده از روش ‪OLS‬‬ ‫به نتایجی غلط منجر می‏شــود‪ .‬برای درک تفاوت این حالت‏ها در مسائل تجربی‬ ‫اقتصادی‪ ،‬به‏خصوص تشخیص حالت‏هایی که در آن‏ها نباید از ‪ OLS‬استفاده کرد‪،‬‬

‫به مطالعه بیشــتری نیاز است‪ .‬در این فصل قصد نداریم روش‏های مواجه شدن با‬ ‫تمام این حالت‏ها را توضیح دهیم؛ چون برای این کار باید چندین جلد کتاب درسی‬ ‫بنویســیم‪ .‬در عوض در این فصل چند حالت کلی و ویژگی‏های آن‏ها را توضیح‬ ‫می‏دهیم تا دستکم شما بتوانید مشکل موجود را تشخیص بدهید و بدانید برای حل‬ ‫آن باید به چه کتاب یا متن درسی مراجعه کنید‪.‬‬ ‫مشکالت موجود را می‏توان به سه دسته زیر تقسیم کرد‪:‬‬ ‫• مشکالت ناشی از وجود فرم‏های خاص برای متغیر وابسته؛‬ ‫• مشکالت ناشی از وجود فرم‏های خاص برای جزءخطا؛‬ ‫• مشکالتی که غلبه بر آن‏‏ها نیازمند استفاده از مدل‏های معادالت چندگانه است‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫مشکالت ناشی از وجود فرم‏های خاص برای متغیر وابسته‬ ‫مدل رگرسیون ساده زیر را در نظر بگیرید‪:‬‬

‫‪356‬‬

‫‪Y = α + βX + e‬‬

‫در فصل‏های قبل در مورد حالت‏هایی که ‪ Y‬عددی واقعی اســت و می‏تواند‬ ‫هــر مقداری را اختیار کند (مثال قیمت فــروش خانه‪ ،‬درصد تغییرات جنگل یا‬ ‫‪ GDP‬سرانه) توضیحات مبســوطی ارائه کردیم‪ .‬اما ممکن است با حالت‏هایی‬ ‫مواجه شوید که در آن متغیر وابسته شکل محدودی دارد‪ .‬این شکل محدود متغیر‬ ‫وابسته‪ ،‬پیامدهایی برای برآوردهای ما خواهد داشت‪ .‬در فصل ‪ ،8‬حالتی را مطالعه‬ ‫‪ Y‬متغیر مجازی اســت؛ این یک نوع محدودیت برای متغیر وابســته‬ ‫کردیم که ‏‬ ‫است‪ ،‬چون چنین متغیر وابسته‏ای فقط می‏تواند مقادیر خاص و محدودی داشته‬ ‫باشــد‪ .‬اما در عمل ممکن است انواع مختلفی از محدودیت‏های دیگر نیز برای‬ ‫متغیر وابسته وجود داشته باشند‪ .‬حالت‏هایی که در این بخش فهرست شده‏اند‪،‬‬ ‫متداول‏ترین حالت‏هایی هستند که ممکن است در این طبقه از مطالعات تجربی‬ ‫‪1‬‬ ‫اقتصاد پیش بیایند؛ اما باید بدانید که فقط زمانی که متغیر وابســته سانسورشده‬ ‫‪1- Censored‬‬

‫است‪ ،‬استفاده از ‪ OLS‬الزاما نادرست خواهد بود‪ .‬به هر حال بهتر است که برای‬ ‫درک کامل این شــرایط مطالعات خود در این زمینه را افزایش دهید و به جای‬ ‫اکسل‪ ،‬از بسته‏های نرم‏افزاری اقتصادسنجی استفاده کنید‪.‬‬

‫‪ Y‬سانسور‌شده است‬

‫‪" -1‬تورش" واژه‏ای آماری اســت که تعریف غیررســمی آن این‏گونه اســت‪ :‬اگــر برآوردگر بدون تورش‬ ‫(‪ )unbiased‬باشد‪ ،‬مقدار هر یک از برآوردها در اغلب اوقات کمتر یا بیشتر از مقدار واقعی است اما با تکرار‬ ‫فرایند برآورد‪ ،‬میانگین مقدار برآورد شــده با مقدار واقعی برابر خواهد بود‪ .‬در مقابل حتی میانگین مقدار‬ ‫برآورد شده توسط یک برآوردگر تورش‏دار هم بر مقدار واقعی منطبق نخواهد بود؛ پس برآورد غلط است و‬ ‫نباید از چنین برآوردگری استفاده کرد‪.‬‬

‫‪357‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫‪ Y‬کمتر یا بیشــتر از مقادیر حدی است که‬ ‫این حالت زمانی رخ می‏دهد که مقدار ‏‬ ‫در مطالعه به‏عنوان حدود پایین یا باال در نظر گرفته شــده است‪ .‬مثال در مطالعات‬ ‫مربوط به درآمد خانوار مرسوم است که درآمد هر فرد را از طریق بررسی مصرف‬ ‫خانوار گزارش کنند‪ ،‬به‏جز گروه بســیار پردرآمد که مقدار درآمدشان از حدی به‬ ‫باالست (مثال ‪ 100‬هزار پوند)‪ .‬پس فردی که درآمدی معادل ‪ 20‬هزار پوند دارد در‬ ‫آمارها درآمدش همان ‪20‬هزار پوند ثبت می‏شود اما فردی با درآمد ‪ 200‬هزار پوند‪،‬‬ ‫درآمــدش در آمارها ‪ 100‬هزار پوند درج می‏شــود چون به‏منظور صرفه‏جویی در‬ ‫تعداد طبقات‪ ،‬باالترین طبقه درآمدی ‪100‬هزار پوند و بیشتر فرض شده است پس‬ ‫همه کســانی که بیش از ‪ 100‬هزار پوند درآمد دارند نیز در این طبقه قرار خواهند‬ ‫گرفت‪ .‬مثالی دیگر را در نظر بگیرید؛ فرض کنید که متغیر وابسته شما سطح مطلوب‬ ‫سرمایه‏گذاری بنگاه اســت اما فقط می‏توانید سطح واقعی سرمایه‏گذاری بنگاه را‬ ‫مشاهده کنید‪ .‬اگر در مشاهدات مربوط به سرمایه‏گذاری واقعی عددی منفی وجود‬ ‫نداشته باشد آن‏گاه تمام بنگاه‏هایی که سطح سرمایه‏گذاری مطلوب‏شان منفی است‬ ‫آمار سرمایه‏گذاری‏شان صفر ثبت می‏شــود‪ .‬اگر متغیر وابسته سانسور شده باشد‬ ‫آن‏گاه برآوردهای ‪ OLS‬ممکن اســت گمراه‏کننده باشــند‪ .‬به زبان آمار‪OLS ،‬‬ ‫تورش خواهد داشــت‪ .1‬با افزایش تعداد مشــاهدات سانسور شده‪ ،‬میزان این‬

‫تورش نیز افزایش خواهد یافت‪ .‬اگر فقط چند تا از مشــاهدات سانسور شده‬ ‫باشند‪ ،‬ممکن است بتوان استفاده از ‪ OLS‬را توجیه کرد؛ اما اگر تعداد زیادی از‬ ‫مشــاهدات این وضعیت را داشته باشند آن‏گاه قطعا نباید از ‪ OLS‬استفاده کرد‪.‬‬ ‫روش استاندارد در این شــرایط‪ ،‬برآوردگر توبیت‪ 1‬است‪ .‬در اغلب کتاب‏های‬ ‫اقتصادسنجی این روش را مدل متغیر وابسته محدودشده‪ 2‬می‏نامند‪.‬‬

‫‪Y‬عدد صحیح غیرمنفی است‬

‫تحلیل داده‌های اقتصادی‬

‫‪358‬‬

‫این شــرایط بیشتر هنگامی رخ می‏دهد که متغیر وابسته تعداد دفعات رخ دادن‬ ‫یک اتفاق باشد‪ .‬مثال ممکن است ‪ Y‬تعداد محصوالت معیوب یک خط تولید در‬ ‫یک هفته یا تعداد پتنت‏هایی‪( 3‬حق ثبت اختراع) باشد که یک بنگاه در یک سال‬ ‫ثبت می‏کند‪ .‬اگر متغیر وابســته چنین شکلی داشته باشد‪ ،‬برآورد ‪ OLS‬احتماال‬ ‫نامناســب اســت اما روش‏های بهتری برای برآورد وجود دارند‪ .‬اگر مایلید در‬ ‫مورد این روش‏ها بیشتر بخوانید‪ ،‬در کتاب‏های اقتصادسنجی دنبال عبارت مدل‬ ‫داده‏های شمارشی‪ 4‬بگردید‪.‬‬

‫‪Y‬یک بازه زمانی را اندازه‏گیری می‏کند‬

‫این حالت در مطالعات اقتصاد نیروی کار متداول است‪ ،‬جایی که متغیر وابسته‬ ‫اغلب اوقات مدت زمان صرف‏شــده در یک شرایط خاص است‪ .‬مثال ممکن‬ ‫است محققی بخواهد به این سوال پاسخ دهد که چرا برخی از بیکاران سریع‏تر‬ ‫از سایرین شغل می‏یابند؟ در این حالت متغیر وابسته عبارت است از بازه زمانی‬ ‫که هر فرد طی آن بیکار است (یعنی زمان صرف‏شده توسط هر فرد برای یافتن‬ ‫شــغل)‪ .‬مثال مرســوم دیگر تحلیل فعالیت صنعت است که در آن مدت زمان‬ ‫اعتصاب نیروی کار‪ ،‬متغیر وابسته باشد‪ .‬در این شرایط برآورد ‪ OLS‬یک معادله‬

‫‪2- Limited dependent variable models‬‬ ‫‪4- Count data model‬‬

‫ ‬

‫ ‬

‫‪1- Tobit‬‬ ‫‪3- Patent‬‬

‫رگرسیونی‪ ،‬به‏طور خودکار غلط یا گمراه‏کننده نیست‪ .‬اما مدل‏های بهتر دیگری‬ ‫هم در ادبیات اقتصادســنجی توسعه داده شده‏اند که بهتر است از آن‏ها استفاده‬ ‫شــود‪ .‬به منظور خواندن و درک چنین مدل‏هایی در کتاب‏های اقتصادســنجی‬ ‫دنبال عبارت‏هایی مثل مدل مدت زمان‪ 1‬بگردید‪.‬‬

‫مشکالت ناشی از وجود فرم‏های خاص برای جزءخطا‬

‫‪ 2- Robust‬‬

‫‪1- Duration model‬‬

‫بهترین تمام‬ ‫‪ -3‬به زبان آمار‪ ،‬اگر اجزای خطا مســتقل از یکدیگر و توزیع یکســانی داشته باشند‪OLS ،‬‬ ‫ِ‬ ‫برآوردگرها (بین برآوردگرهای مشــابه) است‪ .‬اگر توزیع اجزای خطا نرمال باشد‪ ،‬بهینگی برآوردگر ‪OLS‬‬ ‫حتی بیشتر هم می‏شود‪.‬‬ ‫‪5- Heteroscedasticity‬‬

‫ ‬

‫‪4- Generalized least squares‬‬

‫‪359‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫در این کتاب چیز زیادی در مورد جزءخطا نگفتیم به‏جز این‌که اشاره کردیم جزءخطا‬ ‫عبارت است از فاصله بین هر مشاهده و خط رگرسیون‪ .‬ادبیات گسترده‏ای در مورد‬ ‫این موضــوع وجود دارد که تحت فروض آماری مختلف برای جزءخطا‪ ،‬بهترین‬ ‫برآوردگر کدام اســت‪ .‬در این بخش با جزئیات نظری آماری این تکنیک‏ها کاری‬ ‫نداریــم‪ ،‬در عوض مفاهیم و اصطالحات مورد نیاز برای درک چگونگی رخ دادن‬ ‫این مشکالت را توضیح می‏دهیم و مانند شیوه مألوف این فصل‪ ،‬کلیدواژه‏هایی را‬ ‫معرفی می‏کنیم که در صورت تمایل به مطالعه بیشتر در این زمینه باید در کتاب‏های‬ ‫درسی اقتصادسنجی دنبال‏شان بگردید‪.‬‬ ‫کارمــان را با این بحث آغاز می‏کنیم که ‪ OLS‬متداول‏ترین برآوردگر مدل‏های‬ ‫رگرسیونی است که تحت فروض مختلف و متنوع آماری‪ ،‬روشی قوی‪ 2‬محسوب‬ ‫می‏شــود (یعنی به‏خوبی کار می‏کند)‪ .‬با این حال ‪ OLS‬زمانی بهینه است که تمام‬ ‫اجزای خطا دارای ویژگی‏های مشترکی باشند‪ 3.‬در شرایط دیگر برآوردگر حداقل‬ ‫مربعات تعمیم‏یافته‪ 4‬یا ‪ GLS‬قابلیت اعتماد بیشتری دارد‪ .‬برای درک عملکرد روش‬ ‫‪ GLS‬مثالی در مورد مشکل ناهمسانی واریانس‪ 5‬را در نظر می‏گیریم‪.‬‬ ‫به‌فرض که می‏خواهید مدل رگرســیون رشد بین‏کشوری را برآورد کنید که‬ ‫‪ N‬کشور است‪ .‬متغیرهای‬ ‫متغیر وابســته آن متوسط نرخ رشد ‪ GDP‬در هر یک ‏‬

‫تحلیل داده‌های اقتصادی‬

‫‪360‬‬

‫توضیحی هم ســطح تحصیالت‪ ،‬سرمایه‏گذاری‪ ،‬نرخ پس‏انداز و غیره برای هر‬ ‫کشــور است‪ .‬فرض کنید تعداد زیادی از کشورهای توسعه یافته (مثل آمریکا‪،‬‬ ‫انگلستان و آلمان) و کمتر توسعه‏یافته (مثل سودان‪ ،‬آنگوال و هائیتی) را در مثال‬ ‫خود دارید‪ .‬در کشورهای توســعه یافته موسسات دولتی آماری بزرگی وجود‬ ‫دارند که با منابع مالی پایدارشــان داده‏های ‪( GDP‬و بسیاری متغیرهای دیگر)‬ ‫را مرتبا جمع‏آوری می‏کنند؛ در نتیجه داده‏های ‪ GDP‬این کشورها با دقت قابل‬ ‫قبولی در دســترس است‪ .‬در مقابل کشورهای کمتر توسعه یافته قرار دارند که‬ ‫اغلب فاقد چنین موسساتی هستند و بخش غیررسمی یا زیرزمینی اقتصادشان‬ ‫بزرگ و قابل توجه اســت‪ .‬نتیجه این می‏شــود که داده‏های رسمی ‪ GDP‬این‬ ‫کشورها اغلب اوقات دقیق نیســتند‪ .‬جمع‏آوری داده‏هایی با این ویژگی‏ها چه‬ ‫پیامدهایی بر برآوردهای ‪ OLS‬دارد؟‬ ‫اولین پیامد این اســت که جزءخطا یا ‪ e‬در کشــورهای کمتر توسعه یافته‬ ‫گرایش دارد که بزرگ‏تر از جزءخطای کشورهای توسعه یافته باشد‪ .‬این مفهوم‬ ‫را «ناهمسانی واریانس» می‏نامند‪ 1.‬دومین پیامد این است که چون در مقایسه با‬ ‫کشــورهای کمتر توسعه یافته‪ ،‬داده‏های کشورهای توسعه یافته دقیق‏تر هستند‪،‬‬ ‫می‏توانیم برای داده‏های کشــورهای اخیر وزن یا اهمیت بیشــتری قائل شویم‬ ‫(یعنی به این داده‏ها وزن بدهیم)‪ .‬این دقیقا همان کاری اســت که روش ‪GLS‬‬ ‫انجام می‏دهد‪ .‬در واقع برآوردگر ‪ GLS‬را می‏توان ‪OLS‬ای دانست که از داده‏های‬ ‫وزن‏دهی‏شده‪ 2‬استفاده می‏کند‪.‬‬ ‫اگر وقت بیشتری را به خواندن اقتصادسنجی اختصاص بدهید یاد خواهید گرفت‬ ‫که منظورمان از «وزن‏دهی‏شــده» دقیقا چیست‪ .‬فعال کافی است همین قدر بدانید‬ ‫که در این شــرایط‪ OLS ،‬هنوز برآوردگر خوبی است‪ 3‬اما اگر ناهمسانی واریانس‬ ‫وجود داشته باشد‪ GLS ،‬بهتر است‪ .‬می‏توانید در یک نرم‏افزار صفحه گسترده (مثل‬ ‫‪ -1‬تعریف دقیق ناهمسانی واریانس این است که انحراف معیار جزء خطا در مشاهدات مختلف متفاوت باشد‪.‬‬

‫‪2- Reweighted data‬‬ ‫‪ -3‬به زبان آماری‪ ،‬هم ‪ OLS‬و هم ‪ GLS‬برآوردگرهایی بدون تورش هستند‪ ،‬اما ‪ GLS‬کاراتر از ‪ OLS‬است‪.‬‬

‫‪361‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫اکسل) داده‏ها را وزن‏دهی و از ‪ GLS‬استفاده کنید اما در بیشتر مجموعه داده‏ها انجام‬ ‫چنین کاری وقت‏گیر و خسته‏کننده است و بهتر است از یک نرم‏افزار اقتصادسنجی‬ ‫اســتفاده کنید‪ .‬عالوه بر ناهمسانی واریانس‪ ،‬ممکن است مشکالت دیگری نیز در‬ ‫داده‏ها وجود داشــته باشد که پیامدهای مشــابهی در انتخاب روش برآورد به جا‬ ‫بگذارد (یعنی هرچند ‪ OLS‬مناسب است اما ‪ GLS‬بهتر است)‪ .‬شناخته‏شده‏ترین این‬ ‫مشکالت زمانی اتفاق می‏افتد که اجزای خطا خودهمبستگی داشته باشند‪ .‬مفهوم‬ ‫خودهمبستگی در فصل ‪ 10‬معرفی شد‪ .‬این‌جا تفاوت این است که داریم در مورد‬ ‫‪ et‬بحث می‏کنیم نه ‪ Yt‬؛ یعنی موضوع بحث این بخش همبستگی اجزای خطا با‬ ‫مقادیر باوقفه خودشان است‪ .‬اگر مقادیر وقفه را به‏درستی انتخاب کرده باشید (یعنی‬ ‫‪ p‬در )‪ AR(p‬یا ‪ p‬و ‪ q‬در (‪ ،)ARDL (p,q‬بعید است خودهمبستگی اجزای خطا بدل‬ ‫به مشکل شود‪ .‬اما اگر چنین مشکلی وجود داشته باشد‪ ،‬برآوردگر ‪ GLS‬نسبت به‬ ‫‪ OLS‬برآوردهای مطمئن‏تری تولید می‏کند‪.‬‬ ‫همه آن‏چه در باال گفته شــد مربوط به حالت‏هایی اســت که ‪ OLS‬احتماال‬ ‫روش مناســبی اســت اما برآوردگرهای دیگری هم هســتند که در آن شرایط‬ ‫بهتر کار می‏کنند‪ .‬اما یک حالت ویژه وجود دارد که مشــکل اجزای خطا باعث‬ ‫می‏شــود که به‏کار بســتن ‪ OLS‬گمراه‏کننده و غلط باشد‪ .‬این مربوط به زمانی‬ ‫اســت که اجزای خطا با متغیرهای توضیحی همبســته باشند‪ .‬در مورد این‌که‬ ‫چنین شرایطی کی رخ می‏دهد و اصال چرا منجر به مشکل می‏شود‪ ،‬خیلی بحث‬ ‫نمی‏کنیم؛ اما نمودار ‪ 13-1‬درکی تصویری از موضوع ارائه و شرایطی را توضیح‬ ‫می‏دهد که اجزای خطا و متغیرهای توضیحی همبستگی مثبت دارند‪.‬‬ ‫در نمودار ‪ 13-1‬خط رگرســیون درست با خط توپر و فرمول ‪Y = α + βX‬‬ ‫نشان داده شده است‪ .‬همبستگی مثبت بین ‪ X‬و اجزای خطا به این معنی است که‬ ‫مقادیــر زیاد ‪ X‬و مقادیر زیاد خطا (یعنی خطاهای مثبت) و مقادیر کم ‪ X‬با مقادیر‬ ‫کم خطا (یعنی خطاهای منفی) همراه هستند‪ .‬با این حساب نمودار ‪ XY‬شبیه نمودار‬ ‫‪ 13-1‬می‏شود که در آن نقاط مشاهده قرار گرفته زیر خط رگرسیون درست‪ ،‬مربوط‬ ‫به مقادیر اندک ‪ X‬و نقاط باالی آن مربوط به مقادیر زیاد ‪ X‬هستند‪ .‬به‌‏عبارت دیگر‬

‫تحلیل داده‌های اقتصادی‬

‫نمودار ‪ 13-1‬به‏شکلی رسم شده است تا به‏ازای مقادیر کم ‪ ، X‬تمام خطاها منفی‬ ‫و ب ‏ه ازای مقادیر زیاد ‪ ، X‬مثبت باشــند‪ OLS .‬نیز خطی از میان نقاط نمودار ‪13-1‬‬ ‫رسم می‏کند که با خط‏چین نشان داده شــده است‪ .‬در نمودار می‏توان دید که هم‬ ‫شیب و هم جزء ثابت (عرض از مبدا) خط رسم‏شده به‏وسیله ‪ OLS‬متفاوت از خط‬ ‫رگرسیون درست است؛ این تفاوت به آن معناست که در این شرایط استفاده از ‪OLS‬‬ ‫به وضوح نامناسب است‪ .‬معمول‏ترین حالتی که در آن بین متغیرهای توضیحی‬ ‫و خطاها همبســتگی وجود دارد‪ ،‬مدل معادالت هم‏زمان‪ 1‬اســت‪ .‬این عنوان را‬ ‫در بخش بعدی توضیح خواهیم داد‪ .‬فعال همین‏قدر کافی اســت بدانید که اگر‬ ‫جزءخطا با متغیرهای توضیحی همبســته باشــد‪ ،‬نباید از ‪ OLS‬استفاده کنید؛‬ ‫به‏جای آن باید از برآوردگر متغیرهای ابزاری‪ 2‬استفاده کنید‪.‬‬ ‫تمام نرم‏افزارهای اقتصادســنجی قابلیت برآورد مدل‏های با متغیر وابســته‬ ‫محدود‪ ،‬روش ‪ GLS‬و متغیرهای ابزاری را دارند‪.‬‬ ‫‪362‬‬

‫نمودار ‪13-1‬‬

‫‪2- Instrumental variables‬‬

‫‪1- Simultaneous equations model‬‬

‫مشکالتی که غلبه بر آن‏‏ها نیازمند استفاده از مدل‏های معادالت‬ ‫چندگانه است‬

‫‪363‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫در سراســر این کتاب به‏جز بحث‏مــان در مورد مدل‏هــای ‪ VAR‬و ‪،VECM‬‬ ‫تمرکزمان بر مدل‏های رگرسیون تک‪-‬معادله‏ای بود‪ .‬در مقاصد عملی غیرمعمول‬ ‫نیست که چندین متغیر وابسته و در نتیجه چندین مدل رگرسیونی داشته باشیم‬ ‫(که گاهی اوقات سیســتم معادالت خوانده می‏شود)‪ .‬در ادامه به‏منظور توضیح‬ ‫این کاربردهای عملی‪ ،‬چند مثال ارائه می‏شود‪.‬‬ ‫• فرض کنید که داده‏های مقطعــی تولید چند بنگاه را جمع‏آوری کرده‏اید‪.‬‬ ‫ایــن داده‏ها عبارتنــد از‪ :‬تعداد نیروی کار‪ ،‬حجم ســرمایه‪ ،‬انرژی و مواد اولیه‬ ‫استفاده شده و قیمت تمام این نهاده‏های تولید‪ .‬هدف توضیح چگونگی انتخاب‬ ‫نهاده‏های تولید توســط بنگاه‏ها است‪ .‬در این مثال با چهار متغیر وابسته مواجه‬ ‫هســتیم (یعنی نیروی کار‪ ،‬سرمایه‪ ،‬انرژی و مواد اولیه) که همه آن‏ها وابسته به‬ ‫قیمت‏شــان هستند‪ .‬باید برای هر متغیر وابســته یک معادله رگرسیون جداگانه‬ ‫بنویسید‪ ،‬پس چهار معادله مجزا داریم‪.‬‬ ‫• فرض کنید که داده‏های سری‏زمانی مصرف به تفکیک انواع آن (یعنی غذا‪،‬‬ ‫حمل‏ونقل‪ ،‬مســکن‪ ،‬پوشــاک‪ ،‬کاالهای بادوام و غیره) را جمع‏آوری کرده‏اید‪.‬‬ ‫هدف بررســی این موضوع اســت که مصرف این اقالم (یعنی اجزای مصرف‬ ‫کل به تفکیک فوق) چگونه به شــرایط کلی اقتصاد وابسته هستند‪ .‬در این مثال‬ ‫با تعداد زیادی متغیر وابســته ســر و کار دارید (یعنی مصرف غذا‪ ،‬حمل‏ونقل‪،‬‬ ‫مســکن و غیره) و از متغیرهای اقتصاد کالن مثل ‪ ،GDP‬نرخ‏های بهره و غیره‬ ‫به‏عنوان متغیرهای توضیحی اســتفاده می‏کنید‪ .‬وجود هر متغیر وابسته به‏معنی‬ ‫وجود یک معادله رگرسیون است‪.‬‬ ‫• به کاربردهای مالی بپردازیم‪ .‬ممکن اســت بخواهید بازده سهام بنگاه‏های‬ ‫مختلف را بررســی کنید‪ .‬در این شــرایط احتماال تعداد زیادی متغیر متفاوت‬ ‫خواهید داشــت (یعنی بازده سهام هر بنگاه) که وابسته به متغیرهای توضیحی‬ ‫گوناگونی چون نرخ‏های بهره و غیره هستند‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪364‬‬

‫• مدل خودرگرســیون برداری (‪ )VAR‬کــه در فصل ‪ 12‬در موردش بحث‬ ‫کردیم مثال‏ای از مدل‏های معادالت چندگانه اســت‪ .‬در این مدل‪ Y ،‬وابسته به‬ ‫وقفه‏های خودش و وقفه‏های متغیر دیگر یعنی ‪ X‬اســت‪ .‬البته معادله دومی هم‬ ‫وجود دارد که در آن ‪ X‬متغیر وابسته است و بستگی به وقفه‏های ‪ Y‬و وقفه‏های‬ ‫خودش دارد‪.‬‬ ‫• خوانندگانی که اقتصاد کالن خوانده‏اند‪ ،‬مدل ‪ IS-LM‬را به‏خوبی می‏شناسند‪.‬‬ ‫این مدل هم دو معادله دارد (یعنی معادله ‪ IS‬و معادله ‪.)LM‬‬ ‫• مدل عرضه و تقاضا‪ ،‬مدل استاندارد علم اقتصاد است‪ .‬این مدل دارای دو‬ ‫معادله است‪ :‬منحنی عرضه و منحنی تقاضا‪.‬‬ ‫برای توضیح نکته اصلی این بخش باید اشــاره کنیم که فقط دو مثال آخر‬ ‫باعث ایجاد مشکالت جدی در برآورد ‪ OLS‬می‏شوند‪.‬‬ ‫برای درک مشــکلی که در سیستم معادالت چندگانه وجود دارد‪ ،‬ابتدا باید‬ ‫چند مفهوم را معرفی کنیم که ممکن است از پیش با آن‏ها آشنا باشید‪ .‬یک متغیر‬ ‫را درون‏زا می‏گویند اگر مقدار آن درون مدل تحت بررسی تعیین شود‪ .‬اگر جز‬ ‫این باشد‪ ،‬آن را برون‏زا می‏نامند‪.‬‬ ‫این مفاهیم ارتباط نزدیکــی با موضوع علیت (که در فصل ‪ 4‬آن را مطالعه‬ ‫کردیم) دارند‪ .‬به یاد بیاورید که اگر متغیر توضیحی علت متغیر وابسته باشد (و‬ ‫نه عکس آن)‪ ،‬تفسیر نتایج رگرسیون بسیار ساده می‏شود‪ .‬به‏عبارت دیگر مدل‬ ‫رگرســیون فرض می‏کند که ‪ Y‬به‏وسیله تغییرات ‪ X‬تعیین می‏شود‪ .‬البته به این‬ ‫موضوع که ‪ X‬چطور تعیین می‏شــود کاری نداشتیم‪ .‬در این حالت متغیر وابسته‬ ‫یعنی ‪ ،Y‬متغیر درون‏زا است و متغیر توضیحی یعنی ‪ X‬برون‏زا فرض شده است‪.‬‬ ‫اگر بخواهیم سرراست بگوییم‪ ،‬تا زمانی که متغیرهای توضیحی مدل‏تان برون‏زا‬ ‫هســتند‪ ،‬استفاده از ‪ OLS‬مشــکلی ندارد‪ ،‬حتی اگر چندین معادله در مدل‏تان‬ ‫باشد‪ .‬اما اگر متغیرهای توضیحی درون‏زا باشند‪ ،‬نباید از ‪ OLS‬استفاده کنید‪.‬‬ ‫مثال‏های زیر باید بتوانند موضوع را برای‏تان روشن کنند‪.‬‬ ‫• در فصل‏های ‪ 6‬و ‪ ،7‬قیمت خانه را بر چندین متغیر نشان‏دهنده ویژگی‏های‬

‫‪365‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫خانه رگرس کردیم‪ .‬قیمت‏های خانه یعنی ‪ Y‬وابســته به ویژگی‏های آن اســت‬ ‫(یعنی خانه‏های دارای اتاق‏خواب‏های بیشتر‪ ،‬گرایش به قیمت بیشتر دارند)‪ .‬اما‬ ‫ویژگی‏های هر خانه به قیمت آن بستگی ندارد (یعنی مثال اگر بازار مسکن دچار‬ ‫ت خانه‏ها کاهش یابد‪ ،‬باعث نمی‏شود که اتاق‏های خواب یا‬ ‫رکود شــود و قیم ‏‬ ‫حمام‏ها خانه‏ها کمتر شــوند)‪ X .‬علت ‪ Y‬است اما ‪ Y‬علت ‪ X‬نیست‪ X .‬برون‏زا‬ ‫و ‪ Y‬درون‏زا است‪.‬‬ ‫• بنگاه‏ها مقدار استخدام نهاده‏های خود را با توجه به قیمت آن‏ها تعیین می‏کنند‬ ‫(یعنی اگر در مقایســه با خرید ماشــین‏آالت جدید‪ ،‬دستمزدها نسبتا ارزان باشند‪،‬‬ ‫بنگاه‏ها گرایش پیدا می‏کنند که به‏جای خرید ماشین‏آالت‪ ،‬کارگران بیشتری استخدام‬ ‫کنند)‪ .‬قیمت اســت که مقدار استخدام نهاده‏ها را تعیین می‏کند یا علت آن است‪.‬‬ ‫اما عکس آن درست نیست یعنی مقدار نهاده انتخاب‏شده تاثیری بر قیمت نهاده‏ها‬ ‫ندارد‪ .‬مثال حداقل در بازارهای رقابتی‪ ،‬اگر بنگاهی کارگران بیشتری استخدام کند‪،‬‬ ‫این عمل باعث افزایش دستمزدها نمی‏شود‪ .‬پس در مدلی که قرار است چگونگی‬ ‫استخدام نهاده‏ها را توضیح دهد‪ ،‬مقدار نهاده‏ها درون‏زاست (یعنی توسط مدل تعیین‬ ‫می‏شود) و قیمت نهاده‏ها برون‏زا خواهد بود‪.‬‬ ‫• آن‏چه که از حل مدل ‪ IS-LM‬به‏دست می‏آید‪ ،‬مقدار تعادلی درآمد ملی و‬ ‫نرخ بهره است‪ .‬یعنی در این مدل‪ ،‬درآمد ملی و نرخ بهره هر دو تعیین‏شده (یا‬ ‫ی ‪ IS-LM‬از این دو‬ ‫حل‏شده) هستند‪ .‬محقق اقتصادسنجی هنگام برآورد مدل‏ها ‏‬ ‫متغیر (و دیگر متغیرها) استفاده می‏کند‪ .‬هر دوی این متغیرها درون‏زا هستند (و‬ ‫در مدل تعیین می‏شوند)‪.‬‬ ‫• در مدل عرضه‪-‬تقاضا‪ ،‬قیمت و مقدار تعادلی از برخورد منحنی‏های عرضه و‬ ‫تقاضا به‏دست می‏آیند‪ .‬هم قیمت و هم مقدار کاالهای عرضه‏وتقاضا‏شده در بازار‬ ‫به‏وسیله مدل تعیین می‏شوند‪ .‬بنابراین هر دو (قیمت و مقدار) درون‏زا هستند‪.‬‬ ‫در ادامه این بخش‪ ،‬فرض می‏کنیم که ‪ Y‬نشــان‏دهنده یک متغیر درون‏زا و‬ ‫‪ X‬نشــان‏دهنده یک متغیر برون‏زا باشد‪ .‬اگر از هر کدام از این متغیرها بیشتر از‬ ‫یکی داشــتیم‪ ،‬از عبارت‏های ‪ Y1,......,YM‬و ‪ X1,......,XK‬برای اشاره به ‪ M‬متغیر‬

‫درون‏زا و ‪ K‬متغیر برون‏زا اســتفاده خواهیم کرد‪ .‬در ادامه طبقه‏بندی حالت‏های‬ ‫ممکن آمده است‪:‬‬ ‫• مدل رگرســیون ‪ Y = α + β1X1 + … + βK XK + e‬به‏طور کامل در این‬ ‫کتاب توضیح داده شد‪ .‬این مدل را به‏راحتی می‏توان با ‪ OLS‬برآورد کرد‪.1‬‬ ‫• اگر سیستم معادالتی به‏شکل زیر داشته باشید‪:‬‬ ‫‪Y1 = α1 + β11X1 + … + β1K XK + e1‬‬

‫‪Y2 = α 2 + β21X1 + … + β2K Xk + e2‬‬

‫‪......................................................................................................‬‬ ‫‪......................................................................................................‬‬ ‫‪YM = αM + βM1X1 + … + βMK Xk + eM‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪366‬‬

‫به‏سادگی می‏توانید هر دفعه یک معادله را با ‪ OLS‬برآورد کنید‪ .‬البته فرض‬ ‫این مدل آن اســت که متغیرهای توضیحی تمام معادالت دقیقا یکسان هستند‬ ‫(یعنی مقدار هر نهاده وابسته به قیمت تمام نهاده‏ها است)‪ .‬اگر معادالت دارای‬ ‫متغیرهای توضیحی متفاوتی باشــند (مثال مقدار هر نهاده فقط به قیمت همان‬ ‫‪2‬‬ ‫نهاده بستگی داشته باشد)‪ ،‬آن‏گاه برآوردگر معادالت رگرسیون به‏ظاهر نامرتبط‬ ‫یا (‪ )SURE‬بهتر از ‪ OLS‬اســت‪ .‬البته در ایــن حالت هم ‪ OLS‬دومین بهترین‬ ‫است (و نادرست نیست)‪.‬اگر با مدل مثل مدل زیر کار می‏کنید‪:‬‬ ‫• یا شکل عمومی‏تر آن یعنی‪:‬‬

‫‪Y1 = α + βY2 + e‬‬

‫‪Y1 = α1 + γ12 Y2 + … + γ1M YM + β11X1 + … + β1K XK + e1‬‬ ‫‪Y2 = α 2 + γ 21Y1 + … + γ 2M YM + β21X1 + … + β2K XK + e2‬‬

‫‪......................................................................................................‬‬ ‫‪......................................................................................................‬‬ ‫‪ -1‬البته که اگر مشکالت مربوط به جزء خطا یا متغیر وابسته ‪-‬که قبال در همین فصل توضیح داده شد‪-‬‬ ‫وجود داشته باشند‪ ،‬آن‏گاه باید اصالحاتی بر ‪ OLS‬اعمال کرد‪ .‬این شرایط برای مورد بعدی نیز صادق است‪.‬‬ ‫‪2- Seemingly unrelated regression equations‬‬

‫‪YM = αM + γ M1Y1 + … + γ M.M−1YM−1 + βM1X1 + … + βMK XK + eM‬‬

‫‪QD = αD + βDP‬‬

‫این رابطه مقدار تقاضای یک کاال یعنی ‪ QD‬را وابسته به قیمت آن ‪ P‬فرض‬ ‫می‏کند‪ .‬منحنی عرضه چگونگی عرضه کاال یعنی ‪ QS‬توســط بنگاه‏ها را نشان‬ ‫می‏دهد که آن هم وابسته به قیمت کاالست‪:‬‬ ‫‪S‬‬ ‫‪Q = α S + β SP‬‬

‫خط‏های توپر در نمودار ‪ 13-2‬نشان‏دهنده منحنی‏های عرضه و تقاضاست‪.‬‬ ‫نقطــه برخورد آن‏ها نیز قیمت و مقدار تعادلی یعنی *‪ P‬و *‪ Q‬را تعیین می‏کند‪.‬‬ ‫به‏عبارت دیگر قیمت و مقدار درون مدل تعیین می‏شوند و از این رو درون‏زا‬ ‫هستند‪ .‬چه می‏شــد اگر داده‏های قیمت و مقدار را جمع‏آوری (مثال داده‏های‬ ‫هفتگــی بازار یک محصول خاص طی چندیــن هفته) و مقدار را روی قیمت‬ ‫رگــرس می‏کردیم؟ نتایج رگرســیون فرضی ما عبارت می‏شــد از جزء ثابت‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫∧‬ ‫(عرض از مبدا) و شیب خط رگرسیون یعنی ‪ α‬و ‪ . β‬اما این ‪ α‬و ‪ β‬برآوردهای‬ ‫چه چیزی هستند؟‬

‫‪367‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫آن‏گاه اســتفاده از ‪ OLS‬به نتایج گمراه‏کننده منجر می‏شود و در نتیجه نباید‬ ‫از آن اســتفاده کرد‪ .‬بــرای خالصه کردن بحث‪ ،‬اگــر متغیرهای توضیحی‏تان‬ ‫برون‏زا باشند اســتفاده از ‪ OLS‬قابل قبول است (حتی در مدل‏های رگرسیون‬ ‫چندگانه)‪ .‬اما اگر متغیرهای توضیحی درون‏زا باشــند‪ OLS ،‬برآوردگر مناسبی‬ ‫نیست (حتی در مدل رگرسیون تک‪-‬معادله‏ای)‪.‬‬ ‫آخریــن مدلی که در باال وجود دارد را مدل معادالت هم‏زمان می‏نامند که‬ ‫در ادبیات اقتصادســنجی بسیار مورد توجه است‪ .‬بحث در مورد جزییات این‬ ‫مدل‏ها در چارچوب موضوعات این کتاب قرار ندارد؛ با این حال ارزش دارد‬ ‫با مرور یک مثال اندکی در مورد دالیل نامناســب بودن ‪ OLS‬در این شــرایط‬ ‫بحث کنیم‪ .‬ســاده‏ترین مدل اســتاندارد عرضه و تقاضــا در اقتصاد را در نظر‬ ‫بگیرید‪ .‬منحنی تقاضا با رابطه‏ای مثل رابطه زیر مشخص می‏شود‪:‬‬

‫نمودار ‪13-2‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪368‬‬

‫شــاید متوجه مشکل استفاده از ‪ OLS‬شــده باشید؛ مشکل این است که ما‬ ‫∧‬ ‫∧‬ ‫نمی‏دانیم ‪ α‬و ‪ β‬برآورد‏شــده مربوط به ‪ αD‬و ‪( βD‬یعنی متعلق به منحنی تقاضا)‬ ‫هستند یا مربوط به ‪ αS‬و ‪( βS‬یعنی متعلق به منحنی عرضه)‪ .1‬برآوردهای ‪ OLS‬در‬ ‫عمل احتماال نه نشان‏دهنده منحنی عرضه هستند نه منحنی تقاضا‪.‬‬ ‫با دقت به نمودار ‪ 13-2‬می‏توان ایرادات بیشتر روش ‪ OLS‬را فهمید‪ P* .‬و *‪Q‬‬ ‫به‏ترتیب قیمت و مقدار تعادلی را نشان می‏دهند‪ .‬فرض کنید که قیمت و مقدار این‬ ‫کاال را در بازار به دفعات زیاد مشاهده و ثبت کرده‏ایم (مثال هر هفته به مدت یک‬ ‫سال)‪ .‬در جهان واقعی احتماال هیچ‏وقت دقیقا در نقطه تعادل قرار نداریم و همیشه‬ ‫انحرافاتی از تعادل وجود خواهد داشت‪ .‬یعنی قیمت و مقدار واقعی مشاهده‏شده‬ ‫در هر هفته هر دفعه دقیقا برابر *‪ P‬و *‪ Q‬نیستند‪ .‬احتماال این نقاط مشاهده‏شده در‬ ‫ابری از مشاهدات اطراف نقطه تعادل قرار می‏گیرند؛ مثل نقاط مشاهدات در نمودار‬ ‫‪ .13-2‬سعی کنید کاری که ‪ OLS‬انجام می‏دهد را در ذهن‏تان تکرار کنید‪ :‬یعنی خطی‬ ‫‪ -1‬به زبان رسمی اقتصادسنجی‪ ،‬این مثال‏ای از مشکل شناسایی (‪ )identification problem‬است‪.‬‬

‫مستقیم از میان این نقاط بگذرانید‪ .‬احتماال فهمیده‏اید که این خط برازش‏شده الزاما‬ ‫نشان‏دهنده هیچ‏یک از منحنی‏‏های عرضه یا تقاضا نخواهد بود‪.‬‬ ‫به بیان فنی می‏توان گفت زمانی که برخی یا تمام متغیرهای توضیحی درون‏زا‬ ‫باشند‪ ،‬جزءخطای رگرسیون با متغیرهای توضیحی همبستگی خواهد داشت و‬ ‫استفاده از ‪ OLS‬اشتباه است (بحث‏های نمودار ‪ 13-1‬را دوباره مالحظه کنید)‪.‬‬ ‫برای مواجه شدن و غلبه بر این شرایط‪ ،‬الزم است نحوه کار کردن با مدل‏های‬ ‫معادالت هم‏زمان و برآورد متغیرهای ابزاری را یاد بگیرید‪.‬‬

‫خالصه فصل‬

‫‪369‬‬

‫فصل ‪ :13‬محدویت‏ها و راه‏حل‏ها‬

‫به‏طور خالصه می‏توانیم بگوییم که اگر چه ‪ OLS‬ابزاری قدرتمند و قابل تطبیق‬ ‫با شرایط مختلف داده‏هاست اما تمام حالت‏های ممکن را پوشش نمی‏دهد‪ .‬در‬ ‫ادامه خالصه‏ای از برخی شرایط آمده که در آن ‪ OLS‬هرچند قابل استفاده است‬ ‫اما بهترین انتخاب ممکن نیست‪ .‬البته شرایطی هم وجود دارد که استفاده از این‬ ‫روش غلط است‪.‬‬ ‫‪ -1‬در شرایط زیر ‪ OLS‬دومین بهترین انتخاب است‪:‬‬ ‫• متغیر وابســته یک بازه زمانی را اندازه بگیرد یا شمارشی باشد (یعنی عدد‬ ‫صحیح باشد)؛‬ ‫• اجزای خطا واریانس ناهمسان یا خودهمبسته باشند؛‬ ‫• تعداد زیادی متغیر وابســته در داده‏ها وجود دارد که منجر به تعداد زیادی‬ ‫معادله می‏شود اما تمام متغیرهای توضیحی برون‏زا هستند‪.‬‬ ‫‪ -2‬در شرایط زیر نتایج ‪ OLS‬گمراه‏کننده است‪ ،‬پس نباید از آن استفاده کرد‪:‬‬ ‫• متغیر وابسته سانسور شده باشد؛‬ ‫• اجزای خطا با متغیرهای توضیحی همبستگی داشته باشند؛‬ ‫• یکی یا چند تا از متغیرهای توضیحی درون‏زا باشند؛‬ ‫• تعداد زیادی متغیر وابسته در داده‏ها وجود داشته باشد که منجر به چندین‬ ‫معادله شود‪ ،‬اما برخی از متغیرهای توضیحی درون‏زا باشند‪.‬‬

‫ضمیمه الف‬ ‫شیوه نوشنت یک مقاله‬

‫ترشیح یک مقاله متداول‬

‫امروزه بخش زیادی از فعالیت اقتصاددانان‪ ،‬انجام تحقیق در حوزه‏های گوناگون‬ ‫است‪ .‬دانشــجویان مقاطع لیسانس و فوق لیسانس‪ ،‬اســاتید دانشگاه در رشته‬ ‫اقتصاد‪ ،‬سیاســت‏گذاران شــاغل در بخش خدمات شــهری و بانک مرکزی و‬ ‫اقتصاددانان حرفه‏ای شاغل در بخش خصوصی یا صنعت‪ ،‬همگی ممکن است‬ ‫نیازمند نوشتن گزارشی به همراه تحلیل داده‏های اقتصادی باشند‪ .‬بسته به‌عنوان‬ ‫مقاله و موضوع و سیاست‏های مجله‪ ،‬شکل مقاله می‏تواند کامال متفاوت باشد‪،‬‬ ‫بنابرایــن نمی‏توان یک حکم کلی در مورد فرمت یک مقاله علمی ارائه کرد‪ .‬با‬ ‫در نظر داشــتن این موضوع‪ ،‬در ادامه این بخش مولفه‏های اصلی و متداول یک‬ ‫گزارش یا مقاله اقتصادی را معرفی می‏کنیم که می‏تواند سرمشقی برای نوشتن‬

‫‪371‬‬

‫ضمیمه الف‪ :‬نوشتن یک مطالعه تجربی‬

‫در این ضمیمه سرخط‏های کلی نوشتن یک مقاله یا گزارش ارائه شده است‪.‬‬ ‫در ادامه بحث‪ ،‬چندین عنوان برای نوشــتن مقاله پیشنهاد شده است که تکمیل‬ ‫این مقاالت کمک زیادی به درک تکنیک‏های توضیح داده شــده در این کتاب‬ ‫می‏کند‪ .‬داده‏های مورد نیاز نیز در وبســایت مربوط به این کتاب موجود است‬ ‫(به‏جز موضوع آخر که داده‏های مورد نیاز آن در وبسایت دیگری وجود دارد)‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪372‬‬

‫متن‏های مشــابه در آینده باشد‪ .‬اما فراموش نکنید که اگر موضوع کارتان مقاله‬ ‫کالسی دوره لیســانس یا گزارش‏های کاری باشد‪ ،‬الزم نیست تمام مولفه‏های‬ ‫زیر را در گزارش خودتان بیاورید‪.‬‬ ‫مقدمه‪ :‬اغلب مقاالت با مقدمه‏ای مختصر آغاز می‏شــوند که در آن به دالیل‬ ‫و انگیزه‏های نوشــتن مقاله‪ ،‬توضیحی از موضوع مورد مطالعه و خالصه‏ای از‬ ‫مهم‏ترین یافته‏های تجربی آن اشاره می‏شود‪ .‬مقدمه باید به زبان ساده و غیرفنی‬ ‫با حداقل استفاده از عبارت‏های آماری و اقتصادی نوشته شود تا خواننده‏ای که‬ ‫در موضوع مقاله یا گزارش متخصص نیست هم بتواند آن را بخواند و موضوع‬ ‫کلی آن را بفهمد‪.‬‬ ‫مرور ادبیات‪ :‬در این بخش باید خالصه‏ای از کارهای مشابه دیگران نوشته‬ ‫شود‪ .‬مرور ادبیات باید شامل فهرست و توضیحی بسیار مختصر از سایر مقاالت‬ ‫و یافته‏های مشابه با کار شما باشد‪.‬‬ ‫مبانی نظری اقتصادی‪ :‬اگر گزارش مدنظر‪ ،‬دانشــگاهی و شــامل یک مدل‬ ‫نظری باشد‪ ،‬این مدل باید در این بخش توضیح داده شود‪ .‬گزارش‏های سیاستی‬ ‫(خالصه مدیریتی) الزم نیســت حتما چنین مدلی داشــته باشند‪ .‬در این بخش‬ ‫می‏توانید موضوع اقتصادی یا آماری کارتان را با جزییات بیشــتر تشریح کنید‪.‬‬ ‫زبان و موضوع این بخش می‏تواند فنی‏تر از بخش قبل باشــد که معموال شامل‬ ‫عبارت‏ها و واژگان ریاضی‪ ،‬آماری و اقتصادی است‪ .‬کوتاه این‌که می‏توانید این‬ ‫بخش را به‏تنهایی به یک مخاطب متخصص در این حوزه ارائه کنید‪.‬‬ ‫داده‏ها‪ :‬داده‏های مورد استفاده و توضیحی مفصل در مورد منبع آن‏ها در این‬ ‫بخش نوشته می‏شود‪.‬‬ ‫مدل برآورد‏شــده‪ :‬در این بخش باید توضیح بدهید که چگونه از داده‏ها برای‬ ‫بررسی نظریه اقتصادی استفاده کرده‏اید‪ .‬بسته به موضوع مقاله و خط‏مشی مجله یا‬ ‫مخاطبان‪ ،‬فرم دقیق این بخش می‏تواند تغییر کند‪ .‬مثال ممکن است بخواهید در مورد‬ ‫رگرسیون خاصی که مورد توجه مطالعه است استدالل کنید‪ ،‬در مورد متغیر وابسته‬ ‫مدل توضیح بدهید یا متغیرهای مستقل مدل‏تان را بررسی کنید‪ .‬یا اگر موضوع‏تان در‬

‫نکات کلی‬

‫در این بخش چند نکته کلی بررسی می‏شود که به درد نوشتن هر نوع مقاله‏ای‬ ‫می‏خــورد‪ .‬بحث اصلی این بخش این اســت که یک مقاله خوب شــامل چه‬

‫‪373‬‬

‫ضمیمه الف‪ :‬نوشتن یک مطالعه تجربی‬

‫حوزه اقتصاد کالن و داده‏های مورد استفاده سری‏زمانی است‪ ،‬ممکن است استدالل‬ ‫کنید که بنا بر نظریه اقتصادی انتظار دارید که متغیرها هم‏جمع باشد‪ ،‬از این رو آزمون‬ ‫هم‏جمعی انجام بدهید‪ .‬خالصه این‌که در این بخش باید تکنیکی که قرار است در‬ ‫بخش بعد استفاده کنید را توجیه کنید‪.‬‬ ‫یافته‏های تجربی‪ :‬معموال این بخش مهم‏ترین قسمت هر مقاله است که در‬ ‫آن یافته‏هــای تجربی توضیح داد‏ه و ارتباط این نتایج با موضوع اقتصادی مورد‬ ‫نظر مقاله بررسی می‏شود‪ .‬در این بخش هم باید اطالعات اقتصادی وجود داشته‬ ‫باشد هم اطالعات آماری‪ .‬منظورمان از «اطالعات اقتصادی» مثال مقدار ضرایب‬ ‫برآورد‏شــده یا نتایج آزمون هم‌انباشــتهی بین دو متغیر و ارتباط این یافته‏ها با‬ ‫مبانی نظری اقتصادی اســت‪« .‬اطالعات آماری» ممکن است چیزی شبیه این‬ ‫باشــد‪ :‬نتایج آزمون فرضیه که نشــان می‏دهد کدام‏یک از ضرایب معنا دارند‪،‬‬ ‫توجیه تعداد وقفه‏های انتخاب‏شده‪ ،‬توضیح دالیل حذف متغیرهای توضیحی که‬ ‫از نظر آماری معنادار نیستند‪ ،‬بحث در مورد برازش مدل (مثال ‪ R2‬یا مشاهدات‬ ‫پرت) و ‪ . ...‬این اطالعات معموال به‏وســیله جدول یا نمودار ارائه می‏شــوند‪.‬‬ ‫بســیاری از مقاالت هم با یک نمودار ســاده (مثال نمودار سری‏زمانی داده‏ها)‬ ‫شروع می‏شوند و ســپس جدول آمار توصیفی (شامل میانگین‪ ،‬انحراف معیار‪،‬‬ ‫مینیمم و ماکزیمم هر متغیر و ماتریس همبستگی تمام متغیرها) را ارائه می‏کنند‪.‬‬ ‫ممکن است جدول دیگری شامل نتایج تحلیل آماری مثل برآورد ضرایب ‪OLS‬‬ ‫به‏همراه آماره ‪( t‬یــا ‪ )P-value‬این ضرایب‪ ،‬مقدار ‪ R2‬و آماره ‪ F‬برای آزمون‬ ‫معناداری کل رگرسیون نیز ممکن است در برخی مقاالت وجود داشته باشد‪.‬‬ ‫نتیجه‏گیری‪ :‬این بخش باید شامل خالصه‏ای کوتاه از موضوع تحت بررسی‬ ‫مقاله و مهم‏ترین یافته‏های تجربی آن باشد‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪374‬‬

‫مواردی است و نتایج مقاله چگونه باید ارائه شوند‪.‬‬ ‫اولین نکته مهم این اســت که نتایج درســت یا غلط وجــود ندارند‪ .‬نتایج‬ ‫تجربی همان‏طور که به‏دست می‏آیند گزارش می‏شوند و اگر خروجی نرم‏افزار‬ ‫و نتایــج مقاله‏تان مطابق انتظار نبود نباید ناامید شــوید‪ .‬در حالت آرمانی‪ ،‬ابتدا‬ ‫محقق یک نظریه را در نظر می‏گیرد یا حتی نظریه‏ای جدید ارائه می‏کند‪ ،‬سپس‬ ‫برای آزمایــش این نظریه‪ ،‬آزمون‏های تجربی را انجــام می‏دهد که در بهترین‬ ‫حالت‪ ،‬نتایج آن نظریه جدید را از نظر آماری تایید می‏کند‪ .‬اما در جهان واقعی‬ ‫به‏ندرت چنین فرایندی اتفاق می‏افتد‪.‬‬ ‫در جهان واقعی متغیرهای توضیحی که انتظار دارید از لحاظ آماری معنادار‬ ‫باشند‪ ،‬اغلب معنادار نیستند‪ .‬متغیرهایی که انتظار دارید هم‏جمع باشند‪ ،‬معموال‬ ‫هم‏جمع نیســتند و ضرایبی که انتظار دارید مثبت باشــند‪ ،‬اغلب منفی به‏دست‬ ‫می‏آیند‪ .‬به‏دســت آمدن چنین نتایجی اصال عجیب نیست ‪-‬حتی در مطالعات‬ ‫پیچیده و سطح باال‪ .‬این موضوع نباید باعث نومیدی شما بشود! در عوض باید‬ ‫زاویه دیدتان را بازتر کند‪ .‬یافته‏هایی که با نظریه نمی‏خوانند درســت به اندازه‬ ‫یافته‏های مطابق با نظریه‪ ،‬علمی هستند‪.‬‬ ‫عالوه بر این نتایج تجربی اغلب اوقات مبهم و گیج‏کننده هستند‪ .‬مثال یک‬ ‫آزمون آماری ممکن اســت به یک نتیجه منجر شود و آزمون دیگر به نتیجه‏ای‬ ‫دیگر‪ .‬به‌همین شــکل‪ ،‬یک متغیر توضیحی که در یک رگرسیون معنادار است‬ ‫ممکن است در رگرسیون دیگر معنادار نباشد‪ .‬شما کاری در این مورد نمی‏توانید‬ ‫انجام دهید به‏جز این‌که نتایج را دقیقا همان‏طور که هســت گزارش کنید و (در‬ ‫صورت امکان) سعی کنید بفهمید چرا چنین نتایجی به‏دست آمده است‪.‬‬ ‫کم پیش می‏آیــد که اقتصاددانــی کل نتایج آماری مقاله را دســتکاری یا‬ ‫جعل کند‪ .‬آن‏چه بیشــتر پیش می‏آید این اســت که محقق یا اقتصاددان ممکن‬ ‫است وسوسه شــود کاری کند که نتایج را مطابق انتظار نظریه جلوه دهد‪ .‬مثال‬ ‫در تحقیق‏ها متداول اســت که تعداد زیادی رگرســیون با متغیرهای توضیحی‬ ‫گوناگونی برآورد شــود‪ .‬انجام چنین کاری هوشــمندانه است و نشان می‏دهد‬

‫عناوین مقاالت‬

‫‏در ادامه چندین عنوان درج شده است که می‏توانید هر کدام را بدل به یک مقاله کنید‪.‬‬

‫موضوع اول‪ :‬معامی کم قیمت‏‏گذاری شدن سهام‬

‫پیشینه‪ :‬سرمایه‏گذاران و اقتصاددانان مالی عالقه‏مند به دانستن ساز و کار بازار سهام‬ ‫برای قیمت‏گذاری سهام شرکت‏های مختلف هستند (ارزش سهام)‪ .‬در تحلیل بنیادی‬ ‫ارزش سهام هر بنگاه باید نشان‏دهنده انتظارات سرمایه‏گذاران نسبت به سودآوری‬ ‫آینده آن بنگاه باشد‪ .‬اما در مورد سودآوری آینده بنگاه داده‏ای وجود ندارد‪ .‬به جای‬ ‫آن مطالعات تجربی مالی باید از معیارهایی مثل درآمد فعلی‪ ،‬فروش‪ ،‬حجم دارایی و‬ ‫بدهی بنگاه به‏عنوان متغیر توضیحی استفاده کنند‪.‬‬

‫‪375‬‬

‫ضمیمه الف‪ :‬نوشتن یک مطالعه تجربی‬

‫که محقق داده‏ها را با دقت موشــکافی کــرده و موضوع را از جوانب مختلفی‬ ‫در نظر گرفته اســت‪ .‬اما اگر محقق فقط نتایــج دلخواه را گزارش کند و نتایج‬ ‫سایر رگرسیون‏هایی که مطابق انتظار نیستند را گزارش نکند‪ ،‬می‏توان گفت که‬ ‫خواننده را گول زده اســت‪ .‬از وسوسه گزارش جهت‏دار نتایج (یعنی گزارش‬ ‫نکردن نتایج نامطلوب) اجتناب کنید!‬ ‫در مورد نحوه گزارش کردن نتایج مهم‏ترین چیز‪ ،‬وضوح و شفافیت است‪.‬‬ ‫فارغ از این که مقاله‏تان خوب اســت یا نه‪ ،‬خوانندگان احتمالی مقاله‏تان یعنی‬ ‫اساتید دانشگاهی‪ ،‬کارمندان دولت‪ ،‬سیاســت‏گذاران و شاغلین بخش صنعت‬ ‫آنقدر وقت و حوصله ندارند که صرف خواندن گزارشی طوالنی‪ ،‬ب ‏ه هم ریخته‬ ‫یا مبهم و پیچیده کنند‪.‬‬ ‫مهارت اصلی که نویسندگان مقاالت خوب دارند‪ ،‬حسن انتخاب است‪ .‬مثال‬ ‫ممکن اســت رگرســیوه‏های گوناگونی را برآورد و ضرایب زیادی را به‏دست‬ ‫آورده باشــید‪ .‬نکته مهم این اســت که تصمیم بگیرید کدام یک از نتایج برای‬ ‫خوانندگان مهم هســتند و کــدام کم‏اهمیت‪ .‬فقط باید نتایــج مهم را در مقاله‬ ‫گزارش کنید و این‏کار را بدون دستکاری کردن نتایج انجام دهید‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪376‬‬

‫عالوه بر پرسش عام چگونگی تعیین ارزش بازار سهام هر بنگاه‪ ،‬طی سال‏های‬ ‫اخیر پرسش دیگری نیز مورد توجه اقتصاددانان قرار گرفته است‪ .‬برای درک این‬ ‫سوال توجه کنید که بخش عمده سهام مبادله‏شده در بازارهای سهام‪ ،‬سهام قبال‬ ‫منتشر‏شده شرکت‏های موجود هستند‪ .‬اما شرکت‏های موجود نیز عالوه بر سهام‬ ‫قبلی خود‪ ،‬سهام جدید نیز منتشر می‏کنند ‪-‬که به آن ‪ SEO1‬می‏گویند‪ .‬عالوه بر‬ ‫این‪ ،‬شــرکت‏هایی که تا به حال سهام‏شان در بازار معامله نمی‏شده است ممکن‬ ‫است سهام منتشر کنند (مثال شرکت نرم‏افزار کامپیوتر که مالک آن یک فرد است‬ ‫می‏خواهد بدل به شــرکت سهامی عام شود و برای افزایش سرمایه یا گسترش‬ ‫مقیاس خود‪ ،‬سهامش را در بازار عرضه کند)‪ .‬اولین عرضه عمومی سهم را ‪IPOs‬‬ ‫می‏نامند‪ .‬بعضی از محققین بر مبنای شواهد تجربی معتقدند که ‪ IPOs‬در مقایسه‬ ‫با ‪ ،SEOs‬زیرقیمت ارزش‏گذاری می‏شــوند‪ .‬در این مقاله با استفاده از داده‏های‬ ‫زیر‪ ،‬این موضوع را بررسی کنید‪.‬‬ ‫داده‏ها‪ :‬فایل ‪ EQUITY.XLS‬شــامل داده‏های ‪ N=309‬شرکتی است که در‬ ‫ســال ‪ 1996‬در آمریکا سهام جدید منتشــر کرده‏اند‪ .‬بعضی از آن‏ها ‪ SEOs‬و‬ ‫برخی دیگر ‪ IPOs‬هســتند‪ .‬برای متغیرهای زیر داده وجود دارد‪ .‬تمام متغیرها‬ ‫به‏جز ‪ SEO‬به میلیون دالر هستند‪.‬‬ ‫• ‪ :VALUE‬ارزش مجموع ســهام (جدید و قدیمی) پس از انتشــار سهام‬ ‫جدید توسط شرکت‪ .‬این مقدار از ضرب قیمت هر سهم در تعداد سهام موجود‬ ‫به‏دست آمده است‪.‬‬ ‫• ‪ :DEBT‬مقدار بدهی بلندمدت هر شرکت‪.‬‬ ‫• ‪ :SALES‬مجموع فروش هر شرکت‪.‬‬ ‫• ‪ :INCOME‬خالص درآمد هر شرکت‪.‬‬ ‫• ‪ :ASSET‬ارزش دفتــری دارایی‏های هر شــرکت (یعنی یک حســابدار‬ ‫دارایی‏های شرکت را چقدر ارزش‏گذاری می‏کند)‪.‬‬ ‫‪1- Seasoned equity offerings‬‬

‫• ‪ :SEO‬متغیر مجازی که اگر ســهام منتشر‏شده ‪ SEO‬باشد مساوی ‪ 1‬است‬ ‫و اگر ‪ IPO‬باشد مساوی صفر است‪.‬‬

‫موضوع دوم‪ :‬توضیح رشد اقتصادی‬

‫‪2- Fernandez, Ley and Steel‬‬

‫‪1- Barro‬‬

‫‪377‬‬

‫ضمیمه الف‪ :‬نوشتن یک مطالعه تجربی‬

‫پیشــینه‪ :‬در مقاله مهم بارو‪ ،)1991( 1‬از روش رگرســیونی برای تعیین عوامل‬ ‫موثر بر رشد اقتصادی کشورها استفاده شده است‪ .‬پس از آن تعداد زیادی مقاله‬ ‫دیگر منتشر شد که این موضوع را با داده‏ها‪ ،‬متغیرها و روش‏های آماری متفاوتی‬ ‫بررســی کردند‪ .‬هدف این مقاله بررســی عوامل تعیین‏کننده رشد اقتصادی با‬ ‫استفاده از داده‏های زیر و روش رگرسیون است‪ .‬داده‏ها‪ :‬فایل ‪GROWTH.XLS‬‬ ‫شامل داده‏های ‪ N=72‬کشــور برای متغیرهای زیر است‪ .‬همه متغیرها متوسط‬ ‫دوره ‪ 1960-1992‬یا سال‏هایی در این دوره زمانی هستند‪.‬‬ ‫• ‪ :GDP growth‬متوسط رشد ‪ GDP‬سرانه‪.‬‬ ‫• ‪ :Primary school‬نسبت جمعیت دارای حداقل تحصیالت دبستان‪.‬‬ ‫• ‪ :Life expectancy‬امید به زندگی‪.‬‬ ‫• ‪ :GDP 1960‬سطح ‪ GDP‬سرانه در سال ‪( 1960‬به دالر آمریکا)‪.‬‬ ‫• ‪ :Investment‬سرمایه‏گذاری در ماشین‏آالت و تجهیزات‪.‬‬ ‫• ‪ :Higher education‬نسبت جمعیت دارای حداقل مدرک لیسانس‪.‬‬ ‫• ‪ :War dummy‬متغیر مجازی با مقدار ‪ 1‬اگر کشــور مدنظر در بازه زمانی‬ ‫‪ 1960-1992‬درگیر جنگ بوده باشد و ‪ 0‬در غیر این صورت‪.‬‬ ‫نکته‪ :‬داده‏های استفاده‏شــده در این مقاله بخشــی از داده‏های استفاده‏شده‬ ‫توسط فرناندز‪ ،‬لی و استیل‪ )2001( 2‬است‪ ،‬البته ایشان از مدل آماری پیچیده‏تری‬ ‫اســتفاده کردند‪ .‬در مقاله ایشان از داده‏ها با جزییات بیشتری استفاده شده است‬ ‫و البته منبع کل داده‏ها نیز ذکر شده است‪.‬‬

‫موضوع سوم‪ :‬مشارکت زنان در بازار کار‬

‫تحلیل داده‌های اقتصادی‬

‫‪378‬‬

‫پیشینه‪ :‬اقتصاددانان مایل به دانستن عوامل تعیین‏کننده تصمیم زنان برای ورود‬ ‫به بازار کار هســتند‪ .‬هدف این مقاله برآورد مدل انتخاب کیفی مناســبی برای‬ ‫توضیح عوامل تعیین‏کننده مشــارکت زنان در بازار کار اســت‪ .‬از نتایج برآورد‬ ‫می‏توان برای پاســخ دادن به سواالت تحقیقی مانند سوال‏های زیر استفاده کرد‪:‬‬ ‫«آیا داشــتن فرزند تمایــل زنان به کار کردن را کاهش می‏دهــد؟» یا «آیا زنان‬ ‫تحصیل‏کرده یا باهوش‏تر بیشــتر کار می‏کنند؟» یا «آیا درآمد شوهر بر تصمیم‬ ‫زنان متاهل برای ورود به بازار کار موثر است؟»‪.‬‬ ‫داده‏ها‪ :‬در این مقاله می‏توانید از داده‏های فایل ‪ WORKCHOICE.XLS‬اســتفاده‬ ‫کنید که از نظرسنجی از ‪ 655‬زن آمریکایی متاهل سفیدپوست برای تعیین تمایل‏شان‬ ‫به کار کردن به‏دست آمده است‪ .‬فایل داده‏ها شامل یک متغیر وابسته مجازی یعنی‬ ‫‪( workchoice‬انتخاب کار) است‪ ،‬اگر فرد موردنظر شاغل باشد مساوی ‪ 1‬و در غیر‬ ‫این صورت مساوی ‪ 0‬است‪ .‬متغیرهای توضیحی مدل به‏شرح زیر هستند‪:‬‬ ‫• ‪ :ability‬معیار توانایی شــناختی مبتنی بر آزمون ‪( IQ‬نگران واحد شمارش‬ ‫نباشید‪ ،‬اما توجه داشته باشید که مقدار بیشتر این متغیر نشان‏دهنده توانایی بیشتر‬ ‫است)‪.‬‬ ‫• ‪ :num-kids‬تعداد فرزندان‪.‬‬ ‫• ‪ :sp_income‬درآمد شوهر (به هزار دالر)‪.‬‬ ‫• ‪ :years_ed‬تعداد سال‏های تحصیل‪.‬‬ ‫• ‪ :Urate‬نرخ بیکاری در منطقه محل زندگی‪.‬‬

‫موضوع ‪ :4‬چگونگی تنظیم دستمزدها‬

‫پیشــینه‪ :‬در این مقاله با اســتفاده از داده‏های ســری‏زمانی‪ ،‬چگونگی تعیین‬ ‫دســتمزدها بررسی می‏شود‪ .‬پرســش اصلی در چنین تحلیل‏هایی این است که‬ ‫وابســتگی سطح دستمزدها به عوامل اقتصاد کالن مثل سطح قیمت‏ها‪ GDP ،‬و‬ ‫متغیرهای مرتبط با اشتغال و نیروی کار چگونه است‪ .‬برای بررسی تجربی این‬

‫موضوع ‪ :5‬مرصف‪ ،‬ثروت و درآمد‬

‫پیشینه‪ :‬در مقاله‏ برجسته التائو و لودویگسون‪ )2001( 1‬نظریه‏ مالی ارائه شد‬ ‫که بر مبنای آن مصرف‪ ،‬دارایی‏ها و درآمد هم‌انباشته هستند و پسماند رابطه‬ ‫هم‌انباشتگی می‏تواند مازاد بازده ســهام را پیش‏بینی کند‪ .‬ایشان برای اثبات‬ ‫‪1- Lattau and Ludvigson‬‬

‫‪379‬‬

‫ضمیمه الف‪ :‬نوشتن یک مطالعه تجربی‬

‫موضوع باید به مسائلی چون ریشه واحد و هم‌انباشتهی توجه کرد‪.‬‬ ‫داده‏ها‪ :‬فایل ‪ WAGE.XLS‬شــامل داده‏های ســاالنه انگلســتان از سال ‪1855‬‬ ‫تا ‪ 1987‬اســت‪ .‬از همه متغیرهای لگاریتم طبیعی گرفته شــده است‪ .‬داده‏های‬ ‫متغیرهای زیر در فایل وجود دارند‪:‬‬ ‫• ‪ :W‬لگاریتم دستمزد اسمی‪.‬‬ ‫• ‪ :P‬لگاریتم شاخص قیمت مصرف‏کننده‪.‬‬ ‫• ‪ :GDP‬لگاریتم ‪ GDP‬واقعی‪.‬‬ ‫• ‪ :E‬لگاریتم مجموع تعداد نیروی کار‪.‬‬ ‫• ‪ :L‬لگاریتم مجموع نیروی کار بالقوه‪.‬‬ ‫ادامه پیشــینه‪ :‬عالوه بر موضوع چگونگی تعیین دســتمزد‪ ،‬می‏توان به روابط‬ ‫بیــن متغیرهای فــوق نیز پرداخــت‪ .‬اگر فرمول‏هــای عملگــر لگاریتم مثل‬ ‫)‪ ln(AB) = ln(A) - ln (B‬و ‪ ln (1 + A ) ≈ A‬را به یاد داشــته باشید می‏توانید‬ ‫فرمول‏های زیر را به‏دست بیاورید‪:‬‬ ‫• لگاریتم دستمزدهای واقعی = ‪W - P‬‬ ‫• لگاریتم بهره‏وری هر کارگر = ‪GDP - E‬‬ ‫• لگاریتم نرخ بیکاری ≈ ‪L − E‬‬ ‫• لگاریتم سهم دستمزدها از ‪W - P- GDP + E = GDP‬‬ ‫موضوع دیگر قابل بررسی این است که آیا روابط فوق‪ ،‬روابط هم‌انباشتهی‬ ‫هستند یا خیر‪.‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪380‬‬

‫ادعای خود شــواهد تجربی ارائه کردند‪ .‬در مقاله بعدی لتائو و لودویگسون‬ ‫(‪ )2004‬با اســتفاده از داده‏های مشــابه شــواهد بیشــتری برای آزمون هم‬ ‫انباشتگی و ‪ VECM‬جمع‏آوری کردند‪.‬در این مقاله باید از آزمون‏های ریشه‬ ‫واحد و هم انباشتگی و تکنیک ‪ VECM‬استفاده کنید‪ .‬البته می‏توانید مقاله را‬ ‫به دلخواه خود تغییر دهید اما موضوعات و پرســش‏هایی که در ادامه آمده‬ ‫است مثال‏های مناسبی هستند‪:‬‬ ‫• نتیجه‏گیری لتائو و لودویگســون مبتنی بر این یافته اســت که متغیرهای‬ ‫فوق‏الذکر هم انباشــته هستند‪ .‬با در نظر گرفتن طول وقفه‏های متفاوت و تغییر‬ ‫دادن اجــزای قطعی (مثل جزء ثابت و روند زمانی) رابطه هم انباشــتگی‪ ،‬این‬ ‫موضوع را دقیق‏تر بررسی کنید‪.‬‬ ‫• یک مدل تصحیح خطای برداری یا ‪ VECM‬را برآورد و نتایج آن را تفسیر‬ ‫کنید‪ .‬کدام متغیرهای توضیحی برای پیش‏بینی کدام متغیرها مناســب هستند؟‬ ‫روش ‪ VECM‬را برای بررسی علیت گرنجر به‏کار بگیرید‪.‬‬ ‫داده‏ها‪ :‬برای انجام این مقاله از فایل ‪ CAY.XLS‬استفاده کنید که شامل داده‏های‬ ‫متغیرهای زیر از فصل چهارم سال ‪ 1951‬تا فصل اول سال ‪ 2003‬است‪:‬‬ ‫• مصرف یا ‪c‬؛‬ ‫• دارایی یا ‪a‬؛‬ ‫• درآمد یا ‪.y‬‬ ‫چنین رابطه‏ای که ‪ CAY‬نامیده می‏شود در ادبیات جدید اقتصاد مالی بسیار‬ ‫پرکاربرد است‪.‬‬

‫موضوع ‪ :6‬نوسانات مالی‬

‫در این مقاله از داده‏های کار فرانسیس و فان‏دیک‪ )2000( 1‬استفاده می‏شود‪ .‬این‬ ‫داده‏ها به همراه مجموعه غنی از داده‏های قیمت سهام و نرخ‏های ارز کشورهای‬ ‫‪1- Franses and van Dijk‬‬

‫‪381‬‬

‫ضمیمه الف‪ :‬نوشتن یک مطالعه تجربی‬

‫مختلف در وبســایت مرتبط وجود دارد‪ .‬از جمله این داده‏ها می‏توان به موارد‬ ‫زیر اشاره کرد‪ :‬شاخص قیمت سهام بورس‏های آمستردام (‪ ،)EOE‬فرانکفورت‬ ‫(‪ ،)DAX‬هونــگ کونــگ (‪ ،)Hang Seng‬لنــدن (‪ ،)FTSE100‬نیویــورک‬ ‫(‪ ،)S&P 500‬پاریس (‪ ،)CAC40‬سنگاپور (‪ )Singapore All Shares‬و توکیو‬ ‫(‪ )Nikkei‬و نرخ‏های ارز عبارتند از دالر استرالیا‪ ،‬پوند بریتانیا‪ ،‬دالر کانادا‪ ،‬داچ‬ ‫مارک آلمان‪ ،‬گیلدر هلند‪ ،‬فرانک فرانســه‪ ،‬ین ژاپن و فرانک ســوییس همه بر‬ ‫حســب یک دالر آمریکا‪ .‬بازه زمانی شاخص قیمت سهام از ‪ 6‬ژانویه ‪ 1986‬تا‬ ‫‪ 31‬دســامبر ‪ 1997‬است و برای نرخ‏های ارز این بازه زمانی از ‪ 2‬ژانویه ‪1980‬‬ ‫تا ‪ 31‬دسامبر ‪ 1997‬را شامل می‏شود‪.‬‬ ‫با اســتفاده از این داده‏ها و مدل‏های ‪ ARCH‬و ‪ GARCH‬نوسانات مالی را‬ ‫بررسی کنید‪ .‬آیا در بازده سهام هم نوسان وجود دارد؟ نرخ‏های ارز چطور؟‬ ‫کارهــای زیادی می‏توان با این داده‏ها انجام داد‪ .‬مثال یکی از موضوعاتی که‬ ‫مورد توجه محققان اقتصاد مالی قرار دارد این اســت که آیا نوسانات بازارهای‬ ‫مالی به تواتر داده‏ها بستگی دارد؟ یعنی ممکن است داده‏های روزانه بازده سهام‬ ‫نوسان بیشــتری نسبت به داده‏های ماهانه داشته باشند‪ .‬با استفاده از این داده‏ها‬ ‫می‏توانید این موضوع را بررســی کنید‪ .‬داده‏های فوق با تواتر روزانه نیز وجود‬ ‫دارند‪ .‬اگر در تحقیق‏تان به تواتر هفتگی نیاز دارید‪ ،‬از داده‏های چهارشــنبه هر‬ ‫هفته استفاده کنید و برای تواتر ماهانه‪ ،‬از روز آخر هر ماه‪.‬‬

‫ضمیمه ب‬ ‫فهرست راهنامی داده‏ها‬ ‫‪ADVERT‬‬

‫مخارج فروش و تبلیغات‬

‫مقطعی برای ‪ 84‬شرکت‬

‫فصل‏های ‪ 4‬و ‪5‬‬

‫‪AFFAIR‬‬

‫انتخاب یک کار‬

‫مقطعی برای ‪ 61‬نفر‬

‫فصل ‪8‬‬

‫‪CAY‬‬

‫مصرف‪ ،‬دارایی‏ها و درآمد‬

‫سری‏زمانی برای ‪ 206‬فصل‬

‫فصل ‪ 12‬و ضمیمه ‪A‬‬

‫‪COMMUTE‬‬

‫انتخاب بین حمل‏ونقل عمومی یا اتوموبیل شخصی‬

‫مقطعی برای ‪ 390‬نفر‬

‫فصل ‪8‬‬

‫‪ COMPUTE1‬درصد تغییر در خرید کامپیوتر و بهره‏وری کارمندان‬

‫سری‏زمانی برای ‪ 98‬ماه‬

‫فصل ‪11‬‬

‫‪ COMPUTER‬درصد تغییر در خرید کامپیوتر و بهره‏وری کارمندان‬

‫سری‏زمانی برای ‪ 98‬ماه‬

‫فصل ‪11‬‬

‫‪CORMAT‬‬

‫متغیرهای ساختگی با نام‏های ‪ Y، X‬و ‪Z‬‬

‫‪ 20‬مشاهده مقطعی‬

‫فصل ‪3‬‬

‫‪EDUC‬‬

‫مخارج آموزش و رشد ‪GDP‬‬

‫سری‏زمانی ‪ 86‬ساله از ‪1910‬‬ ‫تا ‪1995‬‬

‫فصل ‪9‬‬

‫‪ELECTRIC‬‬

‫هزینه تولید صنعت برق‪ ،‬مقدار تولید و قیمت‬ ‫نهاده‏های تولید‬

‫مقطعی برای ‪ 123‬شرکت‬

‫فصل‏های ‪ 5 ،4‬و ‪6‬‬

‫مقطعی برای ‪ 309‬شرکت‬

‫ضمیمه الف‬

‫‪EX34‬‬

‫متغیرهای شبیه‏سازی‏شده به نام‏های ‪ X2 ،Y، X1‬و ‪X3‬‬

‫‪ 20‬مشاهده مقطعی‬

‫فصل ‪3‬‬

‫‪EX46‬‬

‫متغیرهای شبیه‏سازی‏شده به نام‏های ‪ Y‬و ‪X‬‬

‫‪ 50‬مشاهده مقطعی‬

‫فصل ‪4‬‬

‫‪EXRUK‬‬

‫نرخ ارز پوند انگلستان به دالر آمریکا‬

‫سری‏زمانی ‪ 598‬ماهه از ژانویه‬ ‫‪ 1947‬تا اکتبر ‪1996‬‬

‫فصل ‪12‬‬

‫‪FIG105‬‬

‫متغیر شبیه‏سازی‏شده به نام «سری ‪»b=0‬‬

‫سری‏زمانی با ‪ 100‬مشاهده‬

‫فصل ‪10‬‬

‫‪FIG106‬‬

‫متغیر شبیه‏سازی‏شده به نام «سری ‪»8.b=0‬‬

‫سری‏زمانی با ‪ 100‬مشاهده‬

‫فصل ‪10‬‬

‫‪FIG107‬‬

‫متغیر شبیه‏سازی‏شده به نام «سری ‪»b=1‬‬

‫سری‏زمانی با ‪ 100‬مشاهده‬

‫فصل ‪10‬‬

‫‪FIG108‬‬

‫متغیر شبیه‏سازی‏شده به نام «‪»trend stat‬‬

‫سری‏زمانی با ‪ 100‬مشاهده‬

‫فصل ‪10‬‬

‫‪FIG51‬‬

‫متغیر شبیه‏سازی‏شده به نام‏های ‪ X‬و ‪Y‬‬

‫مقطعی با ‪ 5‬مشاهده‬

‫فصل ‪5‬‬

‫‪EQUITY‬‬

‫ارزش سهام بنگاه‏ها‪ ،‬بدهی‪ ،‬فروش‪ ،‬درآمد‪ ،‬دارایی‏ها و‬ ‫متغیر مجازی ‪SEO‬‬

‫‪383‬‬

‫ضمیمه ب‪ :‬فهرست راهنمای داده‏ها‬

‫فایل داده‏ها‬

‫محتوا‬

‫نوع داده‏ها‬

‫فصل‬

‫فایل داده‏ها‬

‫محتوا‬

‫نوع داده‏ها‬

‫فصل‬

‫‪FIG52‬‬

‫متغیر شبیه‏سازی‏شده به نام‏های ‪ X‬و ‪Y‬‬

‫مقطعی با ‪ 100‬مشاهده‬

‫فصل ‪5‬‬

‫‪FIG53‬‬

‫متغیر شبیه‏سازی‏شده به نام‏های ‪ X‬و ‪Y‬‬

‫مقطعی با ‪ 100‬مشاهده‬

‫فصل ‪5‬‬

‫‪FIG54‬‬

‫متغیر شبیه‏سازی‏شده به نام‏های ‪ X‬و ‪Y‬‬

‫مقطعی با ‪ 100‬مشاهده‬

‫فصل ‪5‬‬

‫‪FOREST‬‬

‫کاهش سطح جنگل‏ها‪ ،‬تراکم جمعیت‪ ،‬تغییر مراتع‬ ‫و تغییر کشتزار‬

‫مقطعی برای ‪ 70‬کشور‬

‫فصل‏های ‪ 5 ،4 ،3 ،2‬و ‪6‬‬

‫‪GDPPC‬‬

‫‪ GDP‬سرانه واقعی‬

‫مقطعی برای ‪ 90‬کشور‬

‫فصل‏های ‪ 2‬و ‪5‬‬

‫‪GROWTH‬‬

‫رشد ‪ GDP‬و متغیرهای توضیحی‬

‫مقطعی برای ‪ 72‬کشور‬

‫ضمیمه الف‬

‫‪HPRICE‬‬

‫قیمت و ویژگی‏های خانه (مثل اندازه خانه‪ ،‬تعداد اتاق‬ ‫خواب‏ها و‪)...‬‬

‫مقطعی برای ‪ 546‬خانه‬

‫فصل‏های ‪ 6 ،5 ،4 ،3‬و ‪7‬‬

‫‪INCOME‬‬

‫لگاریتم درآمد شخصی و مصرف در آمریکا‬

‫‪LONGGDP‬‬

‫تحلیل داده‌های اقتصادی‬

‫‪384‬‬

‫سری‏زمانی برای ‪ 164‬فصل از‬ ‫فصل اول سال ‪ 1954‬تا فصل فصل‏های ‪ 11 ،10 ،2‬و ‪12‬‬ ‫چهارم سال ‪1994‬‬

‫سری‏زمانی ‪ 124‬ساله از ‪1870‬‬ ‫‪ GDP‬سرانه واقعی استرالیا‪ ،‬آمریکا‪ ،‬انگلستان و کانادا‬ ‫تا ‪1993‬‬

‫‪NYSE‬‬

‫تغییرات قیمت سهام‬

‫سری‏زمانی ‪ 528‬ماهه از ژانویه‬ ‫‪ 1952‬تا دسامبر ‪1995‬‬

‫‪ORANGE‬‬

‫قیمت پرتقال معمولی و ارگانیک‬

‫سری‏زمانی برای ‪ 181‬ماه‬

‫‪RMPY‬‬

‫سری‏زمانی برای ‪ 184‬فصل از‬ ‫نرخ بهره ماهانه اوراق خزانه‏داری‪ ،‬قیمت این اوراق‪،‬‬ ‫فصل اول سال ‪ 1947‬تا فصل‬ ‫عرضه پول‪ GDP ،‬و تغییرات تفاضلی تمام متغیرها‬ ‫چهارم سال ‪1992‬‬

‫فصل‏های ‪ 11‬و ‪12‬‬ ‫فصل ‪12‬‬ ‫فصل‏های ‪ 11‬و ‪12‬‬ ‫فصل ‪12‬‬

‫‪SAFETY‬‬

‫زیان‏های شرکت ناشی از حوادث و ساعات صرف‏شده‬ ‫برای آموزش ایمنی‬

‫سری‏زمانی برای ‪ 60‬ماه‬

‫فصل ‪9‬‬

‫‪SMOKING‬‬

‫استعمال سیگار‪ ،‬آموزش و سن‬

‫مقطعی برای ‪ 1196‬نفر‬

‫فصل ‪8‬‬

‫‪STOCK‬‬

‫داده‏های وقفه‏دار قیمت سهام‬

‫سری‏زمانی برای ‪ 208‬هفته‬

‫فصل ‪11‬‬

‫سری‏زمانی برای ‪ 133‬سال از‬ ‫‪ 1855‬تا ‪1987‬‬

‫ضمیمه الف‬

‫‪WAGEDISC‬‬

‫داده‏های مرتبط با اشتغال کارمندان (مثل حقوق‪،‬‬ ‫آموزش‪ ،‬تجربه و جنسیت)‬

‫مقطعی برای ‪ 100‬کارمند‬

‫فصل ‪7‬‬

‫‪WORKCHOICE‬‬

‫انتخاب شغل توسط زنان‬

‫مقطعی برای ‪ 655‬نفر‬

‫ضمیمه الف‬

‫‪WP‬‬

‫لگاریتم دستمزها در انگلستان و شاخص قیمت‬ ‫مصرف‏کننده‬

‫سری‏زمانی ‪ 131‬ساله از ‪1857‬‬ ‫تا ‪1987‬‬

‫فصل‏های ‪ 10‬و ‪11‬‬

‫‪WAGE‬‬

‫لگاریتم دستمزهای اسمی در انگلستان‪ ،‬شاخص‬

‫قیمت مصرف‏کننده‪ GDP ،‬واقعی‪ ،‬کل اشتعال و‬ ‫مجموع نیروی کار بالقوه‬

‫مجموعه این داده‏ها را می‏توانید از طریق سایت وبالگ کانال دریافت نمایید‪.‬‬