ج) جملات خطاها در مشاهدات مختلف ناهمبستهاند: اگر این فرض نقض شود با مسئلهای موسوم به خود همبستگی[۶۸] مواجه خواهیم بود. به طور کلی هرگاه εt ها از نظم خاصی پیروی کنند، فرض ناهمبسته بودن εt ها نقض شده و خود همبستگی مثبت، منفی یا تلفیقی ازخود همبستگی مثبت و منفی را خواهیم داشت.
د) واریانسهای جملات خطاها همگی برابرعدد ثابتی مانند δ² هستند: یعنیV(εt)=δ². هرگاه فرض اخیر نقض شود با مسئلهای موسوم به نابرابری (ناهمسانی) واریانسها[۶۹]، مواجه خواهیم بود.
ه) جملات خطاها مستقل ازمتغیرمستقل هستند: یعنیCOV(Xtεt) =0 است. در صورت نقض این فرض، مطالعه دقیق اثرات x بر رویy امکانپذیر نخواهد بود. زیرا εt نیز روی Xt اثر میگذارد.
و) متغیر مستقل(Xt) برخلاف متغیر وابسته (Yt)متغیر غیرتصادفی است.
ز) فرض دیگرکه فقط مختص مدل رگرسیون چندمتغیره میباشد، بیانگر آن است که باید تعداد مشاهدات برتعداد پارامترها فزونی داشته باشد و بین متغیرهای مستقل رابطه خطی کامل وجود نداشته باشد. این فرض شرط لازم برای حصول جواب معادلات نرمال و برآورد ضرایب رگرسیون چندمتغیره است. در هرحال این فرض دال برعدم وجود هم خطی کامل خواهد بود.
۳-۱۴-۲) احتیاط در استفاده از رگرسیون و همبستگی
رگرسیون و همبستگی ابزارهایی هستند که در صورت استفاده صحیح از آنها مفیدند، اما در بعضی مواقع استفاده نادرست از آنها در پیشبینی، باعث نتایج غیردقیق و تصمیمات نامطلوب میشود. عمدهترین اشتباهات معمول در استفاده از این ابزارها عبارتند از:
-
- تعمیم روند برای خارج از دامنه مشاهدات: از خط رگرسیون معمولاً برای پیشبینی استفاده میشود. یکی از اشتباهات معمول این است که بخواهیم روند را برای موردی تعمیم دهیم که خارج از دامنه مشاهداتی باشد که بر مبنای آنها خط رگرسیون برآورد شده است.
-
- فقدان رابطه علت و معلولی واقعی (همبستگی مجازی): گاهی همبستگی قوی بین دو متغیر پیدا میشود که واقعاً این دو متغیر هیچ رابطه علت و معلولی با هم ندارند.
-
- تعمیم روند گذشته به آینده: تعمیم روند گذشته به آینده در صورتی معقول است که همان شرایطی که در گذشته موجود بوده در آینده نیز وجود داشته باشد.
-
- تعبیر نادرست از ضرایب تعیین و همبستگی: گاهی تعبیر نادرستی از ضرایب همبستگی میشود. اگر ضریب تعیین را درصد تغییر در متغیر وابستهای بدانیم که بهدلیل تغییر در متغیر مستقل ایجاد شده، راه خطا پیمودهایم، زیرا r2معیاری است که تنها میگوید یک متغیر چقدر خوب توانسته است متغیر دیگر را توضیح دهد، ولی نمیگوید که چهمیزان تغییر در یک متغیر قابل استناد به متغیر دیگر است (آذر و مؤمنی، ۱۳۸۷).
در اکثر مدلهای رگرسیونی، معمولاً میخواهیم تغییرات یک متغیر را (y) بر حسب تعدادی از متغیرها (xها) که معتقدیم که باعث تغییرات y می شود توضیح دهیم. اغلب این کار را در قالب یک تابع انجام می دهیم:
k =1, 2… N i =1, 2… N
اندیس k تعداد متغیرهای توضیحدهنده را نشان میدهد. اغلب برای شروع، شکل این تابع را خطی فرض میکنند:
در اینجا اندیس i نشان دهنده تعداد مشاهداتی است که از هر متغیر در دست داریم. تعداد مشاهدات میتواند بر حسب زمان باشد، در این صورت yt و xkt را داریم که هر متغیر در طول سال، فصل، ماه و …. اندازهگیری میشود و خواهیم داشت t,…,1,2= t بهعبارت دیگر yt و xkt سری زمانی[۷۰] میباشند. یعنی یک متغیر واحد که مقادیر آن در فاصله زمانی مورد نظر بر اساس یک مکانیزم معین (مثلاً یک مکانیزم آماری) تولید میشود. در حالت دیگر میتوان در یک زمان خاص، برای مثال در یک سال معین، یک متغیر را در یک جامعه آماری اندازهگیری کرد. در اینحالت یک مقطع از جامعه را در یک زمان خاص پیمایش کردهایم که به زبان فنیتر آن را برش مقطعی[۷۱] میگوئیم.
با اعمال فرضهای کلاسیک رگرسیون، مدل مذکور برای یافتن β ها یا ضرایب تابع، برآورد میشود. با نقض فروض کلاسیک با مشکلاتی چون همبستگی پیاپی[۷۲] جملات اخلال یعنی در مدلهای سری زمانی و واریانس ناهمسانی در مدلهای مقطعی روبرو میشویم. آزمونهای آماری در مورد ضرایب، آماره های R2 و F رگرسیون و نظایر آن به تعدادی مشاهدات یعنی، T در مورد سری زمانی و N در مورد دادههای مقطعی و تعداد پارامترها (β های) برآورد شده بستگی دارد، اغلب با یک مشکل عمومی در این مدلها روبرو میشویم، متغیرهای توضیحی یعنی x ها با یکدیگر همخطی دارند که باعث میشود مقادیر درست β ها برآورد نشود و استنتاج با مشکل مواجه شود.
در مدلهای پانل دیتا، متغیرها را هم در میان مقاطع جامعه آماری و هم در طول زمان اندازهگیری میکنیم. البته باید توجه داشت که متغیرها باید در طول سالها یکسان بمانند که در صورت عدم رعایت آن پانل نامتوازن[۷۳] خواهد بود. به این ترتیب با دو بعد سروکار داریم: بعد زمان و بعد مقاطع، که آنرا دادههای گروهی- زمانی[۷۴] نیز میگویند.
واضح است که تعداد مشاهدات از یک متغیر، چندین برابر شده است، یعنی از T یا N در دادههای سری زمانی یا داده های مقطعی به N × T در داده های پانل، افزایش یافته است. متغیرها در عرض جامعه اندازهگیری میشود و واریانس عرض، اطلاعات زیادی برای آزمون فرضیات فراهم میآورد. در طول دوره زمانی نیز همین متغیر اندازهگیری شده و واریانس آن در طول زمان میتواند اطلاعات مفیدی از پویاییهای[۷۵] متغیر مربوطه در طول زمان برای آزمون فرضیات با ماهیتی دیگر فراهم کند و امکان مدلسازی شبیه آنچه در ادبیات سری زمانی مطرح است به وجود آید.
نماد خطی پانل دیتا :
که به زبان ماتریسی به صورت زیر است:
اندیس i برای افراد یا مقاطع ( تعداد N) و اندیس t برای زمان ( از ۱ تا T) در نظر گرفته شده است.
۳-۱۴-۳) مزایای پانلدیتا در مقایسه با دادههای مقطعی یا سری زمانی
-
- تعداد مشاهدات و دادهها در پانل دیتا بسیار بیشتر بوده و باعث میشود اعتماد به برآوردها بیشتر شود.
-
- به محققان تجربی اجازه میدهد مدلهای پیشرفتهتری را تبیین کرده و آزمون کنند که فرضیههای مقیدکننده کمتری دربر داشته باشد.
-
- زیاد بودن تعداد مشاهدات مسأله همخطی بودن را نیز تا حدود زیادی حل میکند.
-
- با این مجموعه دادهها میتوان اثراتی را شناسایی و اندازهگیری کرد که در دادههای مقطعی محض یا سری زمانی قابل شناسایی نیست.
-
- استفاده از دادههای پانل دیتا، تورش برآورد را از بین میبرد و یا کم می کند.
۳-۱۵) آزمون ناهمسانی واریانسها
بهمنظور بررسی اینکه برای تخمین مدل از روش رگرسیونی OLS[76]یا EGLS[77] استفاده کنیم آزمون ناهمسانی واریانسها را با بهرهگیری از برنامه STATA انجام میدهیم که فرض یک این آزمون، نشاندهندهی ناهمسانی واریانس و الزام به استفاده از EGLS برای تخمین مدل و فرض صفر، مبنی بر رد ناهمسانی و استفاده از OLS میباشد.
۳-۱۶) آزمون خودهمبستگی
میتوان اصطلاح خودهمبستگی را چنین تعریف کرد: “همبستگی بین اعضای سریهای مشاهداتی است که در زمان (مانند سریهای زمانی) یا مکان (مانند دادههای مقطعی) ردیف شدهاند".
خودهمبستگی مشکلی است که در نتیجه همبستگی بین جزء خطاها رخ میدهد. خودهمبستگی اثری بر روی ویژگیهای ناتور بودن و سازگاری ضرایب برآوردی نخواهد داشت، چون این ویژگیها ارتباطی به برقراری یا عدم برقراری فرض عدمهمبستگی بین جزء خطاها ندارد اما تأثیر این مسئله بر روی کارایی تخمین زنها میباشد که در نتیجه نقض فرض عدم وجود خودهمبستگی، دیگر تخمین زنها کارا نخواهند بود. در اثر این مشکل، واریانس ضرایب تخمینی تورشدار و ناسازگار بوده و آزمون فرضیهها دیگر معنادار نخواهند بود. در اکثر مواقع R2 بیش از حد تخمین زده شده که بهغلط، نشانی از خوبی برازش مدل را ارائه خواهد داد. در این حالت آماره t نیز بیشتر از مقدار واقعی خود بدست خواهد آمد که معناداری بالاتری از تخمینها را به اشتباه نشان خواهد داد (بالتاجی[۷۸]، ۲۰۰۵) .
جهت آزمون فرضیه عدم وجود خودهمبستگی از آزمون وولدریج[۷۹] استفاده کردیم که در این آزمون فرض صفر، مبتنی بر عدم وجود خودهمبستگی و فرض یک، حاکی از وجود خودهمبستگی است. این آزمون بهوسیله برنامه STATA انجام میگیرد.
۳-۱۷) آزمون مانایی (ایستایی) متغیرها
سری زمانی[۸۰]، یکی از مهمترین دادههای آماری مورد استفاده در تجزیه تحلیل تجربی است. در تحقیقات همواره چنین فرض شده است که سری زمانی مانا[۸۱] است و اگر این حالت وجود نداشته باشد، آزمونهای آماری متعارفی که اساس آنها بر پایه t، f و آزمونهای مشابه بنا شده است، مورد تردید قرار میگیرد. از طرفی، اگر متغیرهای سری زمانی مانا نباشد، ممکن است مشکلی بهنام رگرسیون کاذب بروز کند. در اینگونه رگرسیونها، در عین حالی که ممکن است هیچ رابطه معنیداری بین متغیرهای الگو وجود نداشته باشد، ضریب تعیین (R2) بدست آمده آن ممکن است بسیار بالا باشد و موجب شود که محقق به استنباطهای غلطی در مورد میزان ارتباط بین متغیرها برسد. از این رو در ادامه به بررسی مانایی متغیرها پرداخته میشود.
۳-۱۷-۱) آزمون ریشهواحد
آزمون ریشه واحد، یکی از معمولترین آزمونهایی است که امروزه برای تشخیص مانایی یک فرایند سری زمانی مورد استفاده قرار میگیرد. اساس آزمون ریشه واحد بر این منطق استوار است که وقتی در یک فرایند خود رگرسیونی درجه اول ۱p= باشد (yt = pyt-1 + ut)، در اینصورت سری زمانی yt نامانا است. بنابراین اگر به روش حداقل مربعات معمولی، ضریب p معادله فوق برآورده شود و برابر با یک بودن آن مورد آزمون قرار گیرد، میتوان مانایی یا نامانایی یک فرایند سری زمانی را به اثبات رساند.
آزمون ریشه واحد سریهای زمانی بهگونه ای است که ایستایی یا ناایستایی متغیرها را با بهره گرفتن از یک معادله بررسی می کند. لوینلینچو نشان داد که در داده های تابلویی، استفاده از آزمون ریشه واحد برای ترکیب داده ها، دارای قدرت بیشتری نسبت به استفاده از آزمون ریشه واحد برای هر مقطع بصورت جداگانه است.
وی آزمون ریشه واحد را بصورت زیر ارائه کرد:
که در آن N تعداد مقطعها، T دوره زمانی، پارامتر خودهمبسته برای هر مقطع، اثر زمان، ضریب ثابت برای هر مقطع و خطای مدل که دارای توزیع نرمال با میانگین صفر و واریانس δ²است.