همخطی بین متغیرهای مستقل در رکرسیون چیست؟
همخطی (Multicollinearity) به وضعیتی اطلاق میشود که در آن دو یا چند متغیر مستقل در یک مدل رگرسیون خطی به شدت با یکدیگر همبسته هستند.
این موضوع میتواند مشکلاتی را در تحلیل رگرسیون به وجود آورد و بر نتایج و تفسیر مدل تأثیر منفی بگذارد.
مشکلات ناشی از همخطی:
- عدم دقت در برآورد ضرایب: همخطی میتواند باعث شود که ضرایب رگرسیون بهطور نادرست برآورد شوند. این به این معناست که تغییرات کوچک در دادهها میتواند منجر به تغییرات بزرگ در ضرایب تخمینی شود.
- افزایش واریانس: همخطی باعث افزایش واریانس تخمینهای ضرایب میشود. این موضوع میتواند منجر به عدم معناداری آماری ضرایب شود، حتی اگر متغیرها واقعاً تأثیرگذار باشند.
- تفسیر دشوار: در صورت وجود همخطی، تفسیر تأثیر هر متغیر مستقل بر متغیر وابسته دشوار میشود، زیرا نمیتوان بهطور واضح مشخص کرد که کدام متغیر تأثیر بیشتری دارد.
تشخیص همخطی:
برای تشخیص همخطی میتوان از روشهای زیر استفاده کرد:
- ضریب همبستگی: بررسی ماتریس همبستگی بین متغیرهای مستقل. اگر همبستگی بین متغیرها بالای 0.8 یا 0.9 باشد، احتمال همخطی وجود دارد.
- بررسی شاخص های تولرانس وvif بین متغیرهای مستقل : تولرانس نشاندهنده میزان استقلال یک متغیر مستقل از سایر متغیرهای مستقل در مدل رگرسیون است. مقدار تولرانس از رابطه Tolerence = 1 – R2 بدست می آید . که در آن (R2) ضریب تعیین رگرسیون است که نشاندهنده میزان واریانس یک متغیر مستقل که توسط سایر متغیرهای مستقل توضیح داده میشود. به عبارت دیگر، تولرانس نشاندهنده درصد واریانس یک متغیر مستقل است که بهطور مستقل از سایر متغیرها توضیح داده میشود. مقدار ضریب تحمل (Tolerance) نیز درست معکوس مقدار آماره عامل تورم واریانس ( VIF) است و اگر از ۰/۲ بیشتر باشد نشانه آن است که مدل رگرسیون از تناسب خوبی برخوردار است ( حبیبی و سرآبادانی.۱۴۰۱). و VIF (Variance Inflation Factor): این معیار نشاندهنده میزان افزایش واریانس تخمین ضرایب به دلیل همخطی است. اگر VIF یک متغیر بیشتر ازباشد، نشاندهنده وجود همخطی جدی است. محاسبه عامل تورم واریانس VIF
معمولا این شاخص در نرم افزارهای برپایه رگرسیون محاسبه می شود. نیازی به محاسبه دستی این شاخص نیست. اما برای اطلاعات بیشتر فرمول این شاخص معرفی شده است. مقدار تورم واریانس VIFاز تقسیم عدد یک بر تولرانس بدست می آید . یعنی تولرانس/1 = vif یا به عبارت دیگر مقدار یک تقسیم بر مقدار 1 منهای ضریب تعیین است.
شاخص R² که بیانگر ضریب تعیین متغیر است استفاده می شود. شاخص تورم واریانس بالای ۱۰ نشان دهنده وضعیت هم خطی بحرانی و مقدار نزدیک به ۱ نشان دهنده وضعیت مطلوب است. حد قابل قبول شاخص VIF زیر عدد ۵ است. اگر آماره آزمون VIFبه یک نزدیک بود نشان دهنده عدم وجود همخطی است. به عنوان یک قاعده تجربی مقدار VIF بزرگتر از ۵ باشد همخطی چندگانه بالا است.
کسل و همکاران (۱۹۹۹)، بیان کردند که مقدار ضریب VIF متغیر اگر بیشتر از ۵ باشد باید از مدل حذف گردد. هایر و همکاران (۲۰۱۱)، نشان دادند که سطح قابل قبول VIF برای هر سازه ترکیبی باید کمتر از عدد ۵ باشد که این مقدار مورد تائید و قبول اکثر محققین این حوزه است.
به طور کلی در مورد مقدار قابل قبول تولرانس و vif اختلاف نظر زیادی وجود دارد ولی منابع جدید مقادیر زیر را اعلام کرده اند:
- مقدار قابل قبول:
- VIF باید کمتر از 10 باشد. مقادیر بین 5 تا 10 نشاندهنده وجود همخطی متوسط هستند و مقادیر بالای 10 نشاندهنده همخطی جدی میباشند.
- مقدار تولرانس باید بیشتر از 0.1 باشد. مقادیر کمتر از 0.1 نشاندهنده وجود همخطی جدی هستند
(فیلد ، 2013).
- تجزیه و تحلیل رگرسیون: بررسی تغییرات در ضرایب و معناداری آنها با حذف یا اضافه کردن متغیرها.
راههای مقابله با همخطی:
- حذف یکی از متغیرهای همخط: اگر دو یا چند متغیر مستقل به شدت همبسته باشند، میتوان یکی از آنها را حذف کرد.
- ترکیب متغیرها: در برخی موارد، میتوان متغیرهای همبسته را با هم ترکیب کرد و یک متغیر جدید ایجاد کرد.
- استفاده از روشهای رگرسیون دیگر: مانند رگرسیون ریدج (Ridge Regression) یا لاسو (Lasso)، که میتوانند به کاهش اثر همخطی کمک کنند.
- جمعآوری دادههای بیشتر: در برخی موارد، افزایش حجم دادهها میتواند به کاهش همخطی کمک کند.
- متعامدسازی و مرکزی سازی
نتیجهگیری:
همخطی یک مشکل رایج در تحلیل رگرسیون است که میتواند تأثیرات منفی بر دقت و تفسیر نتایج داشته باشد. شناسایی و مدیریت همخطی برای انجام تحلیلهای معتبر و قابل اعتماد ضروری است.
منابع:
James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). An Introduction to Statistical Learning (۸th ed.). Springer Science+Business Media New York.
Field, A. (2013).Discovering Statistics Using IBM SPSS Statistics. 4th Edition. SAGE Publications.Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1998).Multivariate Data Analysis. 5th Edition. Prentice Hall.Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004).Applied Linear Statistical
حبیبی، آرش؛ سرآبادانی، مونا. (۱۴۰۱). آموزش کاربردی SPSS. تهران: نارون.
همچنین مطالعه کنید:
آشفتگی شناختی : تعریف، علل و تأثیرات
۹ آرزوی بعد از مرگ در قرآن کریم
نوشته