چگونه فایل اکسل را غیر قابل ویرایش کنیم

همخطی بین متغیرهای مستقل در رگرسیون چیست؟

همخطی بین متغیرهای مستقل در رکرسیون چیست؟

همخطی (Multicollinearity) به وضعیت‌ی اطلاق می‌شود که در آن دو یا چند متغیر مستقل در یک مدل رگرسیون خطی به شدت با یکدیگر همبسته هستند.

این موضوع می‌تواند مشکلاتی را در تحلیل رگرسیون به وجود آورد و بر نتایج و تفسیر مدل تأثیر منفی بگذارد.

مشکلات ناشی از همخطی:

  1. عدم دقت در برآورد ضرایب: همخطی می‌تواند باعث شود که ضرایب رگرسیون به‌طور نادرست برآورد شوند. این به این معناست که تغییرات کوچک در داده‌ها می‌تواند منجر به تغییرات بزرگ در ضرایب تخمینی شود.
  2. افزایش واریانس: همخطی باعث افزایش واریانس تخمین‌های ضرایب می‌شود. این موضوع می‌تواند منجر به عدم معناداری آماری ضرایب شود، حتی اگر متغیرها واقعاً تأثیرگذار باشند.
  3. تفسیر دشوار: در صورت وجود همخطی، تفسیر تأثیر هر متغیر مستقل بر متغیر وابسته دشوار می‌شود، زیرا نمی‌توان به‌طور واضح مشخص کرد که کدام متغیر تأثیر بیشتری دارد.

تشخیص همخطی:

برای تشخیص همخطی می‌توان از روش‌های زیر استفاده کرد:

  1. ضریب همبستگی: بررسی ماتریس همبستگی بین متغیرهای مستقل. اگر همبستگی بین متغیرها بالای 0.8 یا 0.9 باشد، احتمال همخطی وجود دارد.
  2. بررسی شاخص های تولرانس وvif بین متغیرهای مستقل : تولرانس نشان‌دهنده میزان استقلال یک متغیر مستقل از سایر متغیرهای مستقل در مدل رگرسیون است. مقدار تولرانس از رابطه Tolerence = 1 – R2 بدست می آید . که در آن (R2) ضریب تعیین رگرسیون است که نشان‌دهنده میزان واریانس یک متغیر مستقل که توسط سایر متغیرهای مستقل توضیح داده می‌شود. به عبارت دیگر، تولرانس نشان‌دهنده درصد واریانس یک متغیر مستقل است که به‌طور مستقل از سایر متغیرها توضیح داده می‌شود. مقدار ضریب تحمل (Tolerance) نیز درست معکوس مقدار آماره عامل تورم واریانس ( VIF) است و اگر از ۰/۲ بیشتر باشد نشانه آن است که مدل رگرسیون از تناسب خوبی برخوردار است ( حبیبی و سرآبادانی.۱۴۰۱). و VIF (Variance Inflation Factor): این معیار نشان‌دهنده میزان افزایش واریانس تخمین ضرایب به دلیل همخطی است. اگر VIF یک متغیر بیشتر ازباشد، نشان‌دهنده وجود همخطی جدی است. محاسبه عامل تورم واریانس VIF
    معمولا این شاخص  در نرم افزارهای برپایه رگرسیون محاسبه می شود. نیازی به محاسبه دستی این شاخص نیست. اما برای اطلاعات بیشتر فرمول این شاخص معرفی شده است. مقدار تورم واریانس VIFاز تقسیم عدد یک بر تولرانس بدست می آید . یعنی تولرانس/1 = vif یا به عبارت دیگر مقدار یک تقسیم بر مقدار 1 منهای ضریب تعیین است.

    شاخص R²  که بیانگر ضریب تعیین متغیر است استفاده می شود. شاخص تورم واریانس بالای ۱۰ نشان دهنده وضعیت هم خطی بحرانی و مقدار نزدیک به ۱ نشان دهنده وضعیت مطلوب است. حد قابل قبول شاخص VIF زیر عدد ۵ است.  اگر آماره آزمون VIFبه یک نزدیک بود نشان دهنده عدم وجود همخطی است. به عنوان یک قاعده تجربی مقدار VIF بزرگتر از ۵ باشد همخطی  چندگانه بالا است.

کسل و همکاران (۱۹۹۹)، بیان کردند که  مقدار ضریب  VIF  متغیر اگر بیشتر از ۵ باشد باید از مدل حذف گردد. هایر و همکاران (۲۰۱۱)، نشان دادند که سطح قابل قبول VIF برای هر سازه ترکیبی باید کمتر از عدد ۵ باشد که این مقدار مورد تائید  و قبول اکثر محققین این حوزه است.

به طور کلی در مورد مقدار قابل قبول تولرانس و vif اختلاف نظر زیادی وجود دارد ولی منابع جدید مقادیر زیر را اعلام کرده اند:

  • مقدار قابل قبول:
    • VIF باید کمتر از 10 باشد. مقادیر بین 5 تا 10 نشان‌دهنده وجود همخطی متوسط هستند و مقادیر بالای 10 نشان‌دهنده همخطی جدی می‌باشند.
    • مقدار تولرانس باید بیشتر از 0.1 باشد. مقادیر کمتر از 0.1 نشان‌دهنده وجود همخطی جدی هستند

(فیلد ، 2013).

  1. تجزیه و تحلیل رگرسیون: بررسی تغییرات در ضرایب و معناداری آن‌ها با حذف یا اضافه کردن متغیرها.

راه‌های مقابله با همخطی:

  1. حذف یکی از متغیرهای همخط: اگر دو یا چند متغیر مستقل به شدت همبسته باشند، می‌توان یکی از آن‌ها را حذف کرد.
  2. ترکیب متغیرها: در برخی موارد، می‌توان متغیرهای همبسته را با هم ترکیب کرد و یک متغیر جدید ایجاد کرد.
  3. استفاده از روش‌های رگرسیون دیگر: مانند رگرسیون ریدج (Ridge Regression) یا لاسو (Lasso)، که می‌توانند به کاهش اثر همخطی کمک کنند.
  4. جمع‌آوری داده‌های بیشتر: در برخی موارد، افزایش حجم داده‌ها می‌تواند به کاهش همخطی کمک کند.
  5. متعامدسازی و مرکزی سازی

نتیجه‌گیری:

همخطی یک مشکل رایج در تحلیل رگرسیون است که می‌تواند تأثیرات منفی بر دقت و تفسیر نتایج داشته باشد. شناسایی و مدیریت همخطی برای انجام تحلیل‌های معتبر و قابل اعتماد ضروری است.

منابع:

 James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). An Introduction to Statistical Learning (۸th ed.). Springer Science+Business Media New York.

Field, A. (2013).Discovering Statistics Using IBM SPSS Statistics. 4th Edition. SAGE Publications.Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1998).Multivariate Data Analysis. 5th Edition. Prentice Hall.Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004).Applied Linear Statistical 

حبیبی، آرش؛ سرآبادانی، مونا. (۱۴۰۱). آموزش کاربردی SPSS. تهران: نارون.

همچنین مطالعه کنید:

آشفتگی شناختی : تعریف، علل و تأثیرات

۹ آرزوی بعد از مرگ در قرآن کریم

نوشته

عدالت ورزشی : بررسی اهمیت و ابعاد آن

توانایی های هوش مصنوعی جمینی Gemini

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *