در آمار از کواریانس و همبستگی برای بررسی ارتباط خطی دو بین دو متغیر و اندازه گیری میزان وابستگی آنها به همدیگر استفاده میکنند! ولی آیا هر دو عین هم هستند؟ خیر!
همبستگی جهت و شدت ارتباط بین دو متغیر را مشخص میکند، در حالی که کواریانس تنها جهت ارتباط بین دو متغیر را مشخص میکند.
اجازه بدهید با یک مثال ساده این مسئله را بررسی کنیم، فرض کنید که در یک مطالعه ای میخواهید قد افراد در جامعه ایران را بررسی کنید و ببینید قد افراد به چه صورت توزیع شده است. برای اینکار یک تعداد افراد از جامعه را به صورت کاملا تصادفی انتخاب میکنید و قد این افراد را اندازه گیری میکنید. فرض کنید که قد افرادی که بررسی کردید به صورت زیر است.
الان شما یک مجموعهای تک متغیره دارید و اگر بخواهید این مجموعه را از لحاظ آماری بررسی کنید نیاز به محاسبه میانگین و واریانس قد افراد دارید.
میانگین
حد وسط یک داده را مشخص میکند. در این مثال میانگین قد افراد در جامعه را مشخص میکند.
واریانس
میزان تغییرات حول میانگین را مشخص می کند. واریانس کمتر به این معنی است که قد افراد جامعه خیلی شبیه هم هست ولی اگر واریانس زیاد باشد نشان میدهید که قد افراد در جامعه رنج تغییرات زیادی دارد.
خب با همین دو پارامتر میتوانیم به صورت آماری یک مجموعه تک متغیره را بررسی کنیم.
حال بیایید مثال را تغییر بدهیم، فرض کنید که میخواهید ارتباط بین وزن و قد افراد را بررسی کنید. و برای همین منظور تعدادی از افراد جامعه را به صورت کاملا تصادفی انتخاب میکنید، و وزن و قد این افراد را اندازه گیری میکنید .
در این مسئله میخواهیم بدانیم که چه ارتباط خطی بین قد و وزن افراد وجود دارد. برای مثال میخواهیم بدانیم آیا با تغییر قد افراد وزن افراد هم تغییر کرده یا نه. و اگر تغییر کرده این تغییرات به چه شکل بوده است. برای بررسی ارتباط خطی بین دو تا مجموعه تک متغیره از کواریانس و همبستگی استفاده می کنند.
کواریانس
کواریانس دو تا متغیر را میتوان طبق رابطه زیر محاسبه کرد و مقدار بدست آمده یک عددی بین [-∞ :+ ∞] است.
کواریانس تنها جهت(direction) ارتباط بین دو متغیر را مشخص میکند. بعنی مشخص میکند که ارتباط بین دو متغیر مثبت ، منفی و یا صفر است.
- اگر کواریانس بین قد و وزن افراد مثبت باشد، یعنی با افزایش قد افراد جامعه، وزنها انها هم افزایش می یابد و یا برعکس با کاهش قد افراد، وزن افراد نیز کاهش می یابد
- اگر کواریانس بین قد و وزن افراد منفی باشد، یعنی با افزایش قد افراد جامعه، وزنها افراد کاهش می یابد و یا برعکس با کاهش قد افراد، وزن افراد نیز افزایش می یابد
- اگر کواریانس بین قد و وزن افراد صفر باشد، یعنی با افزایش یا کاهش قد افراد جامعه، وزنها انها تغییری نمیکند.
حال فرض کنید کواریانس بین دو تا متغیر شده عدد 15، به نظر شما این عدد چه چیزی را مشخص میکند؟ آیا میتوان گفت ارتباط خطی بین دو متغیر بسیار زیاد هست؟ نه نمیتوان گفت. ما از روی کواریانس بدست آمده تنها جهت ارتباط بین دو متغیر را میتوانیم متوجه شویم، ولی اینکه شدت ارتباط بین دو متغیر چقدر هست را نمیتوان متوجه شد!
همبستگی
همسبتگی همان کواریانس نرمال شده است و طبق رابطه زیر میتوانیم همبتسگی بین دو متغیر را بدست آوریم.
همسبتگی یک عدد بین [-1:+1] هست و جهت(direction) و شدت-میزان (strength) ارتباط خطی بین دو متغیر را مشخص میکند.
هر چقدر همبستگی به عدد +1 نزدیک باشد، به معنی است که بین دو متغیر خطی ارتباط خطی مثبت زیادی وجود دارد. یعنی با افزایش قد افراد، وزن افراد هم افزایش پیدا میکند و برعکس. یک ارتباط مستقیم بین دو متغیر وجود دارد.
هر چقدر همبستگی به عدد -1 نزدیک باشد، به معنی است که بین دو متغیر خطی ارتباط خطی منفی زیادی وجود دارد. یعنی با افزایش قد افراد، وزن افراد کاهش پیدا میکند و برعکس. یک ارتباط عکس بین دو متغیر وجود دارد.
اگر همبستگی دو متغیر نزدیک به عدد 0 باشد معنیش این است که با تغییرات مقدار یک متغیر، تغییر در مقدار متغیر دوم اتفاق نمی افتد!