مدیریت داده های پرت در تحلیل

✳️داده های پرت و کناری چه دادههایی هستند و چرا ما باید مراقب آنها باشیم؟✳️
اصول و روش‌های آماری وابسته به رفتار جامعه آماری و بخصوص اکثریت اعضای آن بنا نهاده شده است. بیشتر شاخص‌های آماری، مانند میانگین و انحراف معیار، که برای توصیف چنین جامعه‌ای به کار می‌رود، براساس همه مشاهدات، محاسبه شده و تحت تاثیر مقادیر آن‌ها هستند. به همین دلیل وجود «داده پرت» (Outlier Data) یا دورافتاده، که ممکن است براثر خطا اندازه‌گیری بوجود آمده یا واقعا از اعضای استثنایی جامعه باشند، این شاخص‌ها را به شدت تحت تاثیر قرار می‌دهند.
◀️تعاریف در مورد داده های پرت زیاد است و عموما به نقاطی اطلاق می شوند که از نرم متغییر یا جامعه خارج اند. هاوکینز(1980)، استیونس(1984) و راسمونس(1988) داده های پرت را مشاهداتی می دانند که آنقدر از بقیه داده های جدا باشد که این سوء ظن را ایجاد کند که داده ها مربوط به یک مکانیزم دیگر است.”

◀️همچنین واینر(19976) کناری بودن را به وقایعی نسبت می دهد که به ندرت اتفاق می افتند. این نقاط در نزدیکی سه انحراف استاندارد از میانگین قرار دارند و از این رو ممکن است تاثیر زیادی در برآورد پارامترها داشته باشند. نقاط پرت می توانند اثرات نامطلوبی بر تحلیل های آماری بگذارند.

📝 اولا آنها باعث افزایش واریانس خطا و کاهش توان آزمون می گردند.
📝 دوم این که اگر به طور تصادفی توزیع نیافته باشند، باعث برهم زدن نرمال بودن داده ها می شوند و از این رو مفروضه ی نرمال بودن توزیع داده ها از بین می برند و بخت رخداد خطاهای آول و دوم را به شدت افزایش می دهند. این مسئله در مورد تحلیل های چند متغییری که نیازمند مفروضات کرویت و نرمال بودن چند متغییری است اهمیت بیشتری پیدا می کند.
📝سومین عامل تاثیر جدی داده های پرت در برآورد اریب پارامترها است. بنابراین غربال داده ها برای شناسایی و حذف داده های پرت ضرورت دارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *