بایگانی دسته: آمار ناپارامتریک

مقاله نویسی

آزمون کای دو(chi-square) یا خی دو چیست؟- نیکویی برازش و استقلال در SPSS

آزمون کای دو(chi-square) یا خی دو چیست؟- نیکویی برازش و استقلال در SPSS

آزمون کای دو یا خی دو و یا مربع کای ازمونی است که فراوانی های مورد انتظار را با فراوانی های تحقیق مقایسه می کند تا مشخص شود آیا تفاوت معنا داری بین این دو فراوانی وجود دارد یا خیر. حال در ادامه ما دو نوع از آزمون کای دو را تعریف خواهیم کرد، سپس با مثالی ملموس آن را در SPSS اجرا خواهیم کرد.

آزمون کای دو (chi-square)چیست؟

دو نوع آزمون کای ۲ وجود دارد که هر کدام به منظوری متفاوت استفاده خواهند شد. در ادامه به این دو نوع خواهیم پرداخت.

آزمون کای دو برای نیکویی برازش

که برای تحلیل یک متغیر رده‌ای به کار می‌رود. به این صورت که اگر اختلافی در فراوانی میان رده‌های پاسخ وجود داشته باشد، آزمون کای دو برای نیکویی برازش آن را نشان می‌دهد. با توجه به نتایج این آزمون اگر مقدار معناداری آزمون برای گروهی کمتر از ۰/۰۵ به‌دست آمده باشد، می‌توان نتیجه گرفت که بین فراوانی‌های آن گروه تفاوت معناداری وجود دارد. به‌عبارتی تفاوت بین فراوانی‌ها از نظر آماری تایید می‌گردد.

آزمون کای دو برای استقلال

که برای تعیین رابطه‌ی بین دو متغیر رده‌ای از این آزمون کای دو استفاده می‌کنیم (جدول توافقی). به‌عبارتی اگر بخواهیم استقلال بین دو متغیر کیفی را آزمون کنیم از آماره کای دو دونمونه‌ای استفاده می‌کنیم. آماره کای دو بر مقادیر مشاهده شده و مورد انتظار که از طریق جدول توافقی به‌دست می‌آیند، استوار است. در جدول توافقی مقدار مشاهده شده عبارت است از تعدادی از نمونه‌ها که در یک خانه قرار دارند. مقدار مورد انتظار عبارت است از تعدادی که در صورت مستقل بودن دو متغیر پیش‌بینی می‌شود.

H۰: دو متغیر کیفی مستقل هستند.

H۱: دو متغیر کیفی مستقل نیستند.

جز اصلی جدول توافقی تعداد نمونه‌هایی است که در هر یک از خانه‌های جدول قرار می‌گیرند. روش‌های آماری که در این فرضیه‌های صفر به‌کار می‌روند بر اساس مقایسه موارد مشاهده شده در هر خانه با تعداد مورد انتظار آن عمل می‌کند. تعداد مورد انتظار به‌طور ساده تعدادی از نمونه‌هاست که در صورت صحیح بودن فرضیه صفر انتظار می‌رود در هر یک از خانه‌ها پیدا شود. فرضیه صفر در جدول توافقی به‌صورت مستقل بودن دو متغیر بیان می‌شود.

پیش‌فرض‌هایی که قبل از انجام این آزمون‌ها می‌بایستی برقرار باشند، به‌صورت زیرند:

نمونه‌گیری تصادفی: مشاهدات باید به‌طور تصادفی از جامعه انتخاب شوند.

استقلال مشاهدات: هر مشاهده مربوط به یک نفر است و هیچ شخصی دوبار در نمونه‌گیری حساب نمی‌شود.

اندازه فراوانی‌های مورد انتظار: زمانی که تعداد سلول‌ها کمتر از ۱۰ است و اندازه‌ی نمونه کوچک است، کمترین فراوانی مورد انتظاری که هر یک از سلول‌ها می‌بایستی برای آزمون کای دو داشته باشند ۵ است. با این حال، مقدار مشاهده شده می‌تواند کمتر از ۵ و یا حتی صفر باشد.

مثال آزمون کای دو یا خی دو برای نیکویی برازش

جدول زیر نگرش ۶۰ نفر را نسبت به ارتش آمریکایی مستقر در استرالیا نشان می‌دهد. اگر اختلافی در فراوانی میان رده‌های پاسخ وجود داشته باشد، آزمون کای دو برای نیکویی برازش آن را نشان می‌دهد.

آزمون-کای-دو

داده‌ها را در یک فایل SPSS ثبت کرده‌ایم، فایل داده‌ها را باز می‌کنیم:

ki2-Goodness-of-fit-in-spss

اکنون باید مقادیر ستون freq (فراوانی) را به عنوان وزن‌های متغیر attitude (نوع نگرش) تعریف کنیم. با این عمل مشخص می‌کنیم که 8 نفر کد 1 (موافق)، 20 نفر کد 2 (مخالف) و 32 نفر کد 3 (بی‌نظر) را انتخاب کرده‌اند. از منوی Data گزینه‌ی Weight Cases… را برگزینید تا کادر زیر باز شود:

ki2-Goodness-of-fit-in-spss-Weight-Cases
ki2-Goodness-of-fit-in-spss-Frequency-Variable

گزینه Weight cases by را انتخاب کنید و متغیر freq را به قسمت Frequency Variable انتقال دهید و روی گزینه OK کلیک کنید. با این عمل، وزن‌های مربوطه برای متغیر attitude تعریف می‌شوند.

اکنون از منوی Analyze به ترتیب گزینه‌های Nonparametric Tests، Legacy Dialogs و Chi-square… را انتخاب نمایید تا کادر مربوطه باز شود، متغیر attitude را به سمت راست منتقل و روی OK کلیک کنید.

ki2-Goodness-of-fit-in-spss-attitude
ki2-Goodness-of-fit-in-spss-Chi-square

خروجی به صورت زیر می‌باشد:

ki2-Goodness-of-fit-in-spss-out-put

با توجه به جدول فوق آزمون کای دو معنادار است (چون Sig = 0.001 < 0.05)، بنابراین نتیجه می‌گیریم که اختلافی معنادار در فراوانی نگرش افراد، نسبت به ارتش مستقر در استرالیا وجود دارد. همچنین جدول فراوانی نشان می‌دهد که اکثر مردم بی‌نظر هستند.

در مثال فوق، فراوانی‌های مورد انتظار را برای هر یک از ۳ گروه، یکسان در نظر گرفتیم. یعنی به هر گروه فراوانی مورد انتظار ۲۰ را اختصاص دادیم یا به عبارت دیگر، شانس یک سوم را به هر گروه اختصاص دادیم. اکثر اوقات فراوانی‌های مورد انتظار در بین گروه‌ها به طور یکسان توزیع نمی‌شود. فرض کنید در مثال فوق به ترتیب فراوانی‌های مورد انتظار ۱۵، ۱۵ و ۳۰ را به گروه‌ها اختصاص دهیم، اکنون دوباره مثال را انجام می‌دهیم.

از منوی Analyze به ترتیب گزینه‌های Nonparametric Tests، Legacy Dialogs و Chi-square… را انتخاب نمایید تا کادر مربوطه باز شود، سپس متغیر attitude را به سمت راست منتقل کنید.

در قسمت Expected Values با انتخاب گزینه‌ی Values فیلد مقابل آن فعال می‌شود. در این قسمت عدد 15 را تایپ و روی Add کلیک کنید. دوباره 15 را تایپ و روی Add کلیک کنید. در پایان عدد 30 را تایپ و روی Add کلیک کنید، اکنون کادر باید همانند شکل زیر باشد:

ki2-Goodness-of-fit-in-spss-Expected-Values

حال روی OK کلیک کنید تا خروجی نمایش یابد:

ki2-Goodness-of-fit-in-spss-out-put2

با توجه به آزمون کای دو مشاهده می‌کنیم که میان فراوانی‌های مشاهده شده (با توجه به فراوانی‌های موردانتظار و نسبت‌های داده شده به آن‌ها) اختلاف معناداری وجود ندارد (چون Sig = 0.079 > 0.05).

همان‌طور که قبلا هم اشاره کردیم هدف از ایجاد یک جدول توافقی، یافتن رابطه‌ی بین دو متغیر است، اکنون برای این منظور مثالی مطرح می‌کنیم:

مثال: (آزمون کای دو (ki2) برای استقلال)

فرض کنید می‌خواهیم بررسی کنیم که آیا سطح تحصیلات افراد از جنسیت مستقل است یا نه؟ نمونه‌ای متشکل از ۳۰۰ نفر برداشتیم و خلاصه نتایج را در جدول زیر آورده‌ایم:

ki2-Goodness-of-fit-table

برای این‌که داده‌های جدول را در SPSS تعریف کنیم، ابتدا یک فایل داده جدید باز کنید و متغیرهای Gender و Education را به ترتیب با کدهای مربوطه تعریف نمایید. به علاوه لازم است متغیر دیگری به نام Count (یا هر نام دلخواه دیگری) ایجاد نمایید، این متغیر در بردارنده‌ی مقادیر موجود در جدول می‌باشد. پس از وارد کردن اطلاعات، فایل داده باید به صورت زیر باشد:

Ki2-independence-test-in-spss

حال باید مقادیر ستون Count را به عنوان وزن‌های دو متغیر جنسیت و تحصیلات تعریف کنیم. از منوی Data گزینه‌ی Weight Cases… را برگزینید تا کادر زیر باز شود:

گزینه Weight cases by را انتخاب کنید و متغیر Count را به قسمت Frequency Variable انتقال دهید، سپس روی گزینه OK کلیک کنید. با این عمل، وزن‌های مربوطه برای متغیرها تعریف می‌شوند.

Ki2-independence-test-Frequency-Variable-in-spss

پس از تعریف متغیرها و تعیین وزن‌های مربوطه، به انجام تحلیل می‌پردازیم. از منوی Analyze به ترتیب گزینه‌های Descriptive Statistics و Crosstabs را انتخاب نمایید تا کادر مربوطه باز شود، متغیر Gender را به قسمت Row(s) و متغیر Education را به قسمت Column(s) انتقال دهید:

Ki2-independence-test-Crosstabs-in-spss
Ki2-independence-test-Crosstabs2-in-spss

قبل از انجام تحلیل به بررسی گزینه‌های موجود در این کادر می‌پردازیم.

با کلیک روی دکمه Statistics کادر زیر نمایان می‌شود:

Ki2-independence-test-Statistics -in-spss

با توجه به نوع متغیر مورد مطالعه، آماره‌های مناسب در این جدول خلاصه شده‌اند. مثلا اگر هر دو متغیرمان اسمی و یا یکی اسمی و دیگری ترتیبی باشد، از آماره‌های قسمت Nominal استفاده می‌کنیم. اگر هر دو رتبه‌ای باشند، از آماره‌های قسمت Ordinal استفاده می‌کنیم و اگر یکی اسمی و دیگری فاصله‌ای باشد، از آماره Eta موجود در قسمت Nominal by Interval استفاده می‌کنیم.

مقدار شاخص‌های رابطه برای متغیرهای ترتیبی بین ۱- و ۱+ تغییر می‌کند؛ اما در متغیرهای اسمی، چون صحبت از جهت رابطه، معنا ندارد، مقدار این شاخص‌ها بین صفر تا ۱+ تغییر می‌کند. توجه کنید که استفاده از هر کدام از این آماره‌ها شرایط خاص خود را دارد که توضیحات مختصری از این شاخص‌ها را در جدول زیر آورده‌ایم:

آماره کای دو (Chi-square): توسط این آماره، تنها فرض مستقل بودن متغیرها را می‌توان بررسی کرد و مقدار همبستگی و رابطه را نمی‌تواند مشخص کند.

همبستگی (Correlation): از طریق این گزینه، دو نوع همبستگی محاسبه می‌شود. ضریب همبستگی پیرسون و ضریب همبستگی اسپیرمن. ضریب همبستگی پیرسون هنگامی که هر دو متغیر جدول کمّی (پیوسته) هستند، به کار می‌رود و مقدار آن بین 1- و 1+ تغییر می‌کند. مقدار صفر نشان می‌دهد که هیچ رابطه‌ی خطی بین متغیرها وجود ندارد.

برای جداولی که سطر و ستون آنها دربردارنده داده‌های رتبه‌ای است، ضریب همبستگی اسپیرمن را به کار می‌برند که همانند ضریب همبستگی پیرسون تفسیر می‌شود. زمانی که اندازه نمونه بزرگ باشد بهتر است از ضریب همبستگی اسپیرمن استفاده نشود؛ چون این ضریب برای نمونه‌های بزرگ به طور مجانبی استفاده می‌شود و از دقت لازم برخوردار نیست. از این رو از ضرایب همبستگی معادل همانند کندال استفاده می‌کنند.

ضریب توافق (Contingency Coefficient): این ضریب اندازه‌ای از همبستگی بر پایه‌ی آماره کای – دو ارائه می‌کند و مقادیر دامنه آن بین صفر و 1 می‌باشد. مقدار صفر بیان می‌کند که بین متغیرهای سطری و ستونی همبستگی وجود ندارد و مقادیر نزدیک به 1 نشان می‌دهند که درجه بالایی از همبستگی بین متغیرها وجود دارد. این ضریب برای جداول 2×2 و بالاتر به‌کار می‌رود.

ضریب فای و V‌ی کرامر (Phi and Cramer’s V): کاربرد ضریب فای تنها محدود به جداول 2×2 است. یعنی زمانی که هر یک از متغیرهای سطری و ستونی تنها ارزش‌های صفر (خیر) و یک (بلی) داشته ‌باشند. برای تعمیم این ضریب به جداول بزرگتر از آماره V کرامر استفاده می‌کنیم.

ضریب لاندا (Lambda): این ضریب در دو حالت محاسبه می‌شود:

  • نامتقارن: به این دلیل به آن نامتقارن گویند که در محاسبه‌ی آن بسته به این که کدام یک از دو متغیر را مستقل و کدام را وابسته در نظر بگیریم، مقدار لاندا تغییر می‌کند؛ یعنی قرینه نیست.
  • متقارن: در این حالت فرقی نمی‌کند کدام یک از متغیرها را مستقل و کدام را وابسته در نظر بگیریم. در هر دو صورت مقدار لاندا یکسان خواهد بود.

در هنگام استفاده از این ضریب می‌بایستی مراقب بود. زمانی که دو متغیر از نظر آماری مستقل هستند، مقدار لاندای آن‌ها صفر خواهد بود؛ ولی عکس آن صحیح نیست. یعنی صفر بودن لاندا لزوما به معنای مستقل بودن نیست. به عبارت دیگر ممکن است دو متغیر با هم رابطه داشته باشند، اما لاندای آن‌ها صفر باشد، زیرا دانستن متغیر مستقل، هیچ کمکی به پیش‌بینی ما نکرده است.

گاما (Gamma): این آماره اندازه‌ای متقارن (یعنی فرقی نمی‌کند کدام متغیر مستقل و کدام وابسته باشد) از رابطه‌ی بین دو متغیر ترتیبی است که دامنه‌ی آن بین 1- و 1+ تغییر می‌کند. مقدار نزدیک به 1 از نظر قدر مطلق، نمایانگر یک پیوند قوی بین دو متغیر می‌باشد؛ مقدار نزدیک به صفر، بیان کننده‌ی یک رابطه‌ی ضعیف است.

d سامرز (Sommers`d): این ضریب همانند شاخص گاماست؛ ولی در آن یکی از متغیرها مستقل و دیگری وابسته فرض می‌شود و دامنه آن بین 1- و 1+ تغییر می‌کند.

تاو – b کندال (Kendall`s tau-b): این شاخص برای زمانی مناسب است که جدول توافقی شما مربع است و دامنه‌ی آن بین 1- و 1+ تغییر می‌کند.

تاو – c کندال (Kendall`s tau-c): این شاخص برای جداول مختلف قابل استفاده است و مقدار آن بین 1- و 1+ متغیر است.

ضریب اتا (Eta): این شاخص برای متغیرهای اسمی و فاصله‌ای به‌کار می‌رود، که در آن متغیر وابسته بر حسب مقیاس فاصله‌ای و متغیر مستقل بر حسب مقیاس اسمی اندازه‌گیری شده‌اند. دامنه‌ی این شاخص بین صفر تا 1 است. این شاخص نامتقارن، هیچ رابطه‌ی خطی بین متغیرها در نظر نمی‌گیرد. مقدار صفر این کمیت بیان می‌کند که هیچ رابطه‌ای بین متغیرهای سطری و ستونی وجود ندارد و مقادیر نزدیک به 1 بیان می‌کند، بین آن‌ها یک رابطه با درجه بالا وجود دارد. در خروجی SPSS دو مقدار برای این ضریب نمایش می‌یابد که هر بار یکی از متغیرهای سطری یا ستونی را به عنوان متغیر فاصله‌ای (وابسته) در نظر می‌گیرد.

کاپا (Kappa): ضریب کاپا، میزان توافق دو فرد رتبه‌دهنده که یک متغیر را رده‌بندی کرده‌اند، نشان می‌دهد. مثلا از دو معلم می‌خواهیم نمرات دانش‌آموزان را در یک مقیاس سه نمره‌ای درجه‌بندی کنند، می‌خواهیم بدانیم که این دو فرد چقدر با هم توافق دارند و درجه‌بندی‌هایشان به هم نزدیک است. مقدار 1 این ضریب بیانگر توافق کامل و مقدار صفر نشان‌دهنده‌ی تصادفی بودن توزیع کدهاست. نکته‌ای که در هنگام استفاده از این ضریب باید بدان توجه داشته باشید این است که هر دو متغیر از مقادیر رده‌بندی (کدهای) یکسانی استفاده کنند و دارای تعداد یکسانی رده باشند.

ریسک (Risk): اندازه‌ای از میزان رابطه بین یک فاکتور (متغیر گروه‌بندی شده) و رخ دادن یک پیشامد (یک گزینه پاسخ) می‌باشد و برای جداول 2×2 به‌کار می‌رود. اگر فاصله اطمینان این آماره عدد 1 را دربرداشته باشد، نشان‌دهنده این است که فاکتور با پیشامد رابطه ندارد.

مک نمار (McNemar): اگر متغیرهای دو حالتی جفت داشته باشیم، از این آماره استفاده می‌کنیم. متغیر دو حالتی متغیری است که تنها دارای مقادیر صفر و 1 است و جفت بدان معنی است که پاسخ‌های هر دو متغیر برای یک گروه از افراد به‌دست آمده‌اند، همانند اندازه‌گیری ضربان قلب، قبل و بعد از تمرین. از این آماره برای آشکارسازی تغییرات در پاسخ‌ها به دلیل انجام یک عمل (قبل و بعد) استفاده می‌کنیم.

آماره کاکران و مانتل – هنزل (Cochran`s and Mantel Hanszel Statistics): از این آماره برای آزمون استقلال بین یک متغیر فاکتور دوحالتی و یک متغیر پاسخ دوحالتی شرطی شده روی ساختارهای متغیرهای تصادفی کمکی (که به وسیله متغیرهایی که در قسمت Layer تعریف می‌کنیم، مشخص می‌شوند) استفاده می‌شود. توجه کنید که اگر یک متغیر Layer تعریف کنیم، آماره‌های دیگر به صورت لایه به لایه محاسبه می‌شوند؛ ولی این آماره یک‌بار برای تمام لایه‌ها محاسبه می‌شود.

دوباره به مثال بازمی‌گردیم، گزینه‌های Chi-square و Contingency Coefficient را انتخاب و روی Continue کلیک کنید تا به کادر قبل بازگردید. در این کادر روی OK کلیک نمایید تا خروجی محاسبه شود:

ki2-Contingency-Coefficient-in-spss-out-put
ki2-Chi-square-in-spss-out-put

در مورد دو جدول اول قبلا توضیح داده‌ایم. در سومین جدول با عنوان Chi-square Tests مقدار آماره کای – دو 018/39 گزارش شده است و مقدار معناداری مرتبط با آن Sig = 0.000 است؛ یعنی فرض استقلال متغیرهای جنسیت و سطح تحصیلات رد می‌شود. از طریق چهارمین جدول با توجه به مقدار ضریب توافق یعنی، 339/0 درمی‌یابیم که نسبت پایینی از همبستگی بین این متغیرها وجود دارد.

نکته: زمانی که فراوانی‌های مورد انتظار خانه‌های جدول کوچک باشند (کمتر از ۵) برای انجام آزمون استقلال، نمی‌توان از آزمون کای دو یا خی دو استفاده نمود بنابراین باید از آزمون‌های معادل یا آزمون دقیق فیشر استفاده کرد، مخصوصا هنگامی که جدول ۲×۲ است.

برگرفته از : آمار پیشرو

پایان نامه نویسی مقاله نویسی

✳️داده های پرت و کناری چه دادههایی هستند و چرا ما باید مراقب آنها باشیم؟✳️

◀️تعاریف در مورد داده های پرت زیاد است و عموما به نقاطی اطلاق می شوند که از نرم متغییر یا جامعه خارج اند. هاوکینز(1980)، استیونس(1984) و راسمونس(1988) داده های پرت را مشاهداتی می دانند که آنقدر از بقیه داده های جدا باشد که این سوء ظن را ایجاد کند که داده ها مربوط به یک مکانیزم دیگر است.”

◀️همچنین واینر(19976) کناری بودن را به وقایعی نسبت می دهد که به ندرت اتفاق می افتند. این نقاط در نزدیکی سه انحراف استاندارد از میانگین قرار دارند و از این رو ممکن است تاثیر زیادی در برآورد پارامترها داشته باشند. نقاط پرت می توانند اثرات نامطلوبی بر تحلیل های آماری بگذارند.

📝 اولا آنها باعث افزایش واریانس خطا و کاهش توان آزمون می گردند.
📝 دوم این که اگر به طور تصادفی توزیع نیافته باشند، باعث برهم زدن نرمال بودن داده ها می شوند و از این رو مفروضه ی نرمال بودن توزیع داده ها از بین می برند و بخت رخداد خطاهای آول و دوم را به شدت افزایش می دهند. این مسئله در مورد تحلیل های چند متغییری که نیازمند مفروضات کرویت و نرمال بودن چند متغییری است اهمیت بیشتری پیدا می کند.
📝سومین عامل تاثیر جدی داده های پرت در برآورد اریب پارامترها است. بنابراین غربال داده ها برای شناسایی و حذف داده های پرت ضرورت دارد.

<iframe allow=’autoplay’ src=”https://affstat.adro.co/imp/d3dua21CVEY4ajAzeHQzODVISmladz09?sb=true&mb=true” frameborder =’0′ scrolling=’yes’ width=’100%’ height=’302px’ style=’display: block !important; min-height:302px !important;’></iframe> در اینجا بهترین بازی های رایانه ی و نرم افزارهای مختلف آورده شده است، می توانید هر یک از آن ها را بخرید و جلو در منزلتان تحویل بگیرید <iframe allow=’autoplay’ src=”https://affstat.adro.co/imp/SVMvS2NZaU1wWjFPZGJSYWF3VFZpUT09?sb=true&mb=true” frameborder =’0′ scrolling=’yes’ width=’100%’ height=’302px’ style=’display: block !important; min-height:302px !important;’></iframe> فقط با چند کلیک ساده می توانید محصولات صوتی و تصویری زیر را خرید کند و جلو درب منزلتان تحویل بگیرید می توانید محصولات زیر را بخرید و درب منزل خودتان تحویل بگیرید! <iframe allow=’autoplay’ src=”https://affstat.adro.co/imp/am1vdUI2SHMwYmdMdnhyNW5XODR0UT09?sb=false&mb=false” frameborder =’0′ scrolling=’no’ width=’800′ height=’400′ style=’display: block !important; min-height:302px !important;’></iframe>
آموزش پیشرفته sPSS

بررسی توصیفی و استنباطی نرمال بودن داده های تحقیق؟ آیا استفاده از آزمون های آماری برای بررسی نرمالیتی هر نوع داده ای مناسب است؟

در بسیاری از تکنیک های آماری، نرمال بودن توزیع داده ها یک پیش فرض است.

وقتی که داده ها از توزیع نرمال پیروی نکنند، ممکن است استفاده از این روش های آماری، منجر به نتیجه گیری اشتباه گردد.

بنابراین آزمون نرمال بودن داده ها اهمیت می یابد.

برخی از تحلیل ها و روش های آماری که پیش شرط نرمال بودن توزیع داده ها و یا باقیمانده های مدل برای آن ها وجود دارد عبارتند از:

  • آزمون های تی استودنت (تک نمونه ای و دو نمونه ای زوجی و وابسته)
  • آنالیز واریانس (ANOVA)
  • آزمون های معناداری ضرایب در رگرسیون
  • آزمون فیشر برای همگنی واریانس جوامع
  • آزمون همبستگی پیرسون

توزیع نرمال، مهم ترین توزیع آماری است هم به جهت اینکه پیش فرض بسیاری از

روش های آماری است ( در عمل پدیده های مختلفی از قانون نرمال پیروی می کنند و این توزیع با توزیع های مختلفی ارتباط پیدا می کند)

و نیز به سبب قضیه مهم حد مرکزی.

در بسیاری از موارد در صورت وجود نمونه به اندازه کافی، جهت تخمین برخی از احتمالات،

می توان از این توزیع بهره برد (به این معنا نیست که نمونه های بزرگ از توزیع نرمال پیروی می کنند بلکه با افزایش

حجم نمونه، توزیع میانگین داده ها و یا برخی آماره های دیگر تحت شرایطی به نرمال گرایش دارد).توزیع نرمال

توزیع نرمال

برای بررسی نرمال بودن داده ها از دو روش کلی می توان بهره برد

  1. روش توصیفی شامل نمودارها و بررسی شاخص های آماری
  2. روش استنباطی شامل آزمون فرض ها

روش های توصیفی در بررسی نرمال بودن داده ها:

برای بررسی نرمال بودن توزیع داده ها،

ابتدا باید این نکته را توجه داشت که داده هایی که به دنبال بررسی توزیع احتمالی آن هستیم باید کمی و با مقیاس فاصله ای یا نسبی باشند (برای آشنایی با مقیاس های آماری اینجا کلیک کنید).

بنابراین داده هایی که غیر از این باشند،

مثلاً از نوع کیفی اسمی یا کیفی ترتیبی، مثل داده های جمع آوری شده از پرسشنامه با طیف لیکرت، به هیچ وجه نمی توانند از توزیع نرمال پیروی کنند،

حتی اگر برخی از روش ها مثل رسم هیستوگرام داده ها (رسم هیستوگرام برای این داده ها اشتباه است و باید از نمودار میله ای استفاده شود)، توزیع نرمال را تایید کند.

الف) رسم هیستوگرام داده ها و مقایسه آن با منحنی چگالی توزیع نرمال

رسم هیستوگرام داده ها به همراه منحنی توزیع نرمال کمک زیادی به تشخیص نرمال بودن توزیع داده ها می کند.

معمولاً با این روش می توان نرمال نبودن توزیع داده ها و دلایل آن را مشاهده کرد.

اگر هیستوگرام داده ها به توزیع نرمال نزدیک بود آنگاه می توان به سراغ آزمون فرض رفت.

در شکل زیر هیستوگرام یک سری داده استاندارد شده، به همراه منحنی نرمال استاندارد رسم شده است.

توزیع داده ها به توزیع نرمال بسیار نزدیک است (داده ها از توزیع نرمال شبیه سازی شده است).

هیستوگرام داده ها و نمودار چگالی توزیع نرمال

نکته: برای رسم هیستوگرام داده ها، باید اول داده ها را استاندارد شده (منهای میانگین و تقسیم بر انحراف معیار)

و سپس با منحنی نرمال استاندارد مقایسه شود یا اینکه هیستوگرام داده های اصلی را با توزیع نرمال با میانگین و انحراف معیار داده ها مقایسه شود.

علاوه بر هیستوگرام، استفاده از نمودار جعبه ای نیز می تواند سودمند باشد.

ب) بررسی میزان کشیدگی و چولگی داده ها و مقایسه آن با مقدار این شاخص ها در توزیع نرمال

دو معیار کشیدگی و چولگی در داده ها در تشخیص نرمال بودن توزیع احتمالی داده ها، اهمیت زیادی دارد

و فلسفه برخی از آزمون ها نرمالیتی هم بررسی همین معیارهاست.

چولگی به میزان عدم تقارن منحنی فراوانی داده ها نسبت به منحنی فراوانی توزیع نرمال استاندارد گفته می شود. در داده های نرمال، منحنی فراوانی به شکل زنگوله مانند و متقارن است به نحوی که می توان شکل را از وسط به دو نیم تقسیم کرد. ولی اگر تمرکز داده ها در یک سمت منحنی نسبت به سمت دیگر بیشتر باشد، نمودار فراوانی داده ها چوله است. اگر تمرکز به سمت راست باشد، چوله به چپ و اگر به سمت چپ باشد، چوله به راست گویند.چولگی

چولگی

برای محاسبه میزان چولگی سه ضریب چولگی معمولاً استفاده می شود،

ضریب چولگی اول پیرسون، ضریب چولگی دوم پیرسون و ضریب گشتاوری چولگی (آمار و احتمال مقدماتی بهبودیان).

همچنین کشیدگی به میزان برجستگی منحنی فراوانی داده ها نسبت به منحنی فراوانی توزیع نرمال استاندارد گفته می شود.

معمولاً در محاسبه میزان چولگی و کشیدگی یک نمونه از فرمول های زیر استفاده می شود:

\[ b= \frac{\mu_3}{s^3}=\frac{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^3} {\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2}^3}\]
\[ \frac{.}{.} \]
\[k=\frac{\mu_4}{s^4}-3=\frac{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^4}{(\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2)^2}-3\]
کشیدگی

ج) رسم نمودار چندک  چندک و احتمال – احتمال

یکی دیگر از روش های بررسی نرمال بودن داده ها، نمودار چندک – چندک و احتمال – احتمال است.

ایده نمودار چندک – چندک مقایسه چندک های نمونه ای داده ها و چندک های توزیع موردنظر است. در اینجا با توزیع نرمال استاندارد مقایسه صورت می گیرد.

اگر داده ها از توزیع نرمال پیروی کنند، انتظار می رود که نمودار پراکنش چندک های نمونه ای داده ها در مقابل چندک های توزیع نرمال استاندارد در راستای یک خط راست قرار گیرند

(نیاز به استاندارد کردن داده ها نیست).

برای درک فلسفه ایده این روش فرض کنید X_1, X_2, \dots , X_n یک نمونه تصادفی از توزیع نرمال

با میانگین \mu و انحراف معیار \sigma در این صورت:

\[ Z_i = (X_i-\mu) / \sigma , i=1, 2, \dots, n \]

استاندارد شده داده ها و دارای توزیع نرمال استاندارد است.

اگر Z_{(1)}, Z_{(2)}, \dots, Z_{(n)} مرتب شده Z_i ها باشند

به نحوی که Z_{(1)} \leq Z_{(2)} \leq \dots  \leq Z_{(n)} و Z_{(i)}ها چندک i/n ام نمونه هستند.

از طرفی تبدیل استاندارد ساز داده ها، نگاشتی صعودی است بدین معنی

که اگر x<y آنگاه (x-\mu)/ \sigma<(y-\mu)/ \sigma بنابراین می توان نوشت:

\[ Z_{(i)} = (X_{(i)}-\mu) / \sigma , i=1, 2, \dots, n \]

زیرا:

\[ Z_{(1)} \leq Z_{(2)} \leq \dots \leq Z_{(n)}  \Longleftrightarrow   X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)} \]

به عبارت دیگر چون تبدیل استاندارد ساز یک تبدیل صعودی است،

چه اول داده ها را مرتب کرده و سپس تبدیل بزنیم و چه تبدیل زده

و سپس داده های حاصل را مرتب کنیم، در هر دو صورت نتیجه یکسان خواهد بود.

اگر داده ها از توزیع نرمال پیروی کنند، انتظار داریم که Z_{(i)} با چندک i/n ام  توزیع نرمال استاندارد تقریباً برابر باشند.

یعنی Z_{(i)}  \simeq  q_{i/n}. از طرفی به جای q_{i/n} بهتر است از q_{(i-0.5)/n} یا q_{i/(n+1)} استفاده کرد.

بنابراین X_{(i)} \simeq \sigma q_{(i-0.5)/n}+\mu. که معادله یک خط راست با عرض از مبدا  \mu و شیب \sigma است.

پس اگر توزیع داده ها از توزیع نرمال پیروی کند انتظار می رود که نمودار پراکنش چندک های نمونه ای

و چندک های توزیع نرمال در راستای خطی راست باشد.

نکته: اگر نمودار چندک – چندک، نیمساز ربع اول دستگاه مختصات باشد، توزیع داده ها نرمال استاندارد است.

نکته: از این روش می توان در بررسی برازش توزیع های دیگر به داده ها نیز استفاده کرد.

کافیست به چندک های نمونه ای داده ها در مقابل چندک های توزیع موردنظر بررسی شود.

نکته: در نمودار چندک – چندک لزوماً نیاز به استاندارد سازی داده ها نیست،

طبق آنچه که گفته شد اگر چندک های نمونه ای در مقابل مقادیر مورد انتظارشان در توزیع نرمال استاندارد رسم شود،

انتظار می رود که یک خط راست تشکیل شود؛

حال اگر داده ها استاندارد شود، در صورت نرمال بودن داده ها خط مورد نظر نیمساز ربع اول است

ولی اگر استاندارد نشود، خطی با عرض از مبدأ برابر با میانگین داده ها و شیبی برابر با انحراف معیار داده ها تشکیل می شود.

در روش رسم نمودار احتمال – احتمال نیز مقادیر تابع توزیع تجربی داده ها در مقابل مقادیر مورد مورد انتظار تابع توزیع موردنظر (در اینجا توزیع نرمال) رسم می شود.

در صورتی که توزیع داده ها نرمال باشد، انتظار می رود که نمودار حاصل در امتداد یک خط راست (نیمساز ربع اول) باشد.P-P plot & Q-Q plot

P-P plot & Q-Q plot

آزمون های آماری بررسی نرمال بودن توزیع داده ها

برای بررسی نرمال بودن توزیع داده ها، آزمون های زیادی پیشنهاد شده است از جمله:

اندرسون – دارلینگ، کلوموگروف – اسمیرنوف، شاپیرو – ویلک، جارکو – برا، لیلیفورس، نیکویی برازش کای دو، دی آگوستینو و… .

استفاده از آزمون های کلوموگروف – اسمیرنوف، شاپیرو – ویلک و اندرسون – دارلینگ عمومیت بیشتری دارد.

با افزایش حجم نمونه انتظار می رود که توان آزمون ها نیز بیشتر شود ولی از بین این آزمون ها، معمولاً شاپیرو – ویلک بیشترین توان و کلوموگروف – اسمیرنوف کمترین توان را دارد.

آزمون های نرمالیتی از لحاظ فلسفه آزمون به سه دسته کلی تقسیم بندی می شوند:

آزمون هایی که تابع توزیع تجربی داده ها با تابع توزیع نرمال مقایسه می کنند

(مثل کلوموگروف – اسمیرنوف)، آزمون هایی که براساس یک رابطه رگرسیونی و یا تحلیل همبستگی

بین آماره های ترتیبی و مقادیر مورد انتظارشان شکل گرفته اند (مثل شاپیرو – ویلک)

و آزمون هایی که براساس مقایسه شرایط عمومی داده ها با توزیع نرمال مثل چولگی و کشیدگی شکل گرفته اند (مثل دی آگوستینو).

نکته: آزمون هایی که در اکثر نرم افزارهای آماری تحت عنوان آزمون کلوکوگروف – اسمیرنوف

برای بررسی توزیع نرمال آمده است در واقع شکل اصلاح شده این آزمون برای بررسی نرمال بودن توزیع داده هاست

که در برخی منابع این نوع آزمون تحت عنوان آزمون لیلیفورس یاد می شود.

آزمون لیلیفورس در بررسی نرمالیتی نسبت به آزمون کلی کلوموگروف – اسمیرنوف توان بالایی دارد

که به همین خاطر در اکثر نرم افزارهای آماری در کنار آزمون شاپیرو – ویلک گنجانده شده است.

بیشترین توان های آزمون نرمالیتی در بین چهار آزمون متداول به ترتیب متعلق

به شاپیرو – ویلک، اندرسون – دارلینگ، لیلیفورس و کلوموگروف – اسمیرنوف است.

نکته: فلسفه آزمون شاپیرو – ویلک شبیه به فلسفه نمودار چندک – چندک است.

در این آزمون یک رابطه رگرسیونی بین آماره های ترتیبی داده ها و مقادیر مورد انتظار آماره های ترتیبی توزیع نرمال

در نظر گرفته می شود و آماره آزمون، چیزی شبیه به ضریب تعیین در رگرسیون است که هر چقدر بیشتر باشد نشان دهنده نزدیکی توزیع داده ها به توزیع نرمال است و مقادیر کوچک آماره آزمون باعث

رد فرض صفر (نرمال بودن توزیع داده ها) می شود.

نکته:برای اجرای آزمون شاپیرو – ویلک تعداد نمونه حداقل ۳ و حداکثر ۵۰۰۰ باید باشد

(نقاط بحرانی این آزمون تا حجم نمونه ۵۰۰۰ محاسبه شده است).

نکته: گاهی این مطلب به چشم می خورد که گفته می شود آزمون شاپیرو – ویلک برای

نمونه های کمتر از ۵۰ بسیار مناسب است. توان این آزمون با افزایش حجم نمونه افزایش می باید

و برعکس این مطلب، در تعداد نمونه کم، این آزمون توان قابل قبولی ندارد.

نقاط بحرانی این آزمون در ابتدا برای حجم نمونه تا ۵۰ (Shapiro and Wilk; 1965) و

در مقاله ای دیگر تا حجم نمونه ۵۰۰۰ محاسبه شده است. لذا در برخی از مقالات، توان این آزمون تا حجم نمونه ۵۰ مورد ارزیابی قرار گرفته و این گمان به وجود آمده که آزمون شاپیرو – ویلک برای نمونه کمتر از ۵۰ مناسب است.

نکته: مقایسه توان آزمون ها بستگی به شرایطی مثل چولگی و کشیدگی و حجم نمونه دارد

و در شرایط مختلف ممکن است کارایی آزمون ها با هم متفاوت باشد.

عموماً آزمون های نرمالیتی برای حجم نمونه بیشتر از ۲۰۰ توان معقولی دارند

به همین خاطر توصیه می شود اگر حجم نمونه کمتر از این مقدار باشد از روش های توصیفی استفاده شود.

نکته: آزمون کلوموگروف – اسمیرنوف به نقاط پرت حساسیت زیادی ندارد

ولی در مقابل آزمون شاپیرو – ویلک به داده های پرت حساس است.

نکته: در نرم افزار SPSS دو آزمون شاپیرو – ویلک و آزمون کلوموگروف – اسمیرنوف قابل انجام است

و در نرم افزار Minitab نیز علاوه بر این دو آزمون، امکان انجام آزمون اندرسون – دارلینگ وجود دارد.

در نرم افزار R نیز در بسته stats دو آزمون کلوموگروف – اسمیرنوف

و شاپیرو – ویلک قابل انجام است

و در بسته nortest آزمون های اندرسون – دارلینگ،

لیلیفورس (حالت اصلاح شده آزمون کلوموگروف برای آزمون نرمالیتی)،

کای دو پیرسون، شاپیرو – فرانسیا و آزمون کرامر – وان–میسز قابل انجام است.

در بسته fBasics نیز امکان انجام آزمون های جارکو – برا و دی آگوستینو وجود دارد.

برگرفته از آمار ایران

برای مشاهده لیست همه ی  پرسشنامه های استاندارد لطفا همین جا روی پرسشنامه استاندارد  کلیک فرمایید.

تحلیل داده های آماری برای پایان نامه و مقاله نویسی ،تحلیل داده های آماری شما با نرم افزارهای کمی و کیفی ،مناسب ترین قیمت و کیفیت عالی انجام می گیرد.

نرم افزار های کمی: SPSS- PLS – Amos

نرم افزار کیفی: Maxquda

تعیین حجم نمونه با:Spss samplepower

روش های تماس:

Mobile :  09143444846  واتساپ – تلگرام

Telegram: @abazizi

وبلاگ ما

برای تحلیل داده های آماری با کیفیت بالا و قیمت مناسب همین جا  کلیک کن.

تحلیل آماری

تجزیه و تحلیل داده های کیفی با نرم افزار اِنویوو (NVivo)

نرم افزار ان ویوو یک بسته نرم افزاری تجزیه و تحلیل داده های کیفی (QDA) است که توسط موسسه بین المللی QSR طراحی و عرضه شده است. این نرم افزار برای انجام تحلیل های کیفی  طراحی شده که با حجم زیادی از اطلاعات و منابع چند رسانه ای کار می کند و از طریق آن امکان انجام تحلیل های بسیار قوی بر روی داده هایی با حجم کم یا زیاد وجود دارد. با اطمینان می توان گفت ان یوو یه نرم افزار تخصصی برای پروژه های کیفی می باشد ، به عبارت دیگر برای تجزیه تحلیل متون در تحقیقات کیفی بکار می رود، بطور مثال پاسخ های تشریحی یک پرسشنامه. نرم افزار NVivo با مجموعه متنوعی از روش های تحقیق شامل تجزیه و تحلیل سازمانی و شبکه، مطالعات کاربردی یا مبتنی بر شواهد، تحلیل سخنرانی، تئوری های پایه، تحلیل مصاحبه، قوم نگاری، بررسی ادبیات تحقیق، پدیده شناسی، روش های ترکیبی تحقیق و متدولوژی چارچوب سازگار است. این نرم افزار از قالب های مختلف داده همچون فایل های صوتی، ویدئویی، عکس های دیجیتال، فایل های متنی، PDF، کاربرگ ها، متن های غنی، متن رمزگذاری نشده و ساده و نیز داده های مربوط به وب و شبکه های اجتماعی استفاده می کند.

آزمون های علامت  و ویلکاکسون Wilcoxon and sign Tests

آزمون های علامت  و ویلکاکسون 

Wilcoxon and sign Tests

www.rava20.ir

  • براي آزمون فرض پيرامون دو ميانگين از يک جامعه استفاده مي شود.

  • هرگاه دو نمونه وابسته ( زوجی) از جامعه ای مفروض باشد و متغیرهای آن ها به صورت ترتیبی باشند  و در مقایسه های زوجی اگر داده ی پرت داشتیم ( با استفاده از نمودار پراکنش دو متغیر قابل تشخیص است) یا نتوانستیم از آزمون T وابسته (زوجی ) استفاده کنیم. از آزمون های علامت و ویلکاکسون استفاده می کنیم. این آزمون مشابه t استیودنت با دو نمونه وابسته است و معادل ناپارامتری آن محسوب می شود. در این آزمون فرض نمی شود که توزیع نرمال است. در این آزمون های شکل توزیع نداریم ولی متغیر مورد بررسی باید پیوسته باشد.

ادامه‌ی خواندن

آزمون مک نمار

آزمون مک نمار

آزمون مک نمار یک آزمون ناپارامتری است که اغلب در مورد داده های اسمی دو مقوله ای یا دوپاسخی مربوط به دو نمونه ی مرتبط یا همبسته به کار می رود. این آزمون به ویژه در مواردی به کار می رود که می خواهیم نظرهای یا عملکردهای قبلی یا بعدی موردها (معمولا افراد) را با هم مقایسه کنیم.

ادامه‌ی خواندن