بایگانی دسته: آمار ناپارامتریک

تحلیل آماری عوامل دموگرافیک (جمعیت شناسی)

تحلیل عاملی اکتشافی (EFA)

تحلیل عاملی اکتشافی (EFA)

تحلیل عاملی اکتشافی (EFA) یک روش آماری است که برای کشف ساختار زیربنایی مجموعه‌ای از متغیرها و کاهش ابعاد داده‌ها استفاده می‌شود. این روش به دنبال خلاصه کردن اطلاعات موجود در تعداد زیادی از متغیرها، در قالب تعداد کمتری از متغیرهای نهان (عامل) است.

در EFA، هیچ فرضیه‌ای درباره ساختار داده‌ها وجود ندارد و هدف، شناسایی ساختار واقعی داده‌ها است. برای این منظور، از ماتریس همبستگی بین متغیرها استفاده می‌شود.

مراحل انجام EFA

  1. انتخاب متغیرها: متغیرهایی که برای تحلیل عاملی انتخاب می‌شوند، باید همبستگی قابل قبولی با یکدیگر داشته باشند.
  2. محاسبه ماتریس همبستگی: ماتریس همبستگی نشان می‌دهد که هر متغیر با چه میزان با سایر متغیرها همبستگی دارد.
  3. استخراج عامل‌ها: از روش‌های مختلفی برای استخراج عامل‌ها استفاده می‌شود، مانند روش مولفه‌های اصلی و روش حداکثر واریانس مشترک.
  4. چرخش عامل‌ها: چرخش عامل‌ها به منظور تفسیر آسان‌تر عامل‌ها انجام می‌شود.
  5. تفسیر عامل‌ها: در این مرحله، باید بر اساس بارهای عاملی، هر عامل را به یک مفهوم نظری تفسیر کرد.

کاربردهای EFA

  • کاهش ابعاد داده‌ها: زمانی که با تعداد زیادی از متغیرها روبرو هستیم، EFA می‌تواند به ما کمک کند تا داده‌ها را به ابعاد کمتری خلاصه کنیم و از این طریق، تحلیل داده‌ها را ساده‌تر کنیم.
  • شناسایی ساختار زیربنایی داده‌ها: EFA می‌تواند به ما کمک کند تا ساختار زیربنایی داده‌ها را شناسایی کنیم و به این ترتیب، درک عمیق‌تری از پدیده مورد مطالعه به دست آوریم.
  • تشکیل مقیاس‌های جدید: EFA می‌تواند برای تشکیل مقیاس‌های جدید از متغیرهای مرتبط با یکدیگر استفاده شود.

Sources

  1. Kiara Academy – آموزش تحلیل عاملی اکتشافی: https://kiaraacademy.com/teaching-exploratory-factor-analysis/
  2. Parsmodir – تحلیل عاملی اکتشافی: https://parsmodir.com/statistics/efa.php
  3. Analysis Academy – تحليل عاملي اکتشافي (efa) و تحليل عاملي تاييدي (cfa): https://analysisacademy.com/3313/%D8%AA%D8%AD%D9%84%D9%8A%D9%84-%D8%B9%D8%A7%D9%85%D9%84%D9%8A-%D8%A7%DA%A9%D8%AA%D8%B4%D8%A7%D9%81%D9%8A-efa-%D9%88-%D8%AA%D8%AD%D9%84%D9%8A%D9%84-%D8%B9%D8%A7%D9%85%D9%84%D9%8A-%D8%AA%D8%A7%D9%8A.html
  4. Modireamari –

 تحلیل داده های آماری با مناسب‌ترین قیمت و کیفیت برتر!

تحلیل داده های آماری

🌟با تجربه‌ی بیش از 17 سال و ارائه‌ی بهترین خدمات

مشاوره : پایان نامه و مقاله نویسی تحلیل داده های آماری

📊تحلیل داده های آماری با نرم افزارهای کمی و کیفی

توجه: همه ی پرسشنامه هااز منابع معتبر تهیه شده،  استاندارد ، دارای روایی و پایایی و منابع داخل و پایان متن می باشند . همه ی پرسشنامه ها  قابل ویرایش در قالب نرم افزار ورد Word می باشد. 

مبانی نظری و پژوهشی متغیر ها

📞 تماس: 09143444846 (پیامک، ایتا، واتساپ، تلگرام) 🌐 کانال تلگرام: عضو شوید

(تا جای ممکن با ایتا پیام بفرستید، زودتر در جریان خواهیم بود!)

ایمیل :   abazizi1392@gmail.com

وبلاگ ما

 

کتاب “مدیریت زمان: راهنمای کامل برای بهره‌وری و موفقیت” (برای اولین بار در ایران)

نوشته

ضرایب آماری بری بررسی تحلیل عاملی تأییدی (Confirmatory Factor Analysis – CFA) و تحلیل عاملی اکتشافی (Exploratory Factor Analysis – EFA)

نوشته

تحلیل عاملی اکتشافی چیست؟

نوشته

چه روش‌های آماری برای تحلیل داده‌ها در تحقیق آزمایشی استفاده می‌شود؟

نوشته

تحلیل آماری پایان نامه

تحلیل داده های آماری

تحلیل عاملی چیست؟

تحلیل عاملی چیست؟

تحلیل عاملی روشی آماری برای کاهش پیچیدگی داده‌ها و شناسایی ساختار زیربنایی مجموعه‌ای از متغیرها است. این روش به دنبال خلاصه کردن اطلاعات موجود در تعداد زیادی از متغیرها، در قالب تعداد کمتری از متغیرهای نهان (عامل) است.

به عبارت دیگر، تحلیل عاملی به ما کمک می‌کند تا بفهمیم که چه تعداد عامل، واریانس موجود در داده‌ها را تبیین می‌کنند و هر متغیر با کدام عامل ارتباط دارد.

کاربردهای تحلیل عاملی

  • کاهش ابعاد داده‌ها: زمانی که با تعداد زیادی از متغیرها روبرو هستیم، تحلیل عاملی می‌تواند به ما کمک کند تا داده‌ها را به ابعاد کمتری خلاصه کنیم و از این طریق، تحلیل داده‌ها را ساده‌تر کنیم.
  • شناسایی ساختار زیربنایی داده‌ها: تحلیل عاملی می‌تواند به ما کمک کند تا ساختار زیربنایی داده‌ها را شناسایی کنیم و به این ترتیب، درک عمیق‌تری از پدیده مورد مطالعه به دست آوریم.
  • تشکیل مقیاس‌های جدید: تحلیل عاملی می‌تواند برای تشکیل مقیاس‌های جدید از متغیرهای مرتبط با یکدیگر استفاده شود.

انواع تحلیل عاملی

دو نوع اصلی تحلیل عاملی وجود دارد:

  • تحلیل عاملی اکتشافی (EFA): زمانی که اطلاعات کافی درباره ساختار داده‌ها نداریم، از تحلیل عاملی اکتشافی استفاده می‌شود.
  • تحلیل عاملی تأییدی (CFA): زمانی که اطلاعات کافی درباره ساختار داده‌ها داریم، از تحلیل عاملی تأییدی استفاده می‌شود.

Wikipedia – تحلیل عاملی: https://fa.wikipedia.org/wiki/%D8%AA%D8%AD%D9%84%DB%8C%D9%84_%D8%B9%D8%A7%D9%85%D9%84%DB%8C

  1. Analysis Academy – تحلیل عاملی چیست؟: https://analysisacademy.com/4502/4502.html
  2. Parsmodir – تحلیل عاملی: https://parsmodir.com/db/research/factor-analysis.php
  3. اطمینان شرق – تحلیل عاملی-روشی برای خلاصه سازی داده ها: https://spss-iran.ir/factor-analysis/
  4. آپارات – تحلیل عاملی چیست؟ Factor Analysis: https://www.aparat.com/v/5vh4D
  5. Kiara Academy – آموزش تحلیل عاملی اکتشافی: https://kiaraacademy.com/teaching-exploratory-factor-analysis/

فصل 1: آموزش کاربردی نرم‌افزار انویوو NVIVO (آشنایی کلی با نرم افزار)

نوشته

برترین دانشگاه جهان و ایران

نوشته

سایت Earnably چیست؟ کسب درآمد 200 دلار در ماه از سایت پول ساز آنلاین

نوشته

تحلیل محتوای کتاب های درسی با تکنیک ویلیام رومی

نوشته

خواص و مضرات گیاه داروئی آلوئه چیست

 تحلیل داده های آماری با مناسب‌ترین قیمت و کیفیت برتر!

تحلیل داده های آماری

🌟با تجربه‌ی بیش از 17 سال و ارائه‌ی بهترین خدمات

مشاوره : پایان نامه و مقاله نویسی تحلیل داده های آماری

📊تحلیل داده های آماری با نرم افزارهای کمی و کیفی

توجه: همه ی پرسشنامه هااز منابع معتبر تهیه شده،  استاندارد ، دارای روایی و پایایی و منابع داخل و پایان متن می باشند . همه ی پرسشنامه ها  قابل ویرایش در قالب نرم افزار ورد Word می باشد. 

مبانی نظری و پژوهشی متغیر ها

📞 تماس: 09143444846 (پیامک، ایتا، واتساپ، تلگرام) 🌐 کانال تلگرام: عضو شوید

(تا جای ممکن با ایتا پیام بفرستید، زودتر در جریان خواهیم بود!)

ایمیل :   abazizi1392@gmail.com

وبلاگ ما

 

تحلیل آماری - پژوهش - کیفی - کمی - کامپیوتر

روش‌های تجزیه و تحلیل داده‌های آماری

روش‌های تجزیه و تحلیل داده‌های آماری

تحلیل داده های آماری
تحلیل های کمی با نرم افزار های : SPSS – Amos – Pls تحلیل های کیفی با نرم افزار های : Maxqda – NVivo

با توسعه فناوری و افزایش دانش، ابزارهای نوینی برای جمع‌آوری، توصیف، تحلیل، انتقال و ارائه اطلاعات توسط دانش‌پژوهان تولید شده‌اند.

به عبارت دیگر، روش‌های تحقیق نیز در حال تکامل و توسعه هستند. بنابراین، آگاهی یافتن از روش‌های تحقیق و انجام تحلیل‌های آماری ضروری است برای محققان، استادان و دانشجویان.

پژوهشگر برای پاسخگویی به مسئله تدوین شده و یا تصمیم‌گیری در مورد رد یا تایید فرضیه یا فرضیاتی که برای تحقیق در نظر گرفته است، از روش‌های مختلف تجزیه و تحلیل استفاده می‌کند. همان‌طور که می‌دانید، هر مسئله نیازمند شیوه مطالعه و تحقیق خود را دارد.

بخش عمده‌ای از فعالیت‌های علمی دانشجویان در دوره‌های تحصیلات تکمیلی، کارشناسی ارشد و دکتری، به انجام تحقیقات علمی و ارائه آن‌ها به صورت گزارش، سمینار، پایان‌نامه و مقاله مربوط می‌شود. در این مطلب به طور خلاصه به بررسی و شرح بخشی از فرآیند تحقیق در زمینه تحلیل داده‌ها و روش‌های آماری می‌پردازیم. همچنین با روش‌های انجام تجزیه و تحلیل آماری آشنا خواهید شد. از آنجا که بیشتر پژوهش‌های انجام شده در دانشگاه‌ها جنبه کمی دارند، بنابراین یادگیری روش‌های آماری، به ویژه آمار استنباطی، توصیه می‌شود. بدیهی است که برای این کار لازم است که دانشجویان و علاقمندان به یادگیری، نحوه استفاده از نرم‌افزارهای آماری و به ویژه انجام تحلیل آماری با SPSS اقدام کنند. برای یادگیری کار با این نرم‌افزار، لطفاً مقاله آموزش تحلیل آماری با SPSS را مطالعه فرمایید. در پایان این نوشتار، به معرفی آزمون‌های آماری، آزمون‌های پارامتریک و آزمون‌های ناپارامتریک خواهیم پرداخت.

آمار توصیفی: آمار توصیفی به توضیح و تحلیل داده‌ها پرداخته و می‌تواند به ترتیب ارقامی بدون معنی که از آمار استفاده می‌شود، اطلاعات را معنادار کند تا اهداف پژوهشی و تحقیقات برآورده شوند. این به معنای اساسی هر مطالعه و پژوهش است که تمامی فعالیت‌های تحقیقی را تا رسیدن به یک نتیجه، کنترل و هدایت می‌کند. نحوه‌های مختلف تجزیه و تحلیل برای دست‌یابی به پاسخگویی به مسئله تدوین شده و یا تصمیم‌گیری در مورد رد یا تایید فرضیه یا فرضیاتی که برای تحقیق در نظر گرفته شده است، استفاده می‌شود. به عبارت دیگر، هر مسئله نیازمند شیوه مطالعه و تحقیق خود است.

عناصر اساسی در تجزیه و تحلیل داده‌ها:

  1. داده‌های جمع‌آوری شده باید با دقت جمع‌آوری و ثبت شوند.
  2. داده‌های نقدی که توسط آمار معنادار می‌شوند، باید تجزیه و تحلیل شوند. (بازبینی داده‌های جمع‌آوری شده)
  3. باید اطمینان حاصل شود که داده‌های جمع‌آوری شده به صحت و کیفیت مطلوب رسیده‌اند.
  4. داده‌های جمع‌آوری شده را در قالب و فرمت یکنواخت ذخیره کنید.
  5. در صورت وجود سوالات بدون پاسخ، باید آنها تکمیل شوند.
  6. اگر پاسخ‌های سوالات با یکدیگر سازگار نیستند، علت این موضوع باید بررسی شود و پرسش‌نامه اصلاح شود.
  7. پس از در دست داشتن داده‌های صحیح و با کیفیت، اقدام به استفاده از آمار و انجام تجزیه و تحلیل خواهیم نمود.

مراحل کنگره داده‌ها: الف) مراحل کردن و تنظیم داده‌ها ب) کدگذاری داده‌ها ج) سازماندهی داده‌ها مراحل کردن و تنظیم داده‌ها: برای تحلیل داده‌ها، داده‌های جمع‌آوری شده را می‌بایست انجام کدینگ و تنظیم دهیم، به شکلی که داده‌های نقدی را مشخص و مرتب کنیم. روش‌های تحلیل آماری در برابر داده‌های نقدی انجام می‌شود. روش‌های تحلیل آماری را می‌توان به دو شاخه توصیفی و استنباطی تقسیم کرد.

آمار توصیفی: آمار توصیفی به توضیح و تحلیل داده‌ها پرداخته و می‌تواند به ترتیب ارقامی بدون معنی که از آمار استفاده می‌شود، اطلاعات را معنادار کند تا اهداف پژوهشی و تحقیقات برآورده شوند. این به معنای اساسی هر مطالعه و پژوهش است که تمامی فعالیت‌های تحقیقی را تا رسیدن به یک نتیجه، کنترل و هدایت می‌کند. نحوه‌های مختلف تجزیه و تحلیل برای دست‌یابی به پاسخگویی به مسئله تدوین شده و یا تصمیم‌گیری در مورد رد یا تایید فرضیه یا فرضیاتی که برای تحقیق در نظر گرفته شده است، استفاده می‌شود. به عبارت دیگر، هر مسئله نیازمند شیوه مطالعه و تحقیق خود است.

شاخص‌های تمایل مرکزی: • میانگین: متوسط حسابی یک مجموعه داده‌ها می‌باشد. • نما: مقداری است که بیشترین تکرار را در مجموعه داده‌ها دارد. • میانه: عددی است که در وسط داده‌ها قرار دارد. • چارک‌ها: چارک و صدک‌ها مهم هستند، اما به طور کلی صدک‌ها در مورد مجموعه‌های بزرگ به کار می‌روند.

شاخص‌های پراکندگی: شاخص‌های پراکندگی نشان‌دهنده میزان پراکندگی یا تغییراتی که در بین داده‌های یک توزیع (نتایج تحقیق) وجود دارد، هستند. این شاخص‌ها مهم هستند زیرا نشان می‌دهند که آیا داده‌ها دارای تنوع زیادی هستند یا خیر.

مثال‌هایی از شاخص‌های پراکندگی: • واریانس: میزان انحراف اعداد از میانگین را نشان می‌دهد. واریانس بزرگتر به معنای تنوع بیشتر در داده‌ها است. • انحراف معیار: از این شاخص برای اندازه‌گیری انحراف اعداد از میانگین استفاده می‌شود. • دامنه: اختلاف بین حداکثر و حداقل داده‌ها را نشان می‌دهد. دامنه بزرگتر به معنای تنوع بیشتر است.

شاخص‌های چولگی و کشیدگی: • چولگی: میزان شیب و تنگی توزیع داده‌ها را نشان می‌دهد. چولگی مثبت نشان‌دهنده دارا بودن داده‌های بیشتر در یک طرف توزیع است و چولگی منفی نشان‌دهنده توزیع داده‌ها در طرف دیگر است. • کشیدگی (Kurtosis): اندازه‌گیری شکل و تیزی یا تخمین از فراوانی داده‌ها در دمای‌های توزیع است. کشیدگی بزرگتر نشان‌دهنده دارا بودن داده‌های زیاد در مرکز توزیع و کشیدگی کمتر نشان‌دهنده توزیع داده‌ها در دمای‌های بیرونی توزیع است.

آمار استنباطی: آمار استنباطی به تفسیر، تحلیل و برداشت نتایج بر اساس نمونه‌گیری از یک جمعیت بزرگتر می‌پردازد. این نمونه‌گیری به این دلیل انجام می‌شود که ممکن است تحلیل کل جمعیت زمان‌بر و گران‌قیمت باشد. از طریق نمونه‌گیری، اطلاعات زیادی از جمعیت به دست می‌آید و بر اساس آن نتایج برآورده می‌شود. در آمار استنباطی، از مفاهیمی مانند اطمینان‌اندازه‌گیری، تست فرضیه‌ها، اندازه‌گیری خطا و اعتبارسنجی استفاده می‌شود.

مثال‌هایی از آمار استنباطی: • اندازه‌گیری اطمینان: میزان قطعیت و اعتماد ما به نتایج به دست آمده از نمونه‌گیری. • تست فرضیه‌ها: بررسی فرضیه‌هایی که در مطالعه ارائه شده و تصمیم‌گیری در مورد رد یا تایید آنها. • اندازه‌گیری خطا: تخمین خطاهای ممکن در نتایج به دست آمده از نمونه‌گیری. • اعتبارسنجی: بررسی اعتبار و صحت نتایج و مطالعات با استفاده از روش‌های مختلف.

خواص شاخص های پراکندگی -شاخصهای پراکندگی مخصوص داده های کمی می باشد . – در شاخصهای پراکندگی همیشه عددی مثبت محاسبه می شود . -حداقل شاخصهای پراکندگی صفر می باشد و آن هنگامی است که همه داده ها برابر می باشند. برخی از مهمترین شاخص های پراکندگی عبارتند از: • دامنه تغییرات • واریانس • انحراف معیار • ضریب تغییر یا تعیین شاخص های چولگی شاخصی است که از نظر گرافیکی تقارن و یا عدم تقارن در مجموعه دیتا ها را نمایش می دهد و تقارن همیشه نسبت به میانگین است. شاخص های کشیدگی(Kurtosis) این شاخص مانند واریانس و انحراف معیار راجع به جمع شدن شکل یا پهن بودن شکل است. آمار استنباطی چیست؟ در بیشتر فعالیت های آماری جمع آوری، تنظیم و ارائه ی یافته ها و یا تعیین آماره ها کفایت نمی کند ، بلکه لازم است بر اساس این اطلاعات جمع آوری و تنظیم شده ، تجزیه و تحلیل و استنباط هایی برای تبیین و تصمیم گیری صورت گیرد .این بخش از آمار که به تحلیل ، تفسیر و تعمیم نتایج حاصل از تنظیم و محاسبه ی مقدماتی اماری تکیه دارد ، آمار استنباطی خوانده می شود .با استفاده از روش های امار استنباطی می توان مشخصات جامعه ی اماری را از روی نمونه ها استنباط کرد. ویژگی آمار تحلیلی یا استنباطیAnalytic Statistics • آمار تحلیلی به معنای تعمیم نتایج نمونه به جامعه است. • در آمار تحلیلی مفهوم ضریب اطمینان حائز اهمیت است. • ضریب اطمینان رایج در تحقیقات علوم پزشکی ۹۵% است. • بطور استثناء در موارد کم اهمیت تر از ضریب اطمینان ۹۰% و در مواردی که اهمیت زیادی دارد از ضریب اطمینان ۹۹% استفاده می شود. آمار استنباطی و آزمون فرضیه ها: بعد ‌از‌ توصیف ‌متغیرها ‌و‌پاسخ‌های ‌بدست‌ آمده‌ از‌ جامعه‌ آماری ‌در ‌این ‌بخش ‌به ‌بررسی‌ فرضیه‌ های ‌مطرح‌ شده‌ و ‌آزمون‌ آماری‌ مورد‌ استفاده‌ در پژوهش‌ پرداخته شده ‌است‌ به ‌بیان دیگر‌ ‌به‌ تحلیل یافته ‌های ‌بدست ‌آمده ‌پرداخته ‌می‌شود تا ‌از ‌نظر ‌آماری ‌نیز ‌بتوان ‌صحت ‌و سقم‌ فرضیات‌ را‌ مورد ‌بررسی ‌قرار ‌داد. برای اینکه آزمون آماری مناسب، مورد استفاده در پژوهش را به درستی انتخاب کنید لطفا مقالات انتخاب صحیح آزمون های آماری را مطالعه فرمایید. آزمون‌های آمار استنباطی به دو گروه تقسیم می‌شوند. 1. پارامتری: به تجزیه و تحلیل اطلاعات در سطح مقیاس فاصله‌ای و نسبی می‌پردازند که حداقل شاخص آماری آنها میانگین (Mean) و واریانس (Variance) است. 2. آزمون‌های ناپارامتری : به تجزیه و تحلیل اطلاعات در سطح مقیاس اسمی ‌و رتبه‌ای می‌پردازند که شاخص آماری آنها میانه (Median) و نما (Mode) است. آزمونهای پارامتریک • آزمون t تک نمونه • آزمون t وابسته • آزمون t دو نمونه مستقل • آزمون t ولچ • آزمون t هتلینگ • تحلیل واریانس (ANOVA) • تحلیل واریانس چندعاملی (MANOVA) • تحلیل کوواریانس چندعاملی (MANCOVA) آزمونهای ناپارامتریک • آزمون علامت تک نمونه • آزمون علامت زوجی • ویلکاکسون • من-ویتنی • کروسکال-والیس • فریدمن • کولموگروف-اسمیرنف • آزمون تقارن توزیع • آزمون میانه • مک نمار • آزمون Q کوکران • ضریب همبستگی اسپیرمن تحلیل‌های انجام گرفته در موسسه همیار پروژه دارای ویژگی‌های زیر می باشد: • انجام تمام تحلیل های موجود • توضیح و تفسیر کامل برون دادها • ارائه مشاوره در حین تحلیل • استفاده از نرم افزارهای متنوع • بررسی نهایی تحلیل آماری • انجام انواع مختلف پروژه های آماری و تحلیل پایان نامه ها • انجام سفارشات تجزیه و تحلیل آماری داده های آماری بدست آمده از پرسشنامه • اطلاعات حاصل از آزمایشات و تحقیقات علمی و آنالیز آماری آنها • اجرای انواع آزمونها و روشهای آماری (اعم از آزمونهای پارامتری و ناپارامتریک) • و…

معرفی بهترین نرم افزارهای تحلیل آماری پایان نامه و مقاله

روش های آماری پارامتریک و ناپارامتریک؟

انواع مدل هاي معادلات ساختاري و کاربرد آن ها

فصل 5 : آموزش انویوو: جستجو و بازیابی اطلاعات

نحوه نوشتن فصل چهارم پایان نامه و تحلیل داده ه

شاخص‌های پراکندگی مخصوص داده‌های کمی هستند و همیشه اعداد مثبت محاسبه می‌شوند. حداقل شاخص‌های پراکندگی صفر است که در صورتی اتفاق می‌افتد که همه داده‌ها برابر باشند. این شاخص‌ها از اهمیت زیادی برخوردارند و در تحلیل داده‌ها و اندازه‌گیری تغییرات مفید هستند. در ادامه به بررسی ویژگی‌های آمار استنباطی و آزمون‌های آماری پرداخته و تحلیل‌هایی که در موسسه همیار پروژه انجام می‌دهند، معرفی می‌شوند.

آمار استنباطی: آمار استنباطی به تفسیر، تحلیل و برداشت نتایج بر اساس نمونه‌گیری از یک جمعیت بزرگتر می‌پردازد. این نمونه‌گیری به این دلیل انجام می‌شود که ممکن است تحلیل کل جمعیت زمان‌بر و گران‌قیمت باشد. از طریق نمونه‌گیری، اطلاعات زیادی از جمعیت به دست می‌آید و بر اساس آن نتایج برآورده می‌شود. در آمار استنباطی، از مفاهیمی مانند اطمینان‌اندازه‌گیری، تست فرضیه‌ها، اندازه‌گیری خطا و اعتبارسنجی استفاده می‌شود.

آزمون‌های آماری: آزمون‌های آماری به دو گروه تقسیم می‌شوند: پارامتریک و ناپارامتریک.

آزمون‌های پارامتریک از تجزیه و تحلیل اطلاعات در سطح مقیاس فاصله‌ای و نسبی می‌پردازند که حداقل شاخص آماری آنها میانگین و واریانس است. برخی از آزمون‌های پارامتریک عبارتند از:

  • آزمون t تک نمونه
  • آزمون t وابسته
  • آزمون t دو نمونه مستقل
  • آزمون t ولچ
  • تحلیل واریانس (ANOVA)
  • تحلیل واریانس چندعاملی (MANOVA)
  • تحلیل کوواریانس چندعاملی (MANCOVA)

آزمون‌های ناپارامتریک به تجزیه و تحلیل اطلاعات در سطح مقیاس اسمی و رتبه‌ای می‌پردازند که شاخص آماری آنها میانه و نما است. برخی از آزمون‌های ناپارامتریک عبارتند از:

  • آزمون علامت تک نمونه
  • آزمون علامت زوجی
  • ویلکاکسون
  • من-ویتنی
  • کروسکال-والیس
  • فریدمن
  • کولموگروف-اسمیرنف
  • آزمون تقارن توزیع
  • آزمون میانه
  • مک نمار
  • آزمون Q کوکران
  • ضریب همبستگی اسپیرمن

تحلیل داده های آماری

تحلیل آماری چیست؟

تحلیل آماری چیست؟

تحلیل آماری چیست؟

انواع پرسشنامه استاتدارد تحنمکگ

تجزیه و تحلیل آماری ابزاری قدرتمند است که کسب و کارها و سازمان‌ها، مراکز تحقیقاتی از آن برای استخراج معنا از داده‌ها و هدایت تصمیم‌گیری استفاده می‌کنند. انواع مختلفی از تکنیک‌های تجزیه و تحلیل آماری وجود دارد که می‌تواند برای طیف گسترده‌ای از داده‌ها، صنایع و برنامه‌ها استفاده شود. تجزیه و تحلیل آماری شامل جمع‌آوری، سازمان‌دهی و تجزیه و تحلیل داده‌ها بر اساس اصول ثابت شده برای شناسایی الگوها و روندها است. این یک رشته گسترده با برنامه‌های کاربردی در دانشگاه، کسب و کار، علوم اجتماعی، ژنتیک، مطالعات جمعیت، پزشکی، مهندسی و چندین زمینه دیگر می‌باشد.

به عبارتی تحلیل آماری عبارتست از گزارشی شامل جداول و نمودارهای آماری و تحلیل و تفسیر آنها، به گونه ای که تصویری روشن و توصیفی از داده ها و هم چنین استنباط های حاصل از استخراج نکات کلیدی و مدیریتی از داده ها ارائه می دهد.

مقاله نویسی

روند تجزیه و تحلیل اطلاعات

در تجزیه و تحلیل آماری چندین مرحله وجود دارد اما در این قسمت به پنج مرحله مهم اشاره خواهیم کرد:

1- انتخاب جامعه هدف

جامعه آماری عبارتست از مجموعه تمام افراد، گروه‌ها، اشیاء و یا رویدادهایی که دارای یک یا چند ویژگی مشترک باشند. تعداد اعضای جامعه را حجم یا اندازه جامعه می‌نامند و با حرف بزرگ N نشان می‌دهند.

2- انتخاب حجم نمونه

نمونه آماری گروه کوچکتری از جامعه است که طبق ضابطه‌ای معین برای مشاهده و تجزیه و تحلیل انتخاب می­شود و باید معرف جامعه باشد. نتایج نمونه ای را که معرف جامعه نباشد نمی­توان به جامعه تعمیم داد. تعداد اعضای نمونه را با حرف کوچک n نشان می دهند.

3- تمیز سازی داده( data cleaning)

پاکسازی داده‌ ها (Data cleaning)، شامل شناسایی و رفع خطاهای احتمالی داده‌ها برای بهبود کیفیت آنهاست. در این فرآیند، شما داده‌های «کثیف» را شناسایی، بررسی، تجزیه و تحلیل، اصلاح یا حذف می‌کنید تا مجموعه داده‌های خود را پاکسازی کنید. داده‌های کثیف به معنی ناهماهنگی‌ها و خطاها هستند که می‌توانند از هر بخش فرآیند تحقیق، مانند طراحی ضعیف، اندازه گیری غلط، ورود داده‌های ناقص و… به دست آیند.

4- تجزیه و تحلیل داده ها

از آنجا که داده‌ها هر لحظه برجسته‌تر می‌شوند، سازمان‌ها نیز عملکردهایی مبتنی بر داده محوری را پیش می‌گیرند. این میان، تجزیه و تحلیل داده، به معنای اتخاذ روش‌هایی برای جمع‌آوری اطلاعات بیشتر است. سپس این داده‌ها مرتب شده، ذخیره می‌شوند و مورد تجزیه و تحلیل قرار می‌گیرند تا اطلاعات منطقی و ارزشمندی بدست آید. تجزیه و تحلیل داده‌ها فرایند پیشرفت کار را ممکن و البته تسهیل می‌کند.

تجزیه و تحلیل داده‌ها شامل آنالیز مجموعه داده‌ها برای شناسایی الگوها، روندها و روابط با استفاده از تکنیک‌های آماری، مانند تجزیه و تحلیل آماری استنباطی و توصیفی است. شما می‌توانید از نرم‌افزارهای رایانه‌ای مانند صفحات گسترده برای خودکار کردن این فرآیند و کاهش احتمال خطای انسانی در روند تجزیه و تحلیل آماری استفاده کنید. این امر می‌تواند به شما امکان تجزیه و تحلیل موثر داده‌ها را بدهد.

5- تفسیر نتایج

آخرین مرحله تفسیر داده‌ها است، که نتایج قطعی در مورد هدف تجزیه و تحلیل ارائه می‌دهد. پس از تجزیه و تحلیل، می‌توانید نتیجه را به صورت نمودار، گزارش، کارت امتیاز و داشبورد ارائه دهید تا در اختیار افراد غیر حرفه‌ای قرار گیرد. به عنوان مثال، تفسیر تجزیه و تحلیل تأثیر کارخانه‌ای دارای ۶۰۰۰ کارگر بر میزان جرم و جنایت در یک شهر کوچک با ۱۳۰۰۰ نفر جمعیت، می‌تواند میزان نزولی فعالیت‌های جنایی را نشان دهد. برای نمایش این کاهش می‌توانید از نمودار خطی استفاده کنید.

تحلیل داده های آماری
تحلیل های کمی با نرم افزار های : SPSS – Amos – Pls تحلیل های کیفی با نرم افزار های : Maxqda – NVivo

انواع تحلیل آماری

به صورت کلی دو نوع تجزیه و تحلیل داده اصلی وجود دارد: توصیفی و استنباطی(تحلیلی). هر یک از این انواع اهداف و نقش‌های خاص خود را در روند تجزیه و تحلیل داده‌ها دارند. در ادامه هر کدام از آنها را به صورت جداگانه بررسی خواهیم کرد:

آمار توصیفی

در این نوع تجزیه و تحلیل، اگر تجزیه و تحلیل به صورت کمّی باشد، پژوهشگر داده‌های جمع‌آوری شده را با استفاده از شاخص‌های آماری توصیفی، خلاصه و طبقه‌بندی می‌کند. به‌عبارت دیگر، در تجزیه و تحلیل توصیفی پژوهشگر ابتدا داده‌های جمع‌آوری شده را با تهیه و تنظیم جدول توزیع فراوانی خلاصه می‌کند و سپس به کمک نمودار آن‌ها را نمایش می‌دهد و سرانجام،‌ با استفاده از سایر شاخص‌های آمار توصیفی آن‌ها را خلاصه می‌کند. مهم ترین شاخص‌های آمار توصیفی که کاربرد زیادی دارند عبارت‌اند از: میانگین، ‌میانه و انحراف استاندارد.ولی اگر تجزیه و تحلیل کیفی باشد، در تحلیل توصیفی چگونگی صفات هر یک از متغیرهای موجود، در تحلیل تشریح می‌شود.

آمار تحلیلی

آمار تحلیلی یا استنباطی برای مطالعه رابطه میان متغیرها در داده‌ها استفاده می‌شود. از این آمارها برای پیش‌بینی، نتیجه‌گیری یا تعمیم نتایج به کل جامعه آماری استفاده می‌شود. در تحلیل استنباطی نمونه کوچکی از داده‌ها گرفته می‌شود و نتایج آن برای جامعه هدفی بزرگتر استفاده می‌شود.

ابزارهای لازم برای انجام تحلیل آماری

یکی از ابزارهای اصلی مورد نیاز برای انجام و نگارش تحلیل آماری، نرم افزار آماری است. و تصور “تحلیل آماری” بدون استفاده از نرم افزارهای آماری غیر ممکن است. زیرا برای تجزیه و تحلیل داده ها نیاز به عملیات های آماری خاصی است که محاسبات آن به صورت دستی غیر ممکن یا بسیار سخت و زمان بر می باشد.

پایان نامه نویسی مقاله نویسی
پایان نامه نویسی مقاله نویسی
انواع پرسشنامه استاتدارد تحنمکگ

انواع تحلیل آماری

انواع تحلیل آماری

تحلیل آماری را می توان در چند نوع دسته بندی کرد. در زیر 6 نوع تجزیه و تحلیل آماری ارائه شده است:

انجام پژوهش کیفی
انجام پژوهش کیفی.jpg

1-2- تحلیل آماری توصیفی (Descriptive statistical analysis)

تجزیه و تحلیل آماری توصیفی شامل جمع آوری، تفسیر، تجزیه و تحلیل و خلاصه کردن داده ها برای ارائه آنها در قالب نمودارها، نمودارها و جداول است. به جای نتیجه گیری، به سادگی خواندن و درک داده های پیچیده را آسان می کند.

آمار توصیفی ساده ترین شکل تحلیل آماری است که از اعداد برای توصیف کیفیات یک مجموعه داده استفاده می کند. این به کاهش مجموعه داده های بزرگ به اشکال ساده و فشرده تر برای تفسیر آسان کمک می کند. می‌توانید از آمار توصیفی برای خلاصه کردن داده‌های یک نمونه استفاده کنید یا یک نمونه کامل را در یک جامعه پژوهشی نشان دهید. آمار توصیفی از ابزارهای تجسم داده‌ها مانند جداول و نمودارها برای آسان‌تر کردن تحلیل و تفسیر استفاده می‌کند. اما آمار توصیفی برای نتیجه گیری مناسب نیست. این فقط می تواند داده ها را نشان دهد بنابراین شما می توانید ابزارهای تحلیل آماری پیچیده تری را برای استنتاج استفاده کنید.

آمار توصیفی می تواند از معیارهای گرایش مرکزی استفاده کند که از یک مقدار واحد برای توصیف یک گروه استفاده می کند. میانگین، میانه و مد برای به دست آوردن مقدار مرکزی برای یک مجموعه داده معین استفاده می شود. به عنوان مثال، می توانید از تجزیه و تحلیل آماری توصیفی برای یافتن میانگین سنی رانندگان دارای بلیت در شهرداری استفاده کنید. آمار توصیفی نیز می تواند اندازه گیری پراکندگی را پیدا کند. به عنوان مثال، شما می توانید محدوده سنی رانندگان با DUI و تصادفات رانندگی در یک ایالت را پیدا کنید. تکنیک های مورد استفاده برای یافتن اندازه گیری پراکندگی شامل محدوده، تنوع و انحراف استاندارد است.

تحلیل داده های آماری
پایان نامه – مقاله نویسی

2-2- تحلیل آماری استنباطی (Inferential statistical analysis)

تحلیل آماری استنباطی بر نتیجه گیری معنادار بر اساس داده های تحلیل شده تمرکز دارد. رابطه بین متغیرهای مختلف را مطالعه می کند یا برای کل جمعیت پیش بینی می کند.

تجزیه و تحلیل آماری استنباطی برای استنباط یا نتیجه‌گیری در مورد یک جمعیت بزرگتر بر اساس یافته‌های یک گروه نمونه در آن استفاده می‌شود. این می تواند به محققان کمک کند تا تمایز بین گروه های حاضر در یک نمونه را پیدا کنند. از آمار استنباطی نیز برای تأیید تعمیم‌های انجام شده در مورد یک جامعه از یک نمونه استفاده می‌شود، زیرا توانایی آن در محاسبه خطاها در نتیجه‌گیری در مورد بخشی از یک گروه بزرگ‌تر است.

برای انجام تحلیل آماری استنباطی ، محققان پارامترهای جامعه را از نمونه تخمین می زنند. آنها همچنین می توانند یک آزمون فرضیه های آماری را انجام دهند تا به فاصله اطمینانی برسند که تعمیم های انجام شده از نمونه را تأیید یا رد کند.

3-2- تجزیه و تحلیل پیشگویانه (Predictive analysis)

تحلیل آماری پیش‌بینی‌کننده نوعی تحلیل آماری است که داده‌ها را برای استخراج روندهای گذشته و پیش‌بینی رویدادهای آینده بر اساس آنها تجزیه و تحلیل می‌کند. برای انجام تجزیه و تحلیل آماری داده ها از الگوریتم های یادگیری ماشین، داده کاوی، مدل سازی داده و هوش مصنوعی استفاده می کند.

تجزیه و تحلیل پیشگو شاخه ای از هوش تجاری است زیرا بسیاری از سازمان ها با فعالیت در بازاریابی، فروش، بیمه و خدمات مالی برای انجام برنامه های بلندمدت به داده ها متکی هستند. توجه به این نکته مهم است که تحلیل پیش‌بینی‌کننده فقط می‌تواند پیش‌بینی‌های فرضی انجام دهد و کیفیت پیش‌بینی‌ها به دقت مجموعه داده‌های زیربنایی بستگی دارد.

مقاله نویسی

4-2- تحلیل پرسپکتیو (Prescriptive analysis)

تجزیه و تحلیل تجویزی تجزیه و تحلیل داده ها را انجام می دهد و بر اساس نتایج بهترین اقدام را تجویز می کند. این یک نوع تجزیه و تحلیل آماری است که به شما در تصمیم گیری آگاهانه کمک می کند.

تحلیل آماری تجویزی به سازمان ها کمک می کند تا از داده ها برای هدایت فرآیند تصمیم گیری خود استفاده کنند. شرکت ها می توانند از ابزارهایی مانند تجزیه و تحلیل گراف، الگوریتم ها، یادگیری ماشینی و شبیه سازی برای این نوع تحلیل استفاده کنند. تجزیه و تحلیل تجویزی به کسب و کارها کمک می کند تا بهترین انتخاب را از چندین دوره اقدام جایگزین داشته باشند.

تحلیل داده های آماری
تحلیل های کمی با نرم افزار های : SPSS – Amos – Pls تحلیل های کیفی با نرم افزار های : Maxqda – NVivo

5-2- تجزیه و تحلیل داده های اکتشافی (Exploratory data analysis)

تجزیه و تحلیل اکتشافی شبیه به تحلیل استنباطی است، اما تفاوت آن در این است که شامل بررسی ارتباط داده های ناشناخته است. روابط بالقوه درون داده ها را تحلیل می کند.

تجزیه و تحلیل داده های اکتشافی تکنیکی است که دانشمندان داده برای شناسایی الگوها و روندها در یک مجموعه داده استفاده می کنند. آنها همچنین می توانند از آن برای تعیین روابط بین نمونه ها در یک جامعه، اعتبار سنجی مفروضات، آزمون فرضیه ها و یافتن نقاط داده از دست رفته استفاده کنند. شرکت ها می توانند از تجزیه و تحلیل داده های اکتشافی برای ایجاد بینش بر اساس داده ها و اعتبارسنجی داده ها برای خطاها استفاده کنند.

6-2- تحلیل علّی (Causal analysis)

تحلیل آماری علی بر تعیین رابطه علت و معلولی بین متغیرهای مختلف در داده‌های خام متمرکز است. به عبارت ساده، علت وقوع یک اتفاق و تأثیر آن بر سایر متغیرها را مشخص می کند. این روش می تواند توسط مشاغل برای تعیین دلیل شکست استفاده شود.

تحلیل علّی از داده ها برای تعیین علت یا علت اتفاق افتادن چیزها به روشی که انجام می دهند استفاده می کند. این بخشی جدایی ناپذیر از تضمین کیفیت، بررسی حادثه و سایر فعالیت‌هایی است که هدف آنها یافتن عوامل زمینه‌ای است که منجر به یک رویداد شده است. شرکت ها می توانند از تحلیل علی برای درک دلایل یک رویداد استفاده کنند و از این درک برای هدایت تصمیمات آینده استفاده کنند.

7-2- تحلیل آماری انجمنی (Associational statistical analysis)

آمار انجمنی ابزاری است که محققان برای پیش‌بینی و یافتن علت استفاده می‌کنند. آنها از آن برای یافتن روابط بین چندین متغیر استفاده می کنند. همچنین برای تعیین اینکه آیا محققین می توانند استنباط و پیش بینی در مورد یک مجموعه داده از ویژگی های مجموعه دیگری از داده ها داشته باشند یا خیر استفاده می شود. آمار انجمنی پیشرفته ترین نوع تجزیه و تحلیل آماری است و به ابزارهای نرم افزاری پیچیده برای انجام محاسبات ریاضی سطح بالا نیاز دارد. برای اندازه گیری ارتباط، محققان از طیف وسیعی از ضرایب تغییرات، از جمله تحلیل همبستگی و رگرسیون استفاده می کنند.

پایان نامه نویسی مقاله نویسی
پایان نامه نویسی مقاله نویسی
تحلیل آماری - پژوهش - کیفی - کمی - کامپیوتر

روش ها و مراحل انتخاب صحیح آزمون آماری

آیا قصد دارید تحقیقی را انجام دهید؟ و یا اینکه در حال مطالعه یک تحقیق می باشید؟

چگونه میتوانید از صحت روش تجزیه و تحلیل داده ها اطمینان حاصل فرمائید؟ 

شاخه های مختلف علوم برای تجزیه و تحلیل داده ها از روش های مختلفی مانند روش های ذیل استفاده می نمایند:

الف) روش تحلیل محتوا

ب) روش تحلیل آماری

ج) روش تحلیل ریاضی

د) روش اقتصاد سنجی

ه) روش ارزشیابی اقتصادی

و) … 

تمرکز این نوشتار بر روش های تجزیه و تحلیل سیستمهای اقتصادی اجتماعی و بویژه روش های تحلیل آماری می باشد. 

آمار علم طبقه بندی اطلاعات، علم تصميم گيری های علمی و منطقی، علم برنامه ريزي های دقيق و علم توصيف و بيان آن چيزي است که از مشاهدات می توان فهميد. 

هدف ما آموزش درس آمار نیست زیرا اینگونه مطالب تخصصی را میتوان در مراجع مختلف یافت، هدف اصلی ما ارائه یک روش دستیابی سریع به بهترین روش آماری می باشد. 

يكي از مشكلات عمومی در تحقبقات ميداني انتخاب روش تحلیل آماري مناسب و یا به عبارتی انتخاب آزمون آماری مناسب براي بررسي سوالات يا فرضيات تحقيق مي باشد. 

در آزمون های آماری هدف تعیین این موضوع است که آیا داده های نمونه شواهد کافی برای رد یک حدس یا فرضیه را دارند یا خیر؟

انتخاب نادرست آزمون آماری موجب خدشه دار شدن نتایج تحقیق می شود. 

دکتر غلامرضا جندقی استاد یار دانشگاه تهران در مقاله ای كاربرد انواع آزمون هاي آماري را با توجه به نوع داده ها و وبژگي هاي نمونه آماري و نوع تحليل نشان داده است که در این بخش به نکات کلیدی آن اشاره می شود:

قبل از انتخاب یک آزمون آماری بایستی به سوالات زیر پاسخ داد:

1- چه تعداد متغیر مورد بررسی قرار می گیرد؟

2- چند گروه مفایسه می شوند؟

3- آیا توزیع ویژگی مورد بررسی در جامعه نرمال است؟

4- آیا گروه های مورد بررسی مستقل هستند؟

5- سوال یا فرضیه تحقیق چیست؟

6- آیا داده ها پیوسته، رتبه ای و یا مقوله ای Categorical هستند؟

قبل از ادامه این مبحث لازم است مفهوم چند واژه آماری را یاد آور شوم که زیاد وقت گیر نیست. 

1- جامعه آماری: به مجموعه كاملي از افراد يا اشياء يا اجزاء كه حداقل در يك صفت مورد علاقه مشترك باشند ،گفته می شود.

2- نمونه آماری: نمونه بخشي از يك جامعة آماری تحت بررسي است كه با روشي كه از پيش تعيين شده است انتخاب مي‌شود، به قسمي كه مي‌توان از اين بخش، استنباطهايي دربارة كل جامعه بدست آورد.

3- پارامتر و آماره: پارامتر يك ويژگي جامعه است در حالي كه آماره يك ويژگي نمونه است. براي مثال ميانگين جامعه يك پارامتر است. حال اگر از جامعه نمونه‌گيري كنيم و ميانگين نمونه را بدست آوريم، اين ميانگين يك آماره است.

4- برآورد و آزمون فرض: برآوردیابی و آزمون فرض دو روشی هستند که برای استنباط درمورد پارامترهای مجهول دو جمعیت به کار می روند.

5- متغير: ويژگي يا خاصيت يک فرد، شئ و يا موقعيت است که شامل يک سری از مقادير با دسته بنديهای متناسب است. قد، وزن، گروه خونی و جنس نمونه هايي از متغير هستند. انواع متغير می تواند کمی و کیفی باشد.

6- داده های کمی مانند قد، وزن يا سن درجه بندی مي شوند و به همين دليل قابل اندازه گيری می باشند. داده های کمی نیز خود به دو دسته دیگر تقسیم می شوند:

الف: داده های فاصله ای (Interval data)

ب: داده های نسبتی (Ratio data)

7- داده های فاصله ای: به عنوان مثال داده هایی که متغیر IQ (ضریب هوشی) را در پنج نفر توصیف می کنند عبارتند از: 80، 110، 75، 97 و 117، چون این داده ها عدد هستند پس داده های ما کمی اند اما می دانیم که  IQ نمی تواند صفر باشد و صفر در اینجا فقط مبنایی است تا سایر مقادیر  IQ در فاصله ای منظم از صفر و یکدیگر قرار گیرند پس این داده ها فاصله ای اند.

8- داده های نسبتی: داده های نسبتی داده هایی هستند که با عدد نوشته می شوند اما صفر آنها واقعی است. اکثریت داده های کمی این گونه اند و حقیقتاً دارای صفر هستند. به عنوان مثال داده هایی که متغیر طول پاره خط بر حسب سانتی متر را توصیف می کنند عبارتند از: 20، 15، 35، 8 و 23، چون این داده ها عدد هستند پس داده های ما کمی اند و چون صفر در اینجا واقعاً وجود دارد این داده نسبتی تلقی می شوند.

9- داده های کيفی مانند جنس، گروه خونی يا مليت فقط دارای نوع هستند و قابل بيان با استفاده از واحد خاصی نيستند. داده های کیفی خود به دو دسته دیگر تقسیم می شوند:

الف: داده های اسمی  (Nominal data)

ب: داده های رتبه ای  (Ordinal data)

10- داده های رتبه ای Ordinal: مانند کیفیت درسی یک دانش آموز (ضعیف، متوسط و قوی) و یا رتبه بندی هتل ها ( یک ستاره، دو ستاره و …)

11- داده های اسمی (nominal ) که مربوط به متغير يا خواص کيفی مانند جنس يا گروه خونی است و بيانگر عضويت در يک گروها category  خاص می باشد. (داده مقوله ای)

12- متغیر تصادفی گسسته و پیوسته: به عنوان مثال تعداد تصادفات جاده‌اي در روز يك متغير تصادفي گسسته است ولی انتخاب يك نقطه‌ به تصادف روي دايره‌اي به مركز مبدأ مختصات و شعاع 3 يك متغير تصادفي پيوسته است.

13- گروه: یک متغیر می تواند به لحاظ بررسی یک ویژگی خاص در یک گروه و یا دو و یا بیشتر مورد بررسی قرار گیرد. نکته 1: دو گروه می تواند وابسته و یا مستقل باشد. دو گروه وابسته است اگر ویژگی یک مجموعه افراد قبل و بعد از وقوع یک عامل سنجیده شود. مثلا میزان رضایت شغلی کارکنان قبل و بعد از پرداخت پاداش و همچنین اگر در مطالعات تجربی افراد از نظر برخی ویژگی ها در یک گروه با گروه دیگر همسان شود.

14- جامعه نرمال: جامعه ای است که از توزیع نرمال تبعیت می کند.

15- توزیع نرمال: یکی از مهمترین توزیع ها در نظریه احتمال است. و کاربردهای بسیاری در علوم دارد.

فرمول این توزیع بر حسب دو پارامتر امید ریاضی و واریانس بیان می شود. منحنی رفتار این تابع تا حد زیادی شبیه به زنگ های کلیسا می باشد. این منحنی دارای خواص بسیار جالبی است برای مثال نسبت به محور عمودی متقارن می باشد، نیمی از مساحت زیر منحنی بالای مقدار متوسط و نیمه دیگر در پایین مقدار متوسط قرار دارد و اینکه هرچه از طرفین به مرکز مختصات نزدیک می شویم احتمال وقوع بیشتر می شود.

سطح زیر منحنی نرمال برای مقادیر متفاوت مقدار میانگین و واریانس فراگیری این رفتار آنقدر زیاد است که دانشمندان اغلب برای مدل کردن متغیرهای تصادفی که با رفتار آنها آشنایی ندارند، از این تابع استفاده می کنند. به عنوان  مثال در یک امتحان درسی نمرات دانش آموزان اغلب اطراف میانگین بیشتر می باشد و هر چه به سمت نمرات بالا یا پایین پیش برویم تعداد افرادی که این نمرات را گرفته اند کمتر می شود. این رفتار را بسهولت می توان با یک توزیع نرمال مدل کرد.

اگر یک توزیع نرمال باشد مطابق قضیه چی بی شف 26.68 % مشاهدات در فاصله میانگین، مثبت و منفی یک انحراف معیار قرار دارد. و  44.95 % مشاهدات در فاصله میانگین، مثبت و منفی دو انحراف معیار قرار دارد. و 73.99 % مشاهدات در فاصله میانگین، مثبت و منفی سه انحراف معیار قرار دارد.

نکته 1: واضح است که داده های رتبه ای دارای توزیع نرمال نمی باشند.

نکته 2: وقتی داده ها کمی هستند و تعداد نمونه نیز کم است تشخیص نرمال بودن داده ها توسط آزمون کولموگروف – اسمیرنف مشکل خواهد شد.

 16- آزمون پارامتریک: آزمون هاي پارامتريک، آزمون هاي هستند که توان آماري بالا و قدرت پرداختن به داده  هاي جمع آوري شده در طرح  هاي پيچيده را دارند. در این آزمون ها داده ها توزيع نرمال دارند. (مانند آزمون تی).

17- آزمون هاي غيرپارامتري: آزمون هائی مي باشند که داده ها توزیع غیر نرمال داشته و در مقايسه با آزمون های پارامتري از توان تشخیصی کمتري برخوردارند.  (مانند آزمون من – ویتنی و آزمون کروسکال و والیس)

نکته3: اگر جامعه نرمال باشد از آزمون های پارامتریک و چنانچه غیر نرمال باشد از آزمون های غیر پارامتری استفاده می نمائیم.

نکته 4: اگر نمونه بزرگ باشد، طبق قضیه حد مرکزی جتی اگر جامعه نرمال نباشد می توان از آزمون های پارامتریک استفاده نمود.

حال به کمک جدول زیر براحتی می توانید یکی از 24 آزمون مورد نظر خود را انتخاب کنید:

هدفداده کمی و دارای توزیع نرمالداده رتبه ای و یا داده کمی غیر نرمالداده های کیفی اسمی
Categorical
توصیف یک گروهآزمون میانگین و انحراف معیارآزمون میانهآزمون نسبت
مقایسه یک گروه با یک مقدار فرضیآزمون یک نمونه ایآزمون ویلکاکسونآزمون خی – دو یا آزمون دو جمله ای
مقابسه دو گروه مستقلآزمون برای نمونه های مستقلآزمون من – ویتنیآزمون دقیق فیشر ( آزمون خی دو برای نمونه های بزرگ)
مقایسه دو گروه وابستهآزمون زوجیآزمون کروسکالآزمون مک – نار
مقایسه سه گروه یا بیشتر (مستقل)آزمون آنالیز واریانس یک راههآزمون والیسآزمون خی – دو
مقایسه سه گروه یا بیشتر (وابسته)آزمون آنالیز واریانس با اندازه های مکررآزمون فریدمنآزمون کوکران
اندازه همبستگی بین دو متغیرآزمون ضریب همبستگی پیرسونآزمون ضریب همبستگی اسپرمنآزمون ضریب توافق
پیش بینی یک متغیر بر اساس یک یا چند متغیرآزمون رگرسیون ساده یا غیر خطیآزمون رگرسیون نا پارامتریکآزمون رگرسیون لجستیک

در رویکردی دیگر بر مبنای تعداد متغیر، تعداد گروه و نرمال بودن جامعه نیز می توان به الگوریتم آزمون آماری مورد نظر دست یافت:

یک متغیر:

انتخاب آزمون آماری برای یک متغیریک متغیر در یک گروهیک متغیر در دو گروهیک متغیر در سه گروه یا بیشتر
متغیر نرمالآزمون میانگین و انحراف معیارآزمون تیآزمون آنالیز واریانس ANOVA
متغیر غیر نرمالآزمون نسبت (دو جمله ای)آزمون خی -دوآزمون ناپارامتریک

دو متغیر

انتخاب آزمون آماری برای دو متغیرهر دو متغیر پیوسته هستندیک متغیر پیوسته و دیگری گسسته استهر دو متغیر مقوله ای هستند
 آزمون همبستگیآزمون آنالیز واریانس ANOVAآزمون خی – دو

سه متغیر و بیشتر:

انتخاب آزمون آماری برای سه متغیر و بیشتریک گروهدو گروه و بیشتر
 آنالیز کواریانستحلیل ممیزی
 آنالیز واریانس با اندازه های مکررآنالیز واریانس چند متغیره
 تحلیل عاملیورگرسیون چند گانه 

قابل ذکر است قبل از ورود به الگوریتم انتخاب آزمون آماری بهتر است به سوالات زیر پاسخ دهیم:

1- آیا اختلافی بین میانگین (نسبت) یک ویژگی در دو یا چند گروه وجود دارد؟

2- آیا دو متغیر ارتباط دارند؟

3- چگونه می توان یک متغیر را با استفاده از متغیر های دیگر پیش بینی کرد؟

4- چه چیزی می توان با استفاده از نمونه در مورد جامعه گفت؟

پس از انتخاب آزمون آماری مناسب حال می توان با هر یک از آزمون ها به صورت تخصصی برخورد کرد: 

آزمون كي دو (خي دو يا مربع كاي) 

اين آزمون از نوع ناپارامتري است و براي ارزيابي همقوارگي متغيرهاي اسمي به كار مي‌رود. اين آزمون تنها راه حل موجود براي آزمون همقوارگي در مورد متغيرهاي مقياس اسمي با بيش از دو مقوله است، بنابراين كاربرد خيلي زيادتري نسبت به آزمونهاي ديگر دارد. اين آزمون نسبت به حجم نمونه حساس است.

آزمون  z  –  آزمون خطاي استاندارد ميانگين 

اين آزمون براي ارزيابي ميزان همقوارگي يا يكسان بودن و يكسان نبودن (Goodness of fit) ميانگين نمونه اي و ميانگين جامعه به كار مي رود. اين آزمون مواقعي به كار مي رود كه مي خواهيم بدانيم آيا ميانگين برآورد شده نمونه اي با ميانگين جامعه جور مي آيد يا نه.  اگر این تفاوت کم باشد، اين تفاوت معلول تغيير پذيري نمونه اي شناخته مي شود، ولي اگر زياد باشد نتيجه گرفته مي شود كه برآورد نمونه اي با پارامتر جامعه يكسان (همقواره) نيست.  اين آزمون پارامتري است يعني استفاده از آن مشروط به آن است كه دو پارامتر جامعه كه میانگین و انحراف معیار معلوم باشند. همچنين براي آزمون متغيرهاي پيوسته (مقياس فاصله اي) كاربرد دارد. تعداد نمونه بزرگتر  و يا مساوي 30  باشد و نيز توزيع متغير در جامعه نرمال باشد.

آزمون استيودنت t

اين آزمون براي ارزيابي ميزان همقوارگي يا يكسان بودن و نبودن ميانگين نمونه اي با ميانگين جامعه در حالتي به كار مي رود كه انحراف معيار جامعه مجهول باشد. چون توزيع t  در مورد نمونه هاي كوچك (کمتر از 30) با استفاده از درجات آزادي تعديل مي‌شود، مي‌توان از اين آزمون براي نمونه هاي بسيار كوچك استفاده نمود. همچنين اين آزمون مواقعي كه خطاي استاندارد جامعه نامعلوم و خطاي استاندارد نمونه معلوم باشد، كاربرد دارد.  

براي به كاربردن اين آزمون، متغير مورد مطالعه بايد در مقياس فاصله اي باشد، شكل توزيع آن نرمال و تعداد نمونه کمتر از 30 باشد.

آزمون t در حالتهاي زير كاربرد دارد:

– مقايسه يك عدد فرضي با ميانگين جامعه نمونه

– مقايسه ميانگين دو جامعه

– مقايسه يك نسبت فرضي با يك نسبتي كه از نمونه بدست آمده

– مقايسه دو نسبت از دو جامعه

آزمون F

اين آزمون تعميم يافته آزمون t است و براي ارزيابي يكسان بودن يا يكسان نبودن دو جامعه و يا چند جامعه به كار برده مي‌شود. در اين آزمون واريانس كل جامعه به عوامل اوليه آن تجزيه مي‌شود. به همين دليل به آن آزمون آناليز واريانس (ANOVA) نيز مي‌گويند. 

وقتي بخواهيم بجاي دو جامعه، همقوارگي چند جامعه را تواما با هم مقايسه نماييم از اين آزمون استفاده مي‌شود، چون مقايسه ميانگين هاي چند جامعه با آزمون t  بسيار مشكل است.  مقايسه ميانگين ها و همقوارگي چند جامعه بوسيله اين آزمون (F   يا ANOVA) راحت تر از آزمون t  امكان پذير است.   

آزمون كوكران 

آزمون كوكران تعميم يافته آزمون مك نمار است. اين آزمون براي مقايسه بيش از دو گروه كه وابسته باشند و مقياس آنها اسمي يا رتبه اي باشند به كار مي‌رود و همچون آزمون مك نمار، جوابها بايد دوتايي باشند. 

براي آزمون تغييرات يك نمونه در زمان ها و يا موقعيت هاي مختلف (مثل آراء راي دهندگان قبل از انتخابات در زمانهاي مختلف) به كار مي‌رود. مقياس مي‌تواند اسمي يا رتبه اي باشد. به جاي چند سوال مي‌توان يك سوال را در موقعيت هاي مختلف ارزيابي نمود. همه افراد بايد به همه سوالات پاسخ گفته باشند. چون پاسخ ها دو جوابي است، در بعضي از انواع تحقيقات ممكن است اطلاعات بدست آمده از دست برود و بهتر است از رتبه بندي استفاده كرد كه در اين صورت «آزمون ويلكاكسون» بهتر جوابگو خواهد بود. 

در صورت كوچك بودن نمونه ها آزمون كوكران مناسب نيست و بهتر است از «آزمون فريد من» استفاده شود.

آزمون فريدمن 

اين آزمون براي مقايسه چند گروه از نظر ميانگين رتبه هاي آنهاست و معلوم مي‌كند كه آيا اين گروه ها مي‌توانند از يك جامعه باشند يا نه؟

مقياس در اين آزمون بايد حداقل رتبه اي باشد. اين آزمون متناظر غير پارامتري آزمون F است و معمولا در مقياس هاي رتبه اي به جاي F به كار مي‌رود و جانشين آن مي‌شود (چون در F بايد همگني واريانس ها وجود داشته باشد كه در مقياسهاي رتبه اي كمتر رعايت مي‌شود). 

آزمون فريدمن براي تجريه واريانس دو طرفه (براي داده هاي غير پارامتري) از طريق رتبه بندي به كار مي‌رود و نيز براي مقايسه ميانگين رتبه بندي گروه هاي مختلف. تعداد افراد در نمونه ها بايد يكسان باشند كه اين از معايب اين آزمون است. نمونه ها بايد همگي جور شده باشند.

آزمون كالماگورف- اسميرانف 

اين آزمون از نوع ناپارامتري است و براي ارزيابي همقوارگي متغيرهاي رتبه اي در دو نمونه (مستقل و يا غير مستقل) و يا همقوارگي توزيع يك نمونه با توزيعي كه براي جامعه فرض شده است، به كار مي‌رود (اسميرانف يك نمونه اي). اين آزمون در مواردي به كار مي‌رود كه متغيرها رتبه اي باشند و توزيع متغير رتبه اي را در جامعه بتوان مشخص نمود. اين آزمون از طريق مقايسه توزيع فراواني هاي نسبي مشاهده شده در نمونه  با توزيع فراواني هاي نسبي جامعه  انجام مي‌گيرد. اين آزمون ناپارامتري است و بدون توزيع است اما بايد توزيع متغير در جامعه براي هر يك از رتبه هاي مقياس رتبه اي در جامعه بطور نسبي در نظر گرفته شود كه آنرا نسبت مورد انتظار مي نامند.

آزمون كالماگورف- اسميرانف دو نمونه اي Two- Sample Kalmogorov- Smiranov Test 

اين آزمون در مواقعي به كار مي‌رود كه دو نمونه داشته باشيم (با شرايط مربوط به اين آزمون كه قبلا گفته شد) و بخواهيم همقوارگي بين آن دو نمونه را با هم مقايسه كنيم.

آزمون كروسكال- واليس

اين آزمون متناظر غير پارامتري آزمون F  است و همچون آزمون F ، موقعي به كار برده مي‌شود كه تعداد گروه ها بيش از 2 باشد. مقياس اندازه گيري در كروسكال واليس حداقل بايد ترتيبي باشد.

اين آزمون براي مقايسه ميانگين هاي بيش از 2 نمونه رتبه اي (و يا فاصله اي) بكار مي‌رود. فرضيات در اين آزمون بدون جهت است يعني فقط تفاوت را نشان مي‌دهد و جهت بزرگتر يا كوچكتر بودن گروه ها را از نظر ميانگين هايشان نشان نمي دهد. كارايي اين آزمون 95 درصد آزمون F است.

آزمون مك نمار

اين آزمون از آزمونهاي ناپارامتري است كه براي ارزيابي همانندي دو نمونه وابسته بر حسب  متغير دو جوابي استفاده مي‌شود. متغيرها مي‌توانند داراي مقياس هاي اسمي و يا رتبه اي باشند. اين آزمون در طرح هاي ماقبل و مابعد مي‌تواند مورد استفاده قرار گيرد (يك نمونه در دو موقعيت مختلف). اين آزمون مخصوصا براي سنجش ميزان تاثير عملكرد تدابير به كار مي‌رود.

ويژگي ها: اگر متغيرها اسمي باشند، اين آزمون بي بديل است اما اگر رتبه اي باشد مي‌توان از آزمون t نيز استفاده كرد (در صورت وجود شرايط آزمون t) ، و يا آزمون ويلكاكسون استفاده نمود. از عيوب اين آزمون اين است كه جهت و اندازه تغييرات را محاسبه نمي‌كند و فقط وجود تغييرات را در نمونه ها در نظر مي‌گيرد.  

آزمون ميانه

اين آزمون همتاي ناپارامتري آزمون هاي t – Z – F  است و وقتي دو يا چند گروه از ميان دو يا چند جامعه مستقل با توزيع هاي يكسان انتخاب شده اند به كار برده مي‌شود. در اين آزمون مقياس اندازه گيري ترتيبي است و بين داده ها نبايد همرتبه وجود داشته باشد. اين آزمون، هم براي گروه هاي مستقل و هم وابسته كاربرد دارد و لزومي ندارد كه حتما حجم گروه هاي نمونه با يكديگر برابر باشند.

آزمون تك نمونه اي دورها 

اين آزمون مواقعي به كار مي‌رود كه توالي مقادير متغيرها را بخواهيم آزمون نماييم كه آيا تصادفي بوده و يا نه. در واقع آزمون كي دو و يا آزمون هاي ديگر كه در آنها توالي متغيرها بي اهميت است، در اين آزمون مهم و اصل انگاشته مي‌شود. به عبارت ديگر، براي اينكه بتوانيم در يك نمونه كه در آن رويدادهاي مختلف از طرف فرد و يا واحد آماري رخ داده است، آزمون نماييم كه آيا اين رويدادها تصادفي است يا نه، به كار برده مي‌شود. هيچ آزمون ديگري همچون اين آزمون نمي تواند توالي را مورد نظر قرار دهد. بنابراين براي اين منظور منحصر به فرد مي‌باشد.

آزمون علامت

اين آزمون از انواع آزمونهاي غير پارامتري است و هنگامي به كار برده مي‌شود كه نمونه هاي جفت، مورد نظر باشد (مثل زن و شوهر و يا خانه هاي فرد و زوج و . . . ). زيرا در اين آزمون يافته‌ها به صورت جفت جفت بررسي مي‌شوند و اندازه مقادير در آن بي اثر است و فقط علامت مثبت و منفي و يا در واقع جهت پاسخ ها و يا بيشتر و كمتر بودن پاسخ هاي جفت‌هاي گروه مورد تحقيق (نمونه آماري) در نظر گرفته مي‌شود. 

هنگامي كه ارزشيابي متغير مورد مطالعه با روشهاي عادي قابل اندازه گيري نباشد و قضاوت در مورد نمونه هاي آماري (كه به صورت جفت ها هستند) فقط با علامت بيشتر (+) و كمتر (-) مورد نظر باشد ، از اين آزمون مي‌توان استفاده كرد. شكل توزيع مي‌تواند نرمال و يا غير نرمال باشد و يا از يك جامعه و يا دو جامعه باشند (مستقل و يا وابسته). توزيع بايد پيوسته باشد. اين آزمون فقط تفاوت هاي زوجها را مورد بررسي قرار مي‌دهد و در صورت مساوي بودن نظرات هر زوج (مشابه بودن) آنها را از آزمون حذف مي‌كند. چون مقادير در اين آزمون نقشي ندارند، شدت و ضعف و اندازه بيشتر يا كمتر بودن نظرات پاسخگويان (جفت ها) در اين آزمون بي اثر است و در واقع نقص اين آزمون حساب مي‌شود.

آزمون تي هتلينگ (T)

آزمون T هتلينگ تعميم يافته t استيودنت است. در آزمون t يك نمونه اي، ميانگين يك صفت از يك نمونه، با يك عدد فرضي كه ميانگين آن صفت از جامعه فرض مي‌شد، مورد مقايسه قرار مي‌گرفت، اما در T  هتلينگ K متغير (صفت) از آن جامعه (نمونه هاي جامعه) با k  عدد فرضي، مورد مقايسه قرار مي‌گيرند. در واقع اين آزمون از نوع آزمونهاي چند متغيره است كه همقوارگي (Goodness of fit) را بين صفت هاي مختلف از جامعه بدست مي‌دهد. در T  هتلينگ دو نمونه اي نيز همچون T استيودنت دو نمونه اي، مقايسه دو نمونه است اما در اين آزمون K صفت از يك جامعه (نمونه) با K صفت از جامعه ديگر (نمونه ديگر) مورد مقايسه قرار مي‌گيرد.  

آزمون مان وايتني U  

هر گاه دو نمونه مستقل از جامعه اي مفروض باشد و متغيرهاي آنها به صورت ترتيبي باشند، از اين آزمون استفاده مي‌شود. اين آزمون مشابه t استيودنت با دو نمونه مستقل است و آزمون ناپارامتري آن محسوب مي‌شود. 

هرگاه شرايط استفاده از آزمونهاي پارامتري در متغيرها موجود نباشد، يعني متغيرها پيوسته و نرمال نباشند از اين آزمون استفاده مي‌شود. دو نمونه بايد مستقل بوده و هر دو كوچكتر از 10 مورد باشند. در صورت بزرگتر بودن از 10 مورد بايد از آماره هاي ‌‌Z  استفاده كرد (در محاسبات كامپيوتري، تبديل به Z  به طور خودكار انجام مي‌شود). در اين آزمون شكل توزيع، پيش فرضي ندارد يعني مي‌تواند نرمال و يا غير نرمال باشد.  

آزمون ويلكاكسون  

اين آزمون از آزمونهاي ناپارامتري است كه براي ارزيابي همانندي دو نمونه وابسته با مقياس رتبه اي به كار مي‌رود. همچون آزمون مك نمار، اين آزمون نيز مناسب طرح هاي ماقبل و مابعد است (يك نمونه در دو موقعيت مختلف)، و يا دو نمونه كه از يك جامعه باشند. اين آزمون اندازه تفاوت ميان رتبه ها را در نظر مي‌گيرد بنابراين متغيرها مي‌توانند داراي جوابهاي متفاوت و يا فاصله اي باشند. اين آزمون متناظر با آزمون t دو نمونه اي وابسته است و در صورت وجود نداشتن شرايط آزمون t جانشين خوبي براي آن است. نمونه هاي به كار برده شده در اين آزمون بايد نسبت به ساير صفت هايشان جور شده (جفت شده) باشند.   

آزمون لون Levene

آزمون لون همگنی واریانس ها را در نمونه های متفاوت بررسی می نماید. به عبارتی فرض تساوی متغیر وابسته را برای گروه هائی که توسط عامل رسته ای تعیین شده اند، آزمون می کند و نسبت به اکثر آزمونها کمتر به فرض نرمال بودن وابسته بوده و در واقع به انحراف نرمال مقاوم است.

این آزمون به منظور بررسی برابری واریانس جمعیت آماری در نمونه‌های مختلف انجام می‌شود. فرض صفر در اینجا این است که واریانس‌ها همگن هستند، یعنی واریانس جمعیت‌ها با یکدیگر برابر هستند. اگر مقدار P-VALUE در اماره لون کمتر از 0.05 باشد، تفاوت بدست آمده در واریانس نمونه به‌طور بعید اتفاق افتاده است و بنابراین فرض صفر که برابری واریانس‌هاست رد می‌شود و نتیجه می‌گیریم که بین واریانس‌ها در نمونه تفاوت وجود دارد.

برگرفته از وبلاگ : آقای منوچهری

تحلیل داده های آماری

تفاوت پارامتر و آماره

پارامتر و آماره

پارامتر و آماره (Parameter & Statistics)، برای تخمین یک مقدار مجهول استفاده می شوند، پارامتر مقدار مجهول جامعه و آماره مقدار مجهول نمونه را مشخص می کند.

هدف تحقیق کمی، درک ویژگی های جمعیتها از طریق یافتن پارامترها است. در عمل، جمع‌آوری داده‌ها از هر یک از اعضای یک جمعیت اغلب بسیار دشوار، زمان‌بر یا غیرممکن است. در عوض، داده ها از نمونه ها جمع آوری می شود.

با آمار استنباطی، می‌توانیم از آمار نمونه‌ای برای حدس‌های آموزشی در مورد پارامترهای جمعیت استفاده کنیم.

ویژگی پارامتر و آماره

پارامتر و آماره ها اعدادی هستند که هر ویژگی قابل اندازه گیری یک نمونه یا یک جامعه را خلاصه می کنند. برای متغیرهای طبقه بندی شده (به عنوان مثال، وابستگی سیاسی)، رایج ترین آمار یا پارامتر یک نسبت است. برای متغیرهای عددی (به عنوان مثال، ارتفاع)، آمار توصیفی مانند میانگین یا انحراف استاندارد معمولاً آماره یا پارامترهای گزارش شده هستند.

در گزارش های خبری و تحقیقاتی، همیشه مشخص نیست که یک عدد یک پارامتر است یا یک آماره. برای اینکه بفهمید با کدام نوع شماره سروکار دارید، موارد زیر را از خود بپرسید:
آیا این عدد یک جمعیت کامل و کامل را توصیف می کند که می توان برای جمع آوری داده به هر عضو دسترسی داشت؟
آیا می توان در یک بازه زمانی معقول اطلاعات مربوط به این ویژگی را از هر یک از اعضای جمعیت جمع آوری کرد؟
اگر پاسخ هر دو سوال مثبت است، احتمالاً عدد یک پارامتر است. برای جمعیت های کوچک براساس نمونه گیری، داده ها را می توان از کل جمعیت جمع آوری کرد و در پارامترها خلاصه کرد.
اگر پاسخ به هر یک از سؤالات منفی باشد، احتمالاً این عدد یک آماره است. نمونه‌گیری برای جمع‌آوری داده‌ها از جمعیت‌های بزرگ و تعمیم آمار به جامعه گسترده‌تر به روشی معتبر خارجی استفاده می‌شود.

به خاطر سپردن پارامتر و آماره آسان است! هر دو مقادیر خلاصه ای هستند که یک گروه را توصیف می کنند، و یک دستگاه یادگاری مفید برای به خاطر سپردن این که هر گروه کدام گروه را توصیف می کند وجود دارد. فقط روی حرف اول آنها تمرکز کنید:

پارامتر = جمعیت
آماره = نمونه
جمعیت کل گروهی از افراد، اشیاء، حیوانات، معاملات و غیره است که شما در حال مطالعه آنها هستید. نمونه بخشی از جامعه است.

تفاوت جمعیت و نمونه

در تحقیق، یک جمعیت کل گروهی است که شما علاقه مند به مطالعه آن هستید. این ممکن است گروهی از افراد باشد (به عنوان مثال، همه بزرگسالان در ایالات متحده یا همه کارکنان یک شرکت)، اما می‌تواند به معنای گروهی باشد که شامل انواع دیگری از عناصر است: اشیا، رویدادها، سازمان‌ها، کشورها، گونه‌ها، ارگانیسم‌ها و غیره.
نمونه، گروه کوچکتری است که از جامعه گرفته شده است. نمونه گروهی از عناصر است که شما در واقع از آنها داده ها را جمع آوری خواهید کرد

محاسبه پارامتر و آماره

محققان معمولا بیشتر به درک پارامترهای جمعیت علاقه مند هستند. به هر حال، درک خواص یک نمونه نسبتا کوچک به خودی خود ارزشمند نیست. به عنوان مثال، دانشمندان به تأثیر متوسط یک داروی جدید فقط بر تعداد کمی از افراد اهمیت نمی دهند، که یک آمار نمونه است. در عوض، آنها می‌خواهند تأثیر میانگین آن را در کل جمعیت، یک پارامتر، درک کنند.
متأسفانه، اندازه گیری کل جمعیت برای محاسبه دقیق پارامتر آن معمولاً غیرممکن است زیرا آنها بسیار بزرگ هستند. بنابراین، ما در استفاده از نمونه ها و آمار آنها گیر کرده ایم. خوشبختانه با آمار استنباطی، تحلیلگران می توانند از آمار نمونه برای تخمین پارامترهای جمعیت استفاده کنند که به پیشرفت علم کمک می کند.
به طور کلی در بررسی پارامتر و آماره، استفاده از آماره نمونه برای تخمین پارامتر جمعیت، فرآیندی است که با استفاده از روش نمونه گیری شروع می شود که تمایل به تولید نمونه های معرف دارد – نمونه ای با ویژگی های مشابه جامعه. دانشمندان اغلب از نمونه گیری تصادفی استفاده می کنند. سپس تحلیلگران می‌توانند از تحلیل‌های آماری مختلفی که خطای نمونه‌گیری را محاسبه می‌کنند برای تخمین پارامتر جمعیت استفاده کنند. این فرآیند به استنتاج آماری معروف است.

با استفاده از آمار استنباطی، می توانید پارامترهای جمعیت را از آماره نمونه تخمین بزنید. برای تخمین های بی طرفانه، نمونه شما در حالت ایده آل باید نماینده جمعیت شما باشد و/یا به طور تصادفی انتخاب شود.
دو نوع تخمین مهم وجود دارد که می توانید در مورد پارامتر جمعیت انجام دهید: تخمین نقطه ای و تخمین فاصله.
تخمین نقطه ای یک تخمین مقدار واحد از یک پارامتر بر اساس یک آمار است. به عنوان مثال، میانگین نمونه، تخمین نقطه ای از میانگین جمعیت است.
تخمین بازه ای محدوده ای از مقادیر را به شما می دهد که انتظار می رود پارامتر در آن قرار داشته باشد. فاصله اطمینان رایج ترین نوع تخمین فاصله است.
هر دو نوع تخمین برای جمع آوری یک ایده واضح از جایی که یک پارامتر احتمالاً در آن قرار دارد، مهم هستند.

مثال برآورد پارامتر و آماره

مثال مرتبط در تخمین پارامتر و آماره این است: در مطالعه خود در مورد حمایت از مجازات اعدام در میان ساکنان ایالات متحده، متوجه می شوید که ۶۱٪ از شرکت کنندگان در نمونه شما از مجازات اعدام حمایت می کنند. برای تخمین پارامتر جمعیت، یک تخمین نقطه ای و یک تخمین فاصله ای را از آمار نمونه خود محاسبه می کنید.
تخمین امتیاز شما آماره نمونه شماست – شما تخمین می زنید که ۶۱ درصد از تمام ساکنان ایالات متحده از مجازات اعدام حمایت می کنند.

برای یافتن تخمین بازه، یک بازه اطمینان ۹۵% ایجاد می‌کنید که به شما می‌گوید انتظار می‌رود پارامتر جمعیت در بیشتر مواقع در کجا قرار داشته باشد. با نمونه گیری تصادفی، احتمال ۰.۹۵ وجود دارد که پارامتر جمعیتی واقعی برای حمایت از مجازات اعدام در میان ساکنان ایالات متحده بین ۵۷٪ تا ۶۵٪ است.

پارامتر و آماره

انجام پژوهش کیفی
انجام پژوهش کیفی.jpg

منبع

www.scribbr.com/statistics

مفاهیم اساسی در آمار

مفاهیم اساسی در آمار

آمار در دو شاخه آمار توصیفی و احتمالات و آمار استنباطی بحث و بررسی می شود. احتمالات و تئوریهای احتمال اساسا از دایره بحث ما خارج است. همچنین آمار توصیفی مانند فراوانی، میانگین، واریانس و … نیز مفروض در نظر گرفته شده اند.

۱- آمار استنباطی و آمار توصیفی

در یک پژوهش جهت بررسی و توصیف ویژگیهای عمومی پاسخ دهندگان از روش های موجود در آمار توصیفی مانند جداول توزیع فراوانی، در صد فراوانی، درصد فراوانی تجمعی و میانگین استفاده میگردد. بنابراین هدف آمار توصیفی یا descriptive محاسبه پارامترهای جامعه با استفاده از سرشماری تمامی عناصر جامعه است.

در آمار استنباطی یا inferential پژوهشگر با استفاده مقادیر نمونه آماره ها را محاسبه کرده و سپس با کمک تخمین و یا آزمون فرض آماری، آماره ها را به پارامترهای جامعه تعمیم می دهد.برای تجزیه و تحلیل داده ها و آزمون فرضیه های پژوهش از روش های آمار استنباطی استفاده می شود.

پارامتر شاخص بدست آمده از جامعه آماری با استفاده از سرشماری است و شاخص بدست آمده از یک نمونه n تائی از جامعه آماره نامیده می شود. برای مثال میانگین جامعه یا µ یک پارامتر مهم جامعه است. چون میانگین جامعه همیشه در دسترس نیست به همین خاطر از میانگین نمونه یا که آماره برآورد کننده پارامتر µ است در بسیاری موارد استفاده می شود.

۲- آزمون آماری و تخمین آماری

در یک مقاله پژوهشی یا یک پایان نامه باید سوال پژوهش یا فرضیه پژوهش مطرح شود. اگر تحقیق از نوع سوالی و صرفا حاوی پرسش درباره پارامتر باشد، برای پاسخ به سوالات از تخمین آماری استفاده می شود و اگر حاوی فرضیه ها بوده و از مرحله سوال گذر کرده باشد، آزمون فرضیه ها و فنون آماری آن به کار می رود.

هر نوع تخمین یا آزمون فرض آماری با تعیین صحیح آماره پژوهش شروع می شود. سپس باید توزیع آماره مشخص شود. براساس توزیع آماره آزمون با استفاده از داده های بدست آمده از نمونه محاسبه شده آماره آزمون محاسبه می شود. سپس مقدار بحرانی با توجه به سطح خطا و نوع توزیع از جداول مندرج در پیوست های کتاب آماری محاسبه می شود. در نهایت با مقایسه آماره محاسبه شده و مقدار بحرانی سوال یا فرضیه تحقیق بررسی و نتایج تحلیل می شود. در ادامه این بحث موشکافی می شود.

۳- آزمون های آماری پارامتریک و ناپارامتریک

آمار پارامتریک مستلزم پیش فرضهائی در مورد جامعه ای که از آن نمونه گیری صورت گرفته می باشد. به عنوان مهمترین پیش فرض در آمار پارامترک فرض می شود که توزیع جامعه نرمال است اما آمار ناپارامتریک مستلزم هیچگونه فرضی در مورد توزیع نیست. به همین خاطر بسیاری از تحقیقات علوم انسانی که با مقیاس های کیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک استفاده می کنند.

فنون آمار پارامتریک شدیداً تحت تاثیر مقیاس سنجش متغیرها و توزیع آماری جامعه است. اگر متغیرها از نوع اسمی و ترتیبی بوده حتما از روشهای ناپارامتریک استفاده می شود. اگر متغیرها از نوع فاصله ای و نسبی باشند در صورتیکه فرض شود توزیع آماری جامعه نرمال یا بهنجار است از روشهای پارامتریک استفاده می شود در غیراینصورت از روشهای ناپارامتریک استفاده می شود.

۳- خلاصه آزمونهای پارامتریک

آزمون t تک نمونه : برای آزمون فرض پیرامون میانگین یک جامعه استفاده می شود. در بیشتر پژوهش هائی که با مقیاس لیکرت انجام می شوند جهت بررسی فرضیه های پژوهش و تحلیل سوالات تخصصی مربوط به آنها از این آزمون استفاده می شود.

آزمون t وابسته : برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می شود. برای مثال اختلاف میانگین رضایت کارکنان یک سازمان قبل و بعد از تغییر مدیریت یا زمانی که نمرات یک کلاس با پیش آزمون و پس آزمون سنجش می شود.

آزمون t دو نمونه مستقل: جهت مقایسه میانگین دو جامعه استفاده می شود. در آزمون t برای دو نمونه مستقل فرض می شود واریانس دو جامعه برابر است. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه های پژوهش استفاده میشود.

آزمون t ولچ: این آزمون نیز مانند آزمون t دو نمونه جهت مقایسه میانگین دو جامعه استفاده می شود. در آزمون t ولچ فرض می شود واریانس دو جامعه برابر نیست. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه های پژوهش استفاده میشود.

آزمون t هتلینگ : برای مقایسه چند میانگین از دو جامعه استفاده می شود. یعنی دو جامعه براساس میانگین چندین صفت مقایسه شوند.

تحلیل واریانس (ANOVA): از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می شود. برای نمونه جهت بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس سن یا تحصیلات در خصوص هر یک از فرضیه های پژوهش استفاده می شود.

تحلیل واریانس چندعاملی (MANOVA): از این آزمون به منظور بررسی اختلاف چند میانگین از چند جامعه آماری استفاده می شود.

تحلیل کوواریانس چندعاملی (MANCOVA): چنانچه در MANOVA بخواهیم اثر یک یا چند متغیر کمکی را حذف کنیم استفاده می شود.

۵-  خلاصه آزمونهای ناپارامتریک

آزمون علامت تک نمونه : برای آزمون فرض پیرامون میانگین یک جامعه استفاده می شود.

آزمون علامت زوجی : برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می شود.

ویلکاکسون : همان آزمون علامت زوجی است که در آن اختلاف نسبی تفاوت از میانگین لحاظ می شود.

من-ویتنی: به آزمون U نیز موسوم است و جهت مقایسه میانگین دو جامعه استفاده می شود.

کروسکال-والیس: از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می شود. به آزمون H نیز موسوم است و تعمیم آزمون U مان-ویتنی می باشد. آزمون کروسکال-والیس معادل روش پارامتریک آنالیز واریانس تک عاملی است.

فریدمن: این آزمون معادل روش پارامتریک آنالیز واریانس دو عاملی است که در آن k تیمار به صورت تصادفی به n بلوک تخصیص داده شده اند.

کولموگروف-اسمیرنف : نوعی آزمون نیکوئی برازش برای مقایسه یک توزیع نظری با توزیع مشاهده شده است.

آزمون تقارن توزیع : در این آزمون شکل توزیع مورد سوال قرار می گیرد. فرض بدیل آن است که توزیع متقارن نیست.

آزمون میانه : جهت مقایسه میانه دو جامعه استفاده می شود و برای k جامعه نیز قابل تعمیم است.

مک نمار : برای بررسی مشاهدات زوجی درباره متغیرهای دو ارزشی استفاده می شود.

آزمون Q کوکران: تعمیم آزمون مک نمار در k نمونه وابسته است.

ضریب همبستگی اسپیرمن: برای محاسبه همبستگی دو مجموعه داده که به صورت ترتیبی قرار دارند استفاده می شود.

منبع: http://spss-amar.vcp.ir

کدام آزمون آماری برای تحقیق ما مناسب است؟

کاشانی ۱۱:۰۷ ق.ظ ۰

شاخه های مختلف علوم برای تجزیه و تحلیل داده ها از روش های مختلفی مانند روش های ذیل استفاده می نمایند:

الف) روش تحلیل محتوا

ب) روش تحلیل آماری

ج) روش تحلیل ریاضی

د) روش اقتصاد سنجی

ه) روش ارزشیابی اقتصادی

و) …

تمرکز این نوشتار بر روش های تجزیه و تحلیل سیستمهای اقتصادی اجتماعی و بویژه روش های تحلیل آماری می باشد.

آمار علم طبقه بندی اطلاعات، علم تصمیم گیری های علمی و منطقی، علم برنامه ریزی های دقیق و علم توصیف و بیان آن چیزی است که از مشاهدات می توان فهمید.

هدف ما آموزش درس آمار نیست زیرا اینگونه مطالب تخصصی را میتوان در مراجع مختلف یافت، هدف اصلی ما ارائه یک روش دستیابی سریع به بهترین روش آماری می باشد.

یکی از مشکلات عمومی در تحقبقات میدانی انتخاب روش تحلیل آماری مناسب و یا به عبارتی انتخاب آزمون آماری مناسب برای بررسی سوالات یا فرضیات تحقیق می باشد.

در آزمون های آماری هدف تعیین این موضوع است که آیا داده های نمونه شواهد کافی برای رد یک حدس یا فرضیه را دارند یا خیر؟

انتخاب نادرست آزمون آماری موجب خدشه دار شدن نتایج تحقیق می شود.

دکتر غلامرضا جندقی استاد یار دانشگاه تهران در مقاله ای کاربرد انواع آزمون های آماری را با توجه به نوع داده ها و وبژگی های نمونه آماری و نوع تحلیل نشان داده است که در این بخش به نکات کلیدی آن اشاره می شود:

قبل از انتخاب یک آزمون آماری بایستی به سوالات زیر پاسخ داد:

۱- چه تعداد متغیر مورد بررسی قرار می گیرد؟

۲- چند گروه مفایسه می شوند؟

۳- آیا توزیع ویژگی مورد بررسی در جامعه نرمال است؟

۴- آیا گروه های مورد بررسی مستقل هستند؟

۵- سوال یا فرضیه تحقیق چیست؟

۶- آیا داده ها پیوسته، رتبه ای و یا مقوله ای Categorical هستند؟

قبل از ادامه این مبحث لازم است مفهوم چند واژه آماری را یاد آور شوم که زیاد وقت گیر نیست.

۱- جامعه آماری: به مجموعه کاملی از افراد یا اشیاء یا اجزاء که حداقل در یک صفت مورد علاقه مشترک باشند ،گفته می شود.

۲- نمونه آماری: نمونه بخشی از یک جامعة آماری تحت بررسی است که با روشی که از پیش تعیین شده است انتخاب می‌شود، به قسمی که می‌توان از این بخش، استنباطهایی دربارة کل جامعه بدست آورد.

۳- پارامتر و آماره: پارامتر یک ویژگی جامعه است در حالی که آماره یک ویژگی نمونه است. برای مثال میانگین جامعه یک پارامتر است. حال اگر از جامعه نمونه‌گیری کنیم و میانگین نمونه را بدست آوریم، این میانگین یک آماره است.

۴- برآورد و آزمون فرض: برآوردیابی و آزمون فرض دو روشی هستند که برای استنباط درمورد پارامترهای مجهول دو جمعیت به کار می روند.

۵- متغیر: ویژگی یا خاصیت یک فرد، شئ و یا موقعیت است که شامل یک سری از مقادیر با دسته بندیهای متناسب است. قد، وزن، گروه خونی و جنس نمونه هایی از متغیر هستند. انواع متغیر می تواند کمی و کیفی باشد.

۶- داده های کمی مانند قد، وزن یا سن درجه بندی می شوند و به همین دلیل قابل اندازه گیری می باشند. داده های کمی نیز خود به دو دسته دیگر تقسیم می شوند:

الف: داده های فاصله ای (Interval data)

ب: داده های نسبتی (Ratio data)

7- داده های فاصله ای: به عنوان مثال داده هایی که متغیر IQ (ضریب هوشی) را در پنج نفر توصیف می کنند عبارتند از: ۸۰، ۱۱۰، ۷۵، ۹۷ و ۱۱۷، چون این داده ها عدد هستند پس داده های ما کمی اند اما می دانیم که  IQ نمی تواند صفر باشد و صفر در اینجا فقط مبنایی است تا سایر مقادیر  IQ در فاصله ای منظم از صفر و یکدیگر قرار گیرند پس این داده ها فاصله ای اند.

۸- داده های نسبتی: داده های نسبتی داده هایی هستند که با عدد نوشته می شوند اما صفر آنها واقعی است. اکثریت داده های کمی این گونه اند و حقیقتاً دارای صفر هستند. به عنوان مثال داده هایی که متغیر طول پاره خط بر حسب سانتی متر را توصیف می کنند عبارتند از: ۲۰، ۱۵، ۳۵، ۸ و ۲۳، چون این داده ها عدد هستند پس داده های ما کمی اند و چون صفر در اینجا واقعاً وجود دارد این داده نسبتی تلقی می شوند.

۹- داده های کیفی مانند جنس، گروه خونی یا ملیت فقط دارای نوع هستند و قابل بیان با استفاده از واحد خاصی نیستند. داده های کیفی خود به دو دسته دیگر تقسیم می شوند:

الف: داده های اسمی  (Nominal data)

ب: داده های رتبه ای  (Ordinal data)

10- داده های رتبه ای Ordinal: مانند کیفیت درسی یک دانش آموز (ضعیف، متوسط و قوی) و یا رتبه بندی هتل ها ( یک ستاره، دو ستاره و …)

۱۱- داده های اسمی (nominal ) که مربوط به متغیر یا خواص کیفی مانند جنس یا گروه خونی است و بیانگر عضویت در یک گروها category  خاص می باشد. (داده مقوله ای)

۱۲- متغیر تصادفی گسسته و پیوسته: به عنوان مثال تعداد تصادفات جاده‌ای در روز یک متغیر تصادفی گسسته است ولی انتخاب یک نقطه‌ به تصادف روی دایره‌ای به مرکز مبدأ مختصات و شعاع ۳ یک متغیر تصادفی پیوسته است.

۱۳- گروه: یک متغیر می تواند به لحاظ بررسی یک ویژگی خاص در یک گروه و یا دو و یا بیشتر مورد بررسی قرار گیرد. نکته ۱: دو گروه می تواند وابسته و یا مستقل باشد. دو گروه وابسته است اگر ویژگی یک مجموعه افراد قبل و بعد از وقوع یک عامل سنجیده شود. مثلا میزان رضایت شغلی کارکنان قبل و بعد از پرداخت پاداش و همچنین اگر در مطالعات تجربی افراد از نظر برخی ویژگی ها در یک گروه با گروه دیگر همسان شود.

۱۴- جامعه نرمال: جامعه ای است که از توزیع نرمال تبعیت می کند.

۱۵- توزیع نرمال: یکی از مهمترین توزیع ها در نظریه احتمال است. و کاربردهای بسیاری در علوم دارد.

فرمول این توزیع بر حسب دو پارامتر امید ریاضی و واریانس بیان می شود. منحنی رفتار این تابع تا حد زیادی شبیه به زنگ های کلیسا می باشد. این منحنی دارای خواص بسیار جالبی است برای مثال نسبت به محور عمودی متقارن می باشد، نیمی از مساحت زیر منحنی بالای مقدار متوسط و نیمه دیگر در پایین مقدار متوسط قرار دارد و اینکه هرچه از طرفین به مرکز مختصات نزدیک می شویم احتمال وقوع بیشتر می شود.

سطح زیر منحنی نرمال برای مقادیر متفاوت مقدار میانگین و واریانس فراگیری این رفتار آنقدر زیاد است که دانشمندان اغلب برای مدل کردن متغیرهای تصادفی که با رفتار آنها آشنایی ندارند، از این تابع استفاده می کنند. به عنوان  مثال در یک امتحان درسی نمرات دانش آموزان اغلب اطراف میانگین بیشتر می باشد و هر چه به سمت نمرات بالا یا پایین پیش برویم تعداد افرادی که این نمرات را گرفته اند کمتر می شود. این رفتار را بسهولت می توان با یک توزیع نرمال مدل کرد.

اگر یک توزیع نرمال باشد مطابق قضیه چی بی شف ۲۶٫۶۸ % مشاهدات در فاصله میانگین، مثبت و منفی یک انحراف معیار قرار دارد. و  ۴۴٫۹۵ % مشاهدات در فاصله میانگین، مثبت و منفی دو انحراف معیار قرار دارد. و ۷۳٫۹۹ % مشاهدات در فاصله میانگین، مثبت و منفی سه انحراف معیار قرار دارد.

نکته ۱: واضح است که داده های رتبه ای دارای توزیع نرمال نمی باشند.

نکته ۲: وقتی داده ها کمی هستند و تعداد نمونه نیز کم است تشخیص نرمال بودن داده ها توسط آزمون کولموگروف – اسمیرنف مشکل خواهد شد.

۱۶- آزمون پارامتریک: آزمون های پارامتریک، آزمون های هستند که توان آماری بالا و قدرت پرداختن به داده  های جمع آوری شده در طرح  های پیچیده را دارند. در این آزمون ها داده ها توزیع نرمال دارند. (مانند آزمون تی).

۱۷- آزمون های غیرپارامتری: آزمون هائی می باشند که داده ها توزیع غیر نرمال داشته و در مقایسه با آزمون های پارامتری از توان تشخیصی کمتری برخوردارند.  (مانند آزمون من – ویتنی و آزمون کروسکال و والیس)

نکته۳: اگر جامعه نرمال باشد از آزمون های پارامتریک و چنانچه غیر نرمال باشد از آزمون های غیر پارامتری استفاده می نمائیم.

نکته ۴: اگر نمونه بزرگ باشد، طبق قضیه حد مرکزی جتی اگر جامعه نرمال نباشد می توان از آزمون های پارامتریک استفاده نمود.

حال به کمک جدول زیر براحتی می توانید یکی از ۲۴ آزمون مورد نظر خود را انتخاب کنید:

هدفداده کمی و دارای توزیع نرمالداده رتبه ای و یا داده کمی غیر نرمالداده های کیفی اسمی
Categorical
توصیف یک گروهآزمون میانگین و انحراف معیارآزمون میانهآزمون نسبت
مقایسه یک گروه با یک مقدار فرضیآزمون یک نمونه ایآزمون ویلکاکسونآزمون خی – دو یا آزمون دو جمله ای
مقابسه دو گروه مستقلآزمون برای نمونه های مستقلآزمون من – ویتنیآزمون دقیق فیشر ( آزمون خی دو برای نمونه های بزرگ)
مقایسه دو گروه وابستهآزمون زوجیآزمون کروسکالآزمون مک – نار
مقایسه سه گروه یا بیشتر (مستقل)آزمون آنالیز واریانس یک راههآزمون والیسآزمون خی – دو
مقایسه سه گروه یا بیشتر (وابسته)آزمون آنالیز واریانس با اندازه های مکررآزمون فریدمنآزمون کوکران
اندازه همبستگی بین دو متغیرآزمون ضریب همبستگی پیرسونآزمون ضریب همبستگی اسپرمنآزمون ضریب توافق
پیش بینی یک متغیر بر اساس یک یا چند متغیرآزمون رگرسیون ساده یا غیر خطیآزمون رگرسیون نا پارامتریکآزمون رگرسیون لجستیک

در رویکردی دیگر بر مبنای تعداد متغیر، تعداد گروه و نرمال بودن جامعه نیز می توان به الگوریتم آزمون آماری مورد نظر دست یافت:

یک متغیر:

انتخاب آزمون آماری برای یک متغیریک متغیر در یک گروهیک متغیر در دو گروهیک متغیر در سه گروه یا بیشتر
متغیر نرمالآزمون میانگین و انحراف معیارآزمون تیآزمون آنالیز واریانس ANOVA
متغیر غیر نرمالآزمون نسبت (دو جمله ای)آزمون خی -دوآزمون ناپارامتریک

دو متغیر

انتخاب آزمون آماری برای دو متغیرهر دو متغیر پیوسته هستندیک متغیر پیوسته و دیگری گسسته استهر دو متغیر مقوله ای هستند
آزمون همبستگیآزمون آنالیز واریانس ANOVAآزمون خی – دو

سه متغیر و بیشتر:

انتخاب آزمون آماری برای سه متغیر و بیشتریک گروهدو گروه و بیشتر
آنالیز کواریانستحلیل ممیزی
آنالیز واریانس با اندازه های مکررآنالیز واریانس چند متغیره
تحلیل عاملیورگرسیون چند گانه

قابل ذکر است قبل از ورود به الگوریتم انتخاب آزمون آماری بهتر است به سوالات زیر پاسخ دهیم:

۱- آیا اختلافی بین میانگین (نسبت) یک ویژگی در دو یا چند گروه وجود دارد؟

۲- آیا دو متغیر ارتباط دارند؟

۳- چگونه می توان یک متغیر را با استفاده از متغیر های دیگر پیش بینی کرد؟

۴- چه چیزی می توان با استفاده از نمونه در مورد جامعه گفت؟

پس از انتخاب آزمون آماری مناسب حال می توان با هر یک از آزمون ها به صورت تخصصی برخورد کرد:

آزمون کی دو (خی دو یا مربع کای) 

این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیرهای اسمی به کار می‌رود. این آزمون تنها راه حل موجود برای آزمون همقوارگی در مورد متغیرهای مقیاس اسمی با بیش از دو مقوله است، بنابراین کاربرد خیلی زیادتری نسبت به آزمونهای دیگر دارد. این آزمون نسبت به حجم نمونه حساس است.

آزمون  z  –  آزمون خطای استاندارد میانگین

این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و یکسان نبودن (Goodness of fit) میانگین نمونه ای و میانگین جامعه به کار می رود. این آزمون مواقعی به کار می رود که می خواهیم بدانیم آیا میانگین برآورد شده نمونه ای با میانگین جامعه جور می آید یا نه.  اگر این تفاوت کم باشد، این تفاوت معلول تغییر پذیری نمونه ای شناخته می شود، ولی اگر زیاد باشد نتیجه گرفته می شود که برآورد نمونه ای با پارامتر جامعه یکسان (همقواره) نیست.  این آزمون پارامتری است یعنی استفاده از آن مشروط به آن است که دو پارامتر جامعه که میانگین و انحراف معیار معلوم باشند. همچنین برای آزمون متغیرهای پیوسته (مقیاس فاصله ای) کاربرد دارد. تعداد نمونه بزرگتر  و یا مساوی ۳۰  باشد و نیز توزیع متغیر در جامعه نرمال باشد.

آزمون استیودنت t

این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و نبودن میانگین نمونه ای با میانگین جامعه در حالتی به کار می رود که انحراف معیار جامعه مجهول باشد. چون توزیع t  در مورد نمونه های کوچک (کمتر از ۳۰) با استفاده از درجات آزادی تعدیل می‌شود، می‌توان از این آزمون برای نمونه های بسیار کوچک استفاده نمود. همچنین این آزمون مواقعی که خطای استاندارد جامعه نامعلوم و خطای استاندارد نمونه معلوم باشد، کاربرد دارد.

برای به کاربردن این آزمون، متغیر مورد مطالعه باید در مقیاس فاصله ای باشد، شکل توزیع آن نرمال و تعداد نمونه کمتر از ۳۰ باشد.

آزمون t در حالتهای زیر کاربرد دارد:

– مقایسه یک عدد فرضی با میانگین جامعه نمونه

– مقایسه میانگین دو جامعه

– مقایسه یک نسبت فرضی با یک نسبتی که از نمونه بدست آمده

– مقایسه دو نسبت از دو جامعه

آزمون F

این آزمون تعمیم یافته آزمون t است و برای ارزیابی یکسان بودن یا یکسان نبودن دو جامعه و یا چند جامعه به کار برده می‌شود. در این آزمون واریانس کل جامعه به عوامل اولیه آن تجزیه می‌شود. به همین دلیل به آن آزمون آنالیز واریانس (ANOVA) نیز می‌گویند.

وقتی بخواهیم بجای دو جامعه، همقوارگی چند جامعه را تواما با هم مقایسه نماییم از این آزمون استفاده می‌شود، چون مقایسه میانگین های چند جامعه با آزمون t  بسیار مشکل است.  مقایسه میانگین ها و همقوارگی چند جامعه بوسیله این آزمون (F   یا ANOVA) راحت تر از آزمون t  امکان پذیر است.

آزمون کوکران 

آزمون کوکران تعمیم یافته آزمون مک نمار است. این آزمون برای مقایسه بیش از دو گروه که وابسته باشند و مقیاس آنها اسمی یا رتبه ای باشند به کار می‌رود و همچون آزمون مک نمار، جوابها باید دوتایی باشند.

برای آزمون تغییرات یک نمونه در زمان ها و یا موقعیت های مختلف (مثل آراء رای دهندگان قبل از انتخابات در زمانهای مختلف) به کار می‌رود. مقیاس می‌تواند اسمی یا رتبه ای باشد. به جای چند سوال می‌توان یک سوال را در موقعیت های مختلف ارزیابی نمود. همه افراد باید به همه سوالات پاسخ گفته باشند. چون پاسخ ها دو جوابی است، در بعضی از انواع تحقیقات ممکن است اطلاعات بدست آمده از دست برود و بهتر است از رتبه بندی استفاده کرد که در این صورت «آزمون ویلکاکسون» بهتر جوابگو خواهد بود.

در صورت کوچک بودن نمونه ها آزمون کوکران مناسب نیست و بهتر است از «آزمون فرید من» استفاده شود.

آزمون فریدمن 

این آزمون برای مقایسه چند گروه از نظر میانگین رتبه های آنهاست و معلوم می‌کند که آیا این گروه ها می‌توانند از یک جامعه باشند یا نه؟

مقیاس در این آزمون باید حداقل رتبه ای باشد. این آزمون متناظر غیر پارامتری آزمون F است و معمولا در مقیاس های رتبه ای به جای F به کار می‌رود و جانشین آن می‌شود (چون در F باید همگنی واریانس ها وجود داشته باشد که در مقیاسهای رتبه ای کمتر رعایت می‌شود).

آزمون فریدمن برای تجریه واریانس دو طرفه (برای داده های غیر پارامتری) از طریق رتبه بندی به کار می‌رود و نیز برای مقایسه میانگین رتبه بندی گروه های مختلف. تعداد افراد در نمونه ها باید یکسان باشند که این از معایب این آزمون است. نمونه ها باید همگی جور شده باشند.

آزمون کالماگورف- اسمیرانف 

این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیرهای رتبه ای در دو نمونه (مستقل و یا غیر مستقل) و یا همقوارگی توزیع یک نمونه با توزیعی که برای جامعه فرض شده است، به کار می‌رود (اسمیرانف یک نمونه ای). این آزمون در مواردی به کار می‌رود که متغیرها رتبه ای باشند و توزیع متغیر رتبه ای را در جامعه بتوان مشخص نمود. این آزمون از طریق مقایسه توزیع فراوانی های نسبی مشاهده شده در نمونه  با توزیع فراوانی های نسبی جامعه  انجام می‌گیرد. این آزمون ناپارامتری است و بدون توزیع است اما باید توزیع متغیر در جامعه برای هر یک از رتبه های مقیاس رتبه ای در جامعه بطور نسبی در نظر گرفته شود که آنرا نسبت مورد انتظار می نامند.

آزمون کالماگورف- اسمیرانف دو نمونه ای Two- Sample Kalmogorov- Smiranov Test

این آزمون در مواقعی به کار می‌رود که دو نمونه داشته باشیم (با شرایط مربوط به این آزمون که قبلا گفته شد) و بخواهیم همقوارگی بین آن دو نمونه را با هم مقایسه کنیم.

آزمون کروسکال- والیس

این آزمون متناظر غیر پارامتری آزمون F  است و همچون آزمون F ، موقعی به کار برده می‌شود که تعداد گروه ها بیش از ۲ باشد. مقیاس اندازه گیری در کروسکال والیس حداقل باید ترتیبی باشد.

این آزمون برای مقایسه میانگین های بیش از ۲ نمونه رتبه ای (و یا فاصله ای) بکار می‌رود. فرضیات در این آزمون بدون جهت است یعنی فقط تفاوت را نشان می‌دهد و جهت بزرگتر یا کوچکتر بودن گروه ها را از نظر میانگین هایشان نشان نمی دهد. کارایی این آزمون ۹۵ درصد آزمون F است.

آزمون مک نمار

این آزمون از آزمونهای ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته بر حسب  متغیر دو جوابی استفاده می‌شود. متغیرها می‌توانند دارای مقیاس های اسمی و یا رتبه ای باشند. این آزمون در طرح های ماقبل و مابعد می‌تواند مورد استفاده قرار گیرد (یک نمونه در دو موقعیت مختلف). این آزمون مخصوصا برای سنجش میزان تاثیر عملکرد تدابیر به کار می‌رود.

ویژگی ها: اگر متغیرها اسمی باشند، این آزمون بی بدیل است اما اگر رتبه ای باشد می‌توان از آزمون t نیز استفاده کرد (در صورت وجود شرایط آزمون t) ، و یا آزمون ویلکاکسون استفاده نمود. از عیوب این آزمون این است که جهت و اندازه تغییرات را محاسبه نمی‌کند و فقط وجود تغییرات را در نمونه ها در نظر می‌گیرد.

آزمون میانه

این آزمون همتای ناپارامتری آزمون های t – Z – F  است و وقتی دو یا چند گروه از میان دو یا چند جامعه مستقل با توزیع های یکسان انتخاب شده اند به کار برده می‌شود. در این آزمون مقیاس اندازه گیری ترتیبی است و بین داده ها نباید همرتبه وجود داشته باشد. این آزمون، هم برای گروه های مستقل و هم وابسته کاربرد دارد و لزومی ندارد که حتما حجم گروه های نمونه با یکدیگر برابر باشند.

آزمون تک نمونه ای دورها 

این آزمون مواقعی به کار می‌رود که توالی مقادیر متغیرها را بخواهیم آزمون نماییم که آیا تصادفی بوده و یا نه. در واقع آزمون کی دو و یا آزمون های دیگر که در آنها توالی متغیرها بی اهمیت است، در این آزمون مهم و اصل انگاشته می‌شود. به عبارت دیگر، برای اینکه بتوانیم در یک نمونه که در آن رویدادهای مختلف از طرف فرد و یا واحد آماری رخ داده است، آزمون نماییم که آیا این رویدادها تصادفی است یا نه، به کار برده می‌شود. هیچ آزمون دیگری همچون این آزمون نمی تواند توالی را مورد نظر قرار دهد. بنابراین برای این منظور منحصر به فرد می‌باشد.

آزمون علامت

این آزمون از انواع آزمونهای غیر پارامتری است و هنگامی به کار برده می‌شود که نمونه های جفت، مورد نظر باشد (مثل زن و شوهر و یا خانه های فرد و زوج و . . . ). زیرا در این آزمون یافته‌ها به صورت جفت جفت بررسی می‌شوند و اندازه مقادیر در آن بی اثر است و فقط علامت مثبت و منفی و یا در واقع جهت پاسخ ها و یا بیشتر و کمتر بودن پاسخ های جفت‌های گروه مورد تحقیق (نمونه آماری) در نظر گرفته می‌شود.

هنگامی که ارزشیابی متغیر مورد مطالعه با روشهای عادی قابل اندازه گیری نباشد و قضاوت در مورد نمونه های آماری (که به صورت جفت ها هستند) فقط با علامت بیشتر (+) و کمتر (-) مورد نظر باشد ، از این آزمون می‌توان استفاده کرد. شکل توزیع می‌تواند نرمال و یا غیر نرمال باشد و یا از یک جامعه و یا دو جامعه باشند (مستقل و یا وابسته). توزیع باید پیوسته باشد. این آزمون فقط تفاوت های زوجها را مورد بررسی قرار می‌دهد و در صورت مساوی بودن نظرات هر زوج (مشابه بودن) آنها را از آزمون حذف می‌کند. چون مقادیر در این آزمون نقشی ندارند، شدت و ضعف و اندازه بیشتر یا کمتر بودن نظرات پاسخگویان (جفت ها) در این آزمون بی اثر است و در واقع نقص این آزمون حساب می‌شود.

آزمون تی هتلینگ (T)

آزمون T هتلینگ تعمیم یافته t استیودنت است. در آزمون t یک نمونه ای، میانگین یک صفت از یک نمونه، با یک عدد فرضی که میانگین آن صفت از جامعه فرض می‌شد، مورد مقایسه قرار می‌گرفت، اما در T  هتلینگ K متغیر (صفت) از آن جامعه (نمونه های جامعه) با k  عدد فرضی، مورد مقایسه قرار می‌گیرند. در واقع این آزمون از نوع آزمونهای چند متغیره است که همقوارگی (Goodness of fit) را بین صفت های مختلف از جامعه بدست می‌دهد. در T  هتلینگ دو نمونه ای نیز همچون T استیودنت دو نمونه ای، مقایسه دو نمونه است اما در این آزمون K صفت از یک جامعه (نمونه) با K صفت از جامعه دیگر (نمونه دیگر) مورد مقایسه قرار می‌گیرد.

آزمون مان وایتنی U  

هر گاه دو نمونه مستقل از جامعه ای مفروض باشد و متغیرهای آنها به صورت ترتیبی باشند، از این آزمون استفاده می‌شود. این آزمون مشابه t استیودنت با دو نمونه مستقل است و آزمون ناپارامتری آن محسوب می‌شود.

منبع: http://isigroup.ir/tag

هرگاه شرایط استفاده از آزمونهای پارامتری در متغیرها موجود نباشد، یعنی متغیرها پیوسته و نرمال نباشند از این آزمون استفاده می‌شود. دو نمونه باید مستقل بوده و هر دو کوچکتر از ۱۰ مورد باشند. در صورت بزرگتر بودن از ۱۰ مورد باید از آماره های ‌‌Z  استفاده کرد (در محاسبات کامپیوتری، تبدیل به Z  به طور خودکار انجام می‌شود). در این آزمون شکل توزیع، پیش فرضی ندارد یعنی می‌تواند نرمال و یا غیر نرمال باشد.

آزمون ویلکاکسون  

این آزمون از آزمونهای ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته با مقیاس رتبه ای به کار می‌رود. همچون آزمون مک نمار، این آزمون نیز مناسب طرح های ماقبل و مابعد است (یک نمونه در دو موقعیت مختلف)، و یا دو نمونه که از یک جامعه باشند. این آزمون اندازه تفاوت میان رتبه ها را در نظر می‌گیرد بنابراین متغیرها می‌توانند دارای جوابهای متفاوت و یا فاصله ای باشند. این آزمون متناظر با آزمون t دو نمونه ای وابسته است و در صورت وجود نداشتن شرایط آزمون t جانشین خوبی برای آن است. نمونه های به کار برده شده در این آزمون باید نسبت به سایر صفت هایشان جور شده (جفت شده) باشند.

آزمون لون Levene

آزمون لون همگنی واریانس ها را در نمونه های متفاوت بررسی می نماید. به عبارتی فرض تساوی متغیر وابسته را برای گروه هائی که توسط عامل رسته ای تعیین شده اند، آزمون می کند و نسبت به اکثر آزمونها کمتر به فرض نرمال بودن وابسته بوده و در واقع به انحراف نرمال مقاوم است.

این آزمون در نظر می گیرد که واریانس جمعیت آماری در نمونه های مختلف برابر است. فرض صفر همگن بودن واریانس ها می باشد یعنی واریانس جمعیت ها با هم برابر است و اگر مقدار P-VALUE در اماره لون کمتر از ۰٫۰۵ باشد تفاوت بدست آمده در واریانس نمونه بعید است که بر اساس روش نمونه گیری تصادفی رخ داده باشد. بنابراین فرض صفر که برابری واریانس ها می باشد رد می شود و به این نتیجه می رسیم که که بین واریانس ها در نمونه تفاوت وجود دارد.

منبع: http://isigroup.ir

کاربرد آمار در داده کاوی

کاشانی ۹:۱۵ ب.ظ ۲

همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده قرار می گیرد. علم امروز نسبت به دیروز جدیدتر است. روشهای جدید علمی در پی کشف محدودیت های روشهای قدیمی ایجاد می شود و از آنجایی که روشهای آماری جزء روشهای قدیمی Data mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند. داشتن فرض اولیه در مورد داده ها، یکی از این موارد است. در اینجا به تشریح بیشتر تفاوت های بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.

تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی، ارزشیابی خوب و داده های دقیق (تمیز) (clean data) خوب عمل می کنند، همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسایل (پیش گویی، کلاس بندی و کشف) استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ما آنچنان که علاقه مند بکاربردن روشهای داده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد. اول اینکه روشهای کلاسیک داده کاوی از قبیل شبکه های عصبی، تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند. دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند، این روشها با اطلاعات کمتر بهتر می توانند کار کنند و همچنین اینکه برای داده ها وسیع کابرد دارند.

در جایی دیگر اینگونه بیان شده که داده های جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند، از قبیل اینکه مشخصه ها باید مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند، تخلف کردن از هر کدام از فرضها می تواند مشکلات بزرگی ایجاد کند. زمانی که یک کاربر (تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین  (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.

به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.

بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.

روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise  وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.

در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.

روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است. هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.

تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining  در جدول اریه شده است :

روشهای آماریدیگر روشهای Data mining
داشتن فرض اولیهبدون فرض اولیه
تنها برای داده های  عددی کاربرد دارنددر انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی
در محدوده کوچکی از داده هادر محدوده وسیع تری از داده ها
حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty dataData mining به دادهای درست clean data بستگی دارند
روشهای رگرسیون و استفاده از معادلاتاستفاده از شبکه عصبی
استفاده از چارتهای دو بعدی و سه بعدیاستفاده ازData visualization
استفاده از روابط ریاضیاستفاده از روشهای یادگیری ماشین و هوش مصنوعی
در  descriptive statisticalوcluster   analysis  کاربرد دارد.در یادگیری غیر نظارتی کاربرد بیشتر دارد

همچنین می توان گفت که در DM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند.

تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.

با ارایه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آمار وDM  می پردازیم .

کاربردهای روشهای آماری

Data  mining   معمولا  وظایف یا به  عبارت بهتر استراتژهای  زیر را  در  داده ها بکار  می برد :

– توضیح و تفسیر (description)

– تخمینestimation)  )

– پیش بینیprediction)  )

– کلاس بندیclassification) )

– خوشه سازی  (clustering)

– وابسته سازی وایجاد رابطه (association)

در جدول زیر  استراتژی ها  و روشهای هر استراتژی مشخص شده است :

روشهااستراتژیها
تحلیل  داده هاتوضیح  وتفسیر
تحلیل های آماریتخمین
تحلیل های آماریپیش بینی
الگوریتم نزدیک ترین همسایهکلاس بندی
درخت  تصمیمکلاس بندی
شبکه های عصبیکلاس بندی
خوشه سازی  k-meanخوشه سازی
شبکه های kohonenخوشه سازی
وابسته سازی  و ایجاد رابطهرابطه سازی

البته باید  گفت که روشهای data mining  تنها  به یک استراتژی خاص محدود  نمی شوندو  نتایج  یک را همپوشانی بین روشها نشان  می دهد. برای مثال درخت تصمیم ممکن است که درکلاس بندی تخمین وپیش بینی کاربرد داشته باشد. بنابراین این جدول را نباید به عنوان تعریف تعریف تقسیم بندی از وظایف در نظرگرفته شود‏‎ بلکه به عنوان یک خروجی از آنچه که ما به عنوان وظایف dataminig  آشنایی پیدا کردیم در نظر گرفته می شود.

همانگونه که ازجدول پیداست روشهای آماری  در مباحث تخمین و پیش بینی کاربرد دارند. در تحلیل آماری تخمین و پیش بینی عناصری از استنباطهای آماری هستند.استنباطهای آماری شامل روشهایی برای تخمین و تست فرضیات درباره جمعیتی از ویژگیها براساس اطلاعات حاصل از نمونه است .یک  جمعیت شامل مجموعه ای از عناصر از قبیل افراد، ایتم ها، یا داده ها یی که دریک مطالعه خاص آمده است. بنابراین در اینجا به توضیح این  دواستراتژی می پردازیم.

۱- تخمین

در تخمین به دنبال این هستیم  که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسائل تخمین بیشتر عددی هستند تا قیاسی. بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند. مثلا موارد بلی،خیر به ۰ و۱ تبدیل می شود.

تکنیکهای نظارتی DM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را. یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.

روشهای آماری مورد استفاده دراین مورد بطورکلی شامل تخمین نقطه و فاصله اطمینان میباشد. تحلیل های آماری تخمین و تحلیل های یک متغیره و… از این جمله  می باشند.

در توضیح اینکه چرا به سراغ تخمین می رویم باید گفت که مقدار واقعی پارامترها برای ما ناشناخته است.مثلا مقدار واقعی میانگین یک جامعه مشخص نیست. داده ها ممکن است که بطور رضایت بخشی جمع آوری نشده باشد‏ یا به  عبارتی warehouse نشده باشد. به همین دلیل تحلیل گران از تخمین استفاده میکنند.

در خیلی از موارد تعیین میانگین مجموعه ای از داده ها برای ما مهم است.مثلا میانگین نمرات درسی یک کلاس،میانگین تعداد نفراتی که در یک روز به بانک مراجعه می کنند،متوسط مقدار پولی که افراد دریک  شعبه خاص از بانک واریز می کنند و موارد این چنینی.

زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم، آن پارامتر را تخمین زده ایم و به مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم. در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم. از مهمترین تخمین زننده ها  است که به ترتیب برآورد واریانس و میانگین جامعه هستند. خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی، ناسازگاری، بسندگی و… هستند، که هر یک به بیان ویژگی خاصی از آنها می پردازند و میزان توانایی آنها را در تخمین درست و دقیق یک پارامتر تعیین می کنند.

در مواردی نیز تخمین فاصله برای ما اهمیت دارد. فاصله اطمینان شامل فاصله ای است که  با درصدی از اطمینان می توانیم بگوییم که مقدار یک  پارامتر درون این فاصله قرار می گیرد. به عبارت دیگر اگر چه برآورد نقطه ای طریقه متداول توصیف برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است. مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد  پارامتر  را  با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس  ،یا اطلاعات دیگری درباره توزیع نمونه گیری  کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.

۲- پیش بینی( prediction )

هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند و هم قیاسی. این استراتژی در بین استراتژی های data mining از اهمیت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد. خیلی از تکنیکهای نظارتی  data mining که برای کلاس بندی و تخمین مناسب هستند در واقع کار پیش بینی انجام می دهند.

آنچه از کتابهای آماری و data minig تحت عنوان پیش بینی برمی آید رگرسیون و مباحث  مر بوط به آن است . در واقع در اکثر این کتابها هدف اصلی از انجام تحلیل های آماری برای داده  کاوی، رگرسیون  داده  هاست و این بعنوان وظیفه اصلی متد های آماری معرفی می شود.

برگرفته از: مدرسه متا یکجا

مقاله نویسی

آزمون کای دو(chi-square) یا خی دو چیست؟- نیکویی برازش و استقلال در SPSS

آزمون کای دو(chi-square) یا خی دو چیست؟- نیکویی برازش و استقلال در SPSS

آزمون کای دو یا خی دو و یا مربع کای ازمونی است که فراوانی های مورد انتظار را با فراوانی های تحقیق مقایسه می کند تا مشخص شود آیا تفاوت معنا داری بین این دو فراوانی وجود دارد یا خیر. حال در ادامه ما دو نوع از آزمون کای دو را تعریف خواهیم کرد، سپس با مثالی ملموس آن را در SPSS اجرا خواهیم کرد.

آزمون کای دو (chi-square)چیست؟

دو نوع آزمون کای ۲ وجود دارد که هر کدام به منظوری متفاوت استفاده خواهند شد. در ادامه به این دو نوع خواهیم پرداخت.

آزمون کای دو برای نیکویی برازش

که برای تحلیل یک متغیر رده‌ای به کار می‌رود. به این صورت که اگر اختلافی در فراوانی میان رده‌های پاسخ وجود داشته باشد، آزمون کای دو برای نیکویی برازش آن را نشان می‌دهد. با توجه به نتایج این آزمون اگر مقدار معناداری آزمون برای گروهی کمتر از ۰/۰۵ به‌دست آمده باشد، می‌توان نتیجه گرفت که بین فراوانی‌های آن گروه تفاوت معناداری وجود دارد. به‌عبارتی تفاوت بین فراوانی‌ها از نظر آماری تایید می‌گردد.

آزمون کای دو برای استقلال

که برای تعیین رابطه‌ی بین دو متغیر رده‌ای از این آزمون کای دو استفاده می‌کنیم (جدول توافقی). به‌عبارتی اگر بخواهیم استقلال بین دو متغیر کیفی را آزمون کنیم از آماره کای دو دونمونه‌ای استفاده می‌کنیم. آماره کای دو بر مقادیر مشاهده شده و مورد انتظار که از طریق جدول توافقی به‌دست می‌آیند، استوار است. در جدول توافقی مقدار مشاهده شده عبارت است از تعدادی از نمونه‌ها که در یک خانه قرار دارند. مقدار مورد انتظار عبارت است از تعدادی که در صورت مستقل بودن دو متغیر پیش‌بینی می‌شود.

H۰: دو متغیر کیفی مستقل هستند.

H۱: دو متغیر کیفی مستقل نیستند.

جز اصلی جدول توافقی تعداد نمونه‌هایی است که در هر یک از خانه‌های جدول قرار می‌گیرند. روش‌های آماری که در این فرضیه‌های صفر به‌کار می‌روند بر اساس مقایسه موارد مشاهده شده در هر خانه با تعداد مورد انتظار آن عمل می‌کند. تعداد مورد انتظار به‌طور ساده تعدادی از نمونه‌هاست که در صورت صحیح بودن فرضیه صفر انتظار می‌رود در هر یک از خانه‌ها پیدا شود. فرضیه صفر در جدول توافقی به‌صورت مستقل بودن دو متغیر بیان می‌شود.

پیش‌فرض‌هایی که قبل از انجام این آزمون‌ها می‌بایستی برقرار باشند، به‌صورت زیرند:

نمونه‌گیری تصادفی: مشاهدات باید به‌طور تصادفی از جامعه انتخاب شوند.

استقلال مشاهدات: هر مشاهده مربوط به یک نفر است و هیچ شخصی دوبار در نمونه‌گیری حساب نمی‌شود.

اندازه فراوانی‌های مورد انتظار: زمانی که تعداد سلول‌ها کمتر از ۱۰ است و اندازه‌ی نمونه کوچک است، کمترین فراوانی مورد انتظاری که هر یک از سلول‌ها می‌بایستی برای آزمون کای دو داشته باشند ۵ است. با این حال، مقدار مشاهده شده می‌تواند کمتر از ۵ و یا حتی صفر باشد.

مثال آزمون کای دو یا خی دو برای نیکویی برازش

جدول زیر نگرش ۶۰ نفر را نسبت به ارتش آمریکایی مستقر در استرالیا نشان می‌دهد. اگر اختلافی در فراوانی میان رده‌های پاسخ وجود داشته باشد، آزمون کای دو برای نیکویی برازش آن را نشان می‌دهد.

آزمون-کای-دو

داده‌ها را در یک فایل SPSS ثبت کرده‌ایم، فایل داده‌ها را باز می‌کنیم:

ki2-Goodness-of-fit-in-spss

اکنون باید مقادیر ستون freq (فراوانی) را به عنوان وزن‌های متغیر attitude (نوع نگرش) تعریف کنیم. با این عمل مشخص می‌کنیم که 8 نفر کد 1 (موافق)، 20 نفر کد 2 (مخالف) و 32 نفر کد 3 (بی‌نظر) را انتخاب کرده‌اند. از منوی Data گزینه‌ی Weight Cases… را برگزینید تا کادر زیر باز شود:

ki2-Goodness-of-fit-in-spss-Weight-Cases
ki2-Goodness-of-fit-in-spss-Frequency-Variable

گزینه Weight cases by را انتخاب کنید و متغیر freq را به قسمت Frequency Variable انتقال دهید و روی گزینه OK کلیک کنید. با این عمل، وزن‌های مربوطه برای متغیر attitude تعریف می‌شوند.

اکنون از منوی Analyze به ترتیب گزینه‌های Nonparametric Tests، Legacy Dialogs و Chi-square… را انتخاب نمایید تا کادر مربوطه باز شود، متغیر attitude را به سمت راست منتقل و روی OK کلیک کنید.

ki2-Goodness-of-fit-in-spss-attitude
ki2-Goodness-of-fit-in-spss-Chi-square

خروجی به صورت زیر می‌باشد:

ki2-Goodness-of-fit-in-spss-out-put

با توجه به جدول فوق آزمون کای دو معنادار است (چون Sig = 0.001 < 0.05)، بنابراین نتیجه می‌گیریم که اختلافی معنادار در فراوانی نگرش افراد، نسبت به ارتش مستقر در استرالیا وجود دارد. همچنین جدول فراوانی نشان می‌دهد که اکثر مردم بی‌نظر هستند.

در مثال فوق، فراوانی‌های مورد انتظار را برای هر یک از ۳ گروه، یکسان در نظر گرفتیم. یعنی به هر گروه فراوانی مورد انتظار ۲۰ را اختصاص دادیم یا به عبارت دیگر، شانس یک سوم را به هر گروه اختصاص دادیم. اکثر اوقات فراوانی‌های مورد انتظار در بین گروه‌ها به طور یکسان توزیع نمی‌شود. فرض کنید در مثال فوق به ترتیب فراوانی‌های مورد انتظار ۱۵، ۱۵ و ۳۰ را به گروه‌ها اختصاص دهیم، اکنون دوباره مثال را انجام می‌دهیم.

از منوی Analyze به ترتیب گزینه‌های Nonparametric Tests، Legacy Dialogs و Chi-square… را انتخاب نمایید تا کادر مربوطه باز شود، سپس متغیر attitude را به سمت راست منتقل کنید.

در قسمت Expected Values با انتخاب گزینه‌ی Values فیلد مقابل آن فعال می‌شود. در این قسمت عدد 15 را تایپ و روی Add کلیک کنید. دوباره 15 را تایپ و روی Add کلیک کنید. در پایان عدد 30 را تایپ و روی Add کلیک کنید، اکنون کادر باید همانند شکل زیر باشد:

ki2-Goodness-of-fit-in-spss-Expected-Values

حال روی OK کلیک کنید تا خروجی نمایش یابد:

ki2-Goodness-of-fit-in-spss-out-put2

با توجه به آزمون کای دو مشاهده می‌کنیم که میان فراوانی‌های مشاهده شده (با توجه به فراوانی‌های موردانتظار و نسبت‌های داده شده به آن‌ها) اختلاف معناداری وجود ندارد (چون Sig = 0.079 > 0.05).

همان‌طور که قبلا هم اشاره کردیم هدف از ایجاد یک جدول توافقی، یافتن رابطه‌ی بین دو متغیر است، اکنون برای این منظور مثالی مطرح می‌کنیم:

مثال: (آزمون کای دو (ki2) برای استقلال)

فرض کنید می‌خواهیم بررسی کنیم که آیا سطح تحصیلات افراد از جنسیت مستقل است یا نه؟ نمونه‌ای متشکل از ۳۰۰ نفر برداشتیم و خلاصه نتایج را در جدول زیر آورده‌ایم:

ki2-Goodness-of-fit-table

برای این‌که داده‌های جدول را در SPSS تعریف کنیم، ابتدا یک فایل داده جدید باز کنید و متغیرهای Gender و Education را به ترتیب با کدهای مربوطه تعریف نمایید. به علاوه لازم است متغیر دیگری به نام Count (یا هر نام دلخواه دیگری) ایجاد نمایید، این متغیر در بردارنده‌ی مقادیر موجود در جدول می‌باشد. پس از وارد کردن اطلاعات، فایل داده باید به صورت زیر باشد:

Ki2-independence-test-in-spss

حال باید مقادیر ستون Count را به عنوان وزن‌های دو متغیر جنسیت و تحصیلات تعریف کنیم. از منوی Data گزینه‌ی Weight Cases… را برگزینید تا کادر زیر باز شود:

گزینه Weight cases by را انتخاب کنید و متغیر Count را به قسمت Frequency Variable انتقال دهید، سپس روی گزینه OK کلیک کنید. با این عمل، وزن‌های مربوطه برای متغیرها تعریف می‌شوند.

Ki2-independence-test-Frequency-Variable-in-spss

پس از تعریف متغیرها و تعیین وزن‌های مربوطه، به انجام تحلیل می‌پردازیم. از منوی Analyze به ترتیب گزینه‌های Descriptive Statistics و Crosstabs را انتخاب نمایید تا کادر مربوطه باز شود، متغیر Gender را به قسمت Row(s) و متغیر Education را به قسمت Column(s) انتقال دهید:

Ki2-independence-test-Crosstabs-in-spss
Ki2-independence-test-Crosstabs2-in-spss

قبل از انجام تحلیل به بررسی گزینه‌های موجود در این کادر می‌پردازیم.

با کلیک روی دکمه Statistics کادر زیر نمایان می‌شود:

Ki2-independence-test-Statistics -in-spss

با توجه به نوع متغیر مورد مطالعه، آماره‌های مناسب در این جدول خلاصه شده‌اند. مثلا اگر هر دو متغیرمان اسمی و یا یکی اسمی و دیگری ترتیبی باشد، از آماره‌های قسمت Nominal استفاده می‌کنیم. اگر هر دو رتبه‌ای باشند، از آماره‌های قسمت Ordinal استفاده می‌کنیم و اگر یکی اسمی و دیگری فاصله‌ای باشد، از آماره Eta موجود در قسمت Nominal by Interval استفاده می‌کنیم.

مقدار شاخص‌های رابطه برای متغیرهای ترتیبی بین ۱- و ۱+ تغییر می‌کند؛ اما در متغیرهای اسمی، چون صحبت از جهت رابطه، معنا ندارد، مقدار این شاخص‌ها بین صفر تا ۱+ تغییر می‌کند. توجه کنید که استفاده از هر کدام از این آماره‌ها شرایط خاص خود را دارد که توضیحات مختصری از این شاخص‌ها را در جدول زیر آورده‌ایم:

آماره کای دو (Chi-square): توسط این آماره، تنها فرض مستقل بودن متغیرها را می‌توان بررسی کرد و مقدار همبستگی و رابطه را نمی‌تواند مشخص کند.

همبستگی (Correlation): از طریق این گزینه، دو نوع همبستگی محاسبه می‌شود. ضریب همبستگی پیرسون و ضریب همبستگی اسپیرمن. ضریب همبستگی پیرسون هنگامی که هر دو متغیر جدول کمّی (پیوسته) هستند، به کار می‌رود و مقدار آن بین 1- و 1+ تغییر می‌کند. مقدار صفر نشان می‌دهد که هیچ رابطه‌ی خطی بین متغیرها وجود ندارد.

برای جداولی که سطر و ستون آنها دربردارنده داده‌های رتبه‌ای است، ضریب همبستگی اسپیرمن را به کار می‌برند که همانند ضریب همبستگی پیرسون تفسیر می‌شود. زمانی که اندازه نمونه بزرگ باشد بهتر است از ضریب همبستگی اسپیرمن استفاده نشود؛ چون این ضریب برای نمونه‌های بزرگ به طور مجانبی استفاده می‌شود و از دقت لازم برخوردار نیست. از این رو از ضرایب همبستگی معادل همانند کندال استفاده می‌کنند.

ضریب توافق (Contingency Coefficient): این ضریب اندازه‌ای از همبستگی بر پایه‌ی آماره کای – دو ارائه می‌کند و مقادیر دامنه آن بین صفر و 1 می‌باشد. مقدار صفر بیان می‌کند که بین متغیرهای سطری و ستونی همبستگی وجود ندارد و مقادیر نزدیک به 1 نشان می‌دهند که درجه بالایی از همبستگی بین متغیرها وجود دارد. این ضریب برای جداول 2×2 و بالاتر به‌کار می‌رود.

ضریب فای و V‌ی کرامر (Phi and Cramer’s V): کاربرد ضریب فای تنها محدود به جداول 2×2 است. یعنی زمانی که هر یک از متغیرهای سطری و ستونی تنها ارزش‌های صفر (خیر) و یک (بلی) داشته ‌باشند. برای تعمیم این ضریب به جداول بزرگتر از آماره V کرامر استفاده می‌کنیم.

ضریب لاندا (Lambda): این ضریب در دو حالت محاسبه می‌شود:

  • نامتقارن: به این دلیل به آن نامتقارن گویند که در محاسبه‌ی آن بسته به این که کدام یک از دو متغیر را مستقل و کدام را وابسته در نظر بگیریم، مقدار لاندا تغییر می‌کند؛ یعنی قرینه نیست.
  • متقارن: در این حالت فرقی نمی‌کند کدام یک از متغیرها را مستقل و کدام را وابسته در نظر بگیریم. در هر دو صورت مقدار لاندا یکسان خواهد بود.

در هنگام استفاده از این ضریب می‌بایستی مراقب بود. زمانی که دو متغیر از نظر آماری مستقل هستند، مقدار لاندای آن‌ها صفر خواهد بود؛ ولی عکس آن صحیح نیست. یعنی صفر بودن لاندا لزوما به معنای مستقل بودن نیست. به عبارت دیگر ممکن است دو متغیر با هم رابطه داشته باشند، اما لاندای آن‌ها صفر باشد، زیرا دانستن متغیر مستقل، هیچ کمکی به پیش‌بینی ما نکرده است.

گاما (Gamma): این آماره اندازه‌ای متقارن (یعنی فرقی نمی‌کند کدام متغیر مستقل و کدام وابسته باشد) از رابطه‌ی بین دو متغیر ترتیبی است که دامنه‌ی آن بین 1- و 1+ تغییر می‌کند. مقدار نزدیک به 1 از نظر قدر مطلق، نمایانگر یک پیوند قوی بین دو متغیر می‌باشد؛ مقدار نزدیک به صفر، بیان کننده‌ی یک رابطه‌ی ضعیف است.

d سامرز (Sommers`d): این ضریب همانند شاخص گاماست؛ ولی در آن یکی از متغیرها مستقل و دیگری وابسته فرض می‌شود و دامنه آن بین 1- و 1+ تغییر می‌کند.

تاو – b کندال (Kendall`s tau-b): این شاخص برای زمانی مناسب است که جدول توافقی شما مربع است و دامنه‌ی آن بین 1- و 1+ تغییر می‌کند.

تاو – c کندال (Kendall`s tau-c): این شاخص برای جداول مختلف قابل استفاده است و مقدار آن بین 1- و 1+ متغیر است.

ضریب اتا (Eta): این شاخص برای متغیرهای اسمی و فاصله‌ای به‌کار می‌رود، که در آن متغیر وابسته بر حسب مقیاس فاصله‌ای و متغیر مستقل بر حسب مقیاس اسمی اندازه‌گیری شده‌اند. دامنه‌ی این شاخص بین صفر تا 1 است. این شاخص نامتقارن، هیچ رابطه‌ی خطی بین متغیرها در نظر نمی‌گیرد. مقدار صفر این کمیت بیان می‌کند که هیچ رابطه‌ای بین متغیرهای سطری و ستونی وجود ندارد و مقادیر نزدیک به 1 بیان می‌کند، بین آن‌ها یک رابطه با درجه بالا وجود دارد. در خروجی SPSS دو مقدار برای این ضریب نمایش می‌یابد که هر بار یکی از متغیرهای سطری یا ستونی را به عنوان متغیر فاصله‌ای (وابسته) در نظر می‌گیرد.

کاپا (Kappa): ضریب کاپا، میزان توافق دو فرد رتبه‌دهنده که یک متغیر را رده‌بندی کرده‌اند، نشان می‌دهد. مثلا از دو معلم می‌خواهیم نمرات دانش‌آموزان را در یک مقیاس سه نمره‌ای درجه‌بندی کنند، می‌خواهیم بدانیم که این دو فرد چقدر با هم توافق دارند و درجه‌بندی‌هایشان به هم نزدیک است. مقدار 1 این ضریب بیانگر توافق کامل و مقدار صفر نشان‌دهنده‌ی تصادفی بودن توزیع کدهاست. نکته‌ای که در هنگام استفاده از این ضریب باید بدان توجه داشته باشید این است که هر دو متغیر از مقادیر رده‌بندی (کدهای) یکسانی استفاده کنند و دارای تعداد یکسانی رده باشند.

ریسک (Risk): اندازه‌ای از میزان رابطه بین یک فاکتور (متغیر گروه‌بندی شده) و رخ دادن یک پیشامد (یک گزینه پاسخ) می‌باشد و برای جداول 2×2 به‌کار می‌رود. اگر فاصله اطمینان این آماره عدد 1 را دربرداشته باشد، نشان‌دهنده این است که فاکتور با پیشامد رابطه ندارد.

مک نمار (McNemar): اگر متغیرهای دو حالتی جفت داشته باشیم، از این آماره استفاده می‌کنیم. متغیر دو حالتی متغیری است که تنها دارای مقادیر صفر و 1 است و جفت بدان معنی است که پاسخ‌های هر دو متغیر برای یک گروه از افراد به‌دست آمده‌اند، همانند اندازه‌گیری ضربان قلب، قبل و بعد از تمرین. از این آماره برای آشکارسازی تغییرات در پاسخ‌ها به دلیل انجام یک عمل (قبل و بعد) استفاده می‌کنیم.

آماره کاکران و مانتل – هنزل (Cochran`s and Mantel Hanszel Statistics): از این آماره برای آزمون استقلال بین یک متغیر فاکتور دوحالتی و یک متغیر پاسخ دوحالتی شرطی شده روی ساختارهای متغیرهای تصادفی کمکی (که به وسیله متغیرهایی که در قسمت Layer تعریف می‌کنیم، مشخص می‌شوند) استفاده می‌شود. توجه کنید که اگر یک متغیر Layer تعریف کنیم، آماره‌های دیگر به صورت لایه به لایه محاسبه می‌شوند؛ ولی این آماره یک‌بار برای تمام لایه‌ها محاسبه می‌شود.

دوباره به مثال بازمی‌گردیم، گزینه‌های Chi-square و Contingency Coefficient را انتخاب و روی Continue کلیک کنید تا به کادر قبل بازگردید. در این کادر روی OK کلیک نمایید تا خروجی محاسبه شود:

ki2-Contingency-Coefficient-in-spss-out-put
ki2-Chi-square-in-spss-out-put

در مورد دو جدول اول قبلا توضیح داده‌ایم. در سومین جدول با عنوان Chi-square Tests مقدار آماره کای – دو 018/39 گزارش شده است و مقدار معناداری مرتبط با آن Sig = 0.000 است؛ یعنی فرض استقلال متغیرهای جنسیت و سطح تحصیلات رد می‌شود. از طریق چهارمین جدول با توجه به مقدار ضریب توافق یعنی، 339/0 درمی‌یابیم که نسبت پایینی از همبستگی بین این متغیرها وجود دارد.

نکته: زمانی که فراوانی‌های مورد انتظار خانه‌های جدول کوچک باشند (کمتر از ۵) برای انجام آزمون استقلال، نمی‌توان از آزمون کای دو یا خی دو استفاده نمود بنابراین باید از آزمون‌های معادل یا آزمون دقیق فیشر استفاده کرد، مخصوصا هنگامی که جدول ۲×۲ است.

برگرفته از : آمار پیشرو

پایان نامه نویسی مقاله نویسی

✳️داده های پرت و کناری چه دادههایی هستند و چرا ما باید مراقب آنها باشیم؟✳️

◀️تعاریف در مورد داده های پرت زیاد است و عموما به نقاطی اطلاق می شوند که از نرم متغییر یا جامعه خارج اند. هاوکینز(1980)، استیونس(1984) و راسمونس(1988) داده های پرت را مشاهداتی می دانند که آنقدر از بقیه داده های جدا باشد که این سوء ظن را ایجاد کند که داده ها مربوط به یک مکانیزم دیگر است.”

◀️همچنین واینر(19976) کناری بودن را به وقایعی نسبت می دهد که به ندرت اتفاق می افتند. این نقاط در نزدیکی سه انحراف استاندارد از میانگین قرار دارند و از این رو ممکن است تاثیر زیادی در برآورد پارامترها داشته باشند. نقاط پرت می توانند اثرات نامطلوبی بر تحلیل های آماری بگذارند.

📝 اولا آنها باعث افزایش واریانس خطا و کاهش توان آزمون می گردند.
📝 دوم این که اگر به طور تصادفی توزیع نیافته باشند، باعث برهم زدن نرمال بودن داده ها می شوند و از این رو مفروضه ی نرمال بودن توزیع داده ها از بین می برند و بخت رخداد خطاهای آول و دوم را به شدت افزایش می دهند. این مسئله در مورد تحلیل های چند متغییری که نیازمند مفروضات کرویت و نرمال بودن چند متغییری است اهمیت بیشتری پیدا می کند.
📝سومین عامل تاثیر جدی داده های پرت در برآورد اریب پارامترها است. بنابراین غربال داده ها برای شناسایی و حذف داده های پرت ضرورت دارد.

سفارش تحلیل داده های آماری برای پایان نامه و مقاله نویسی تحلیل داده های آماری شما با نرم افزارهای کمی و کیفی ،مناسب ترین قیمت و کیفیت عالی انجام می گیرد. نرم افزار های کمی: SPSS- PLS – Amos نرم افزارهای کیفی: Maxquda- NVivo تعیین حجم نمونه با:Spss samplepower Mobile : 09143444846 09143444846 Telegram: https://t.me/RAVA2020 E-mail: abazizi1392@gmail.com