بایگانی دسته: آموزش آمار

آموزش محاسبات آماری با اکسل

آموزش محاسبات آماری با اکسل

آموزش محاسبات آماری با اکسل

اکسل به عنوان یک ابزار محاسبات جدول که قادر به انجام عملیات سطری و ستونی است، نقش مهمی در تحلیل داده‌ها همینطور استخراج آمار توصیفی در بین کاربران رایانه‌های خانگی دارد. خوشبختانه شرکت مایکروسافت، توابع و ابزارهای محاسباتی زیادی برای استخراج شاخص‌های آماری تهیه کرده است که البته در بیشتر نسخه‌های اکسل موجود هستند.

محاسبات آماری با اکسل

در اکثر نرم افزارهای محاسبات آماری، شاخص های مرکزی مانند میانگین و نما و همینطور شاخص های پراکندگی مانند واریانس و انحراف معیار محاسبه می شوند. چولگی و کشیدگی نیز از معیارهای تقارن برای توزیع داده ها محسوب می شوند. در این نوشتار به بررسی افزونه ای از اکسل می پردازیم که قادر به محاسبه این گونه شاخص های آماری است. برای نصب این افزونه که به نام Data Analysis معروف است، باید گام های زیر را مطابق با تصاویر مربوطه طی کنید. البته توجه داشته باشید که بسیاری از آزمون های و تحلیل های آماری نیز به کمک این افزونه قابل اجرا هستند.

گام اول: از فهرست File دستور Options را انتخاب کنید. پنجره ای به شکل زیر ظاهر خواهد شد. برای دسترسی به افزونه ها و نصب آن ها در اکسل، کافی است از کادر سمت چپ تصویر ۱، بخش Add-ins را انتخاب کنید. به این ترتیب در سمت راست پنجره، لیستی از افزونه های در حال اجرا (Active) یا غیرفعال (Inactive) ظاهر می شود.

تصویر
تصویر ۱: پنجره تنظیمات پیش فرض اکسل و انتخاب گزینه مدیریت افزونه های آن

اگر می خواهید افزونه های غیرفعال را به صورت فعال در آورید، در بخش Manage گزینه Excel Add-ins را انتخاب و دکمه …Go را بزنید. به این ترتیب وارد گام دوم می شوید.

گام دوم: با طی کردن گام اول به پنجره Add-ins خواهید رسید که فهرستی از افزونه های فعال و غیر فعال را نشان می دهد. با انتخاب هر یک از افزونه ها در بخش یا فهرست Add-ins available، می توانید هر یک از آن ها را فعال یا غیرفعال سازید.

تصویر
تصویر ۲: پنجره افزونه های استاندارد اکسل

در تصویر ۲، برای فعال سازی افزونه محاسبات آماری در اکسل گزینه اول یعنی Analysis ToolPak را انتخاب کرده ایم. با فشردن دکمه OK عملیات بارگذاری این افزونه صورت خواهد گرفت.

با اجرای این گام ها، در برگه Data بخش جدیدی به نام Data Analysis ظاهر می شود. به این ترتیب با انتخاب این دکمه، پنجره ای مطابق با تصویر ۳ نمایان شده که می توانید نوع محاسبه و تحلیل آماری را از داخل آن انتخاب نمایید.

تصویر
تصویر ۳: پنجره انتخاب تحلیل آماری در افزونه Analysis ToolPak

پس از انتخاب محاسبات دلخواه خود از این لیست، دکمه OK را بزنید. البته جدول ۱، گزینه های موجود در این پنجره را معرفی کرده است تا با انواع تحلیل های قابل اجرا آشنا شوید.

جدول ۱: لیست تحلیل های آماری در افزونه محاسبات آماری با اکسل

ردیفنام تحلیلعملکردتوضیحات
۱Anova: Single Factorتحلیل واریانس: تک عاملتحلیل واریانس یک طرفه
۲Anova: Two-Factor with Replicationتحلیل واریانس: دو طرفهتحلیل واریانس دو طرفه با مشاهدات تکراری در هر سطح
۳Anova: Two-Factor without Replicationتحلیل واریانس: دو طرفهتحلیل واریانس دو طرفه بدون مشاهدات تکراری در هر سطح
۴Correlationضریب همبستگیمحاسبه انواع شاخص های همبستگی دو متغیره
۵Covarianceکوواریانستشکیل ماتریس کوواریانس
6Descriptive Statisticsآمار توصیفیمحاسبه شاخص های آمار توصیفی
7Exponential Smoothingهموارسازی نماییروش پیش بینی سری زمانی با هموارسازی نمایی
8F-Test Two Sample for Variancesآزمون F برای نسبت دو واریانسآزمون آماری برابری واریانس دو جامعه آماری با استفاده از توزیع F
9Fourier Analysisتحلیل فوریهحل سیستم های خطی با استفاده از تبدیل سریع فوریه
10Histogramهیستوگرامرسم نمودار فراوانی (ستونی)
11Moving Averageمیانگین متحرکهموارسازی و حذف روند از داده های سری زمان
12Random Number Generationتولید اعداد تصادفیانتخاب توزیع آماری و استخراج یک نمونه با تعداد مشخص از آن
13Rank and Percentileرتبه و صدک هاتحلیل برمبنای رتبه و محاسبه چندک های داده ها
14Regressionرگرسیون خطمحاسبه ضرایب و فاصله اطمینان برای مدل رگرسیون خطی
15Samplingنمونه گیریانتخاب یک نمونه تصادفی از بین مقادیر انتخاب شده
16t-Test: Paired Two Sample For Meansآزمون t برای مقایسه میانگین زوجیمقایسه تغییرات در اثر یک تیمار روی مشاهدات (آزمون قبل و بعد از اجرای تیمار)
17t-Test: Two-Sample Assuming Equal Variancesآزمون t برای مقایسه میانگین دو جامعه مستقلآزمون t برای دو جامعه مستقل با واریانس های برابر
18t-Test: Two-Sample Assuming Unequal Variancesآزمون t برای مقایسه میانگین دو جامعه مستقلآزمون t برای دو جامعه مستقل با واریانس های نابرابر
19Z-test: Two sample for the Meansآزمون Z برای مقایسه میانگینآزمون Z برای مقایسه میانگین دو جامعه مستقل با توزیع نرمال (معلوم بودن واریانس دو جامعه)

به یاد داشته باشید که در این نوشتار به معرفی گزینه مربوط به محاسبات آمار توصیفی (Descriptive Statistics) پرداخته خواهد شد.

شاخص های آمار توصیفی به کمک افزونه محاسبات آماری با اکسل

از فهرستی که به عنوان گزینه های مختلف تحلیل های آماری معرفی شد، گزینه Descriptive Statistics یا محاسبات آمار توصیفی را برای محاسبات آماری با اکسل انتخاب کنید. پنجره جدیدی باز خواهد شد که ناحیه مربوط به مقادیر و همچنین شاخص های مورد نظر را از کاربر دریافت می کند. برای روشن تر شدن موضوع از یک کاربرگ اکسل که نمرات ۱۵ دانشجو در آن ثبت شده کمک می گیریم. این اطلاعات را در تصویر ۴ مشاهده می کنید.

تصویر
تصویر ۴: نمرات دانشجویان در یک درس
تصویر
با توجه به ناحیه مربوط به اطلاعات این کاربرگ، پارامترهای آمار توصیفی را مطابق با تصویر ۵، تنظیم کرده ایم.تصویرتصویر ۵: تنظیمات مربوط به استخراج آمار توصیفی برای کاربرگ نمرات

در قسمت Input Range، ناحیه ای از کاربرگ که باید شاخص های آمار توصیفی از آن استخراج شود، تعیین شده است. برای مثال ما این قسمت شامل ناحیه $A$1:$A$16 است. از آنجایی که گزینه Columns انتخاب شده است، متغیرها به صورت ستونی از مجموعه داده گرفته می شوند. از آنجایی که کاربرگ فقط شامل یک ستون است در نتیجه یک متغیر بیشتر برای تحلیل به کار نخواهد رفت.

نکته: اگر گزینه Rows را انتخاب می کردید، به تعداد سطرها، متغیر ایجاد می شد.

با فعال سازی گزینه Label in first row، اکسل متوجه می شود که سطر اول در ستون A، شامل نام متغیر است و نباید از آن در محاسبات استفاده کند. البته این سلول مقدار متنی دارد و در محاسبات نقشی نخواهد داشت.

بخش بعدی مربوط به تعیین محل خروجی محاسبات است. اگر گزینه Output Range را انتخاب کنید، باید ناحیه ای از کاربرگ را برای نمایش اطلاعات خروجی مشخص نمایید. با گزینه New Worksheet Ply یک کاربرگ جدید به منظور قرارگیری خروجی تعیین می شود. با گزینه New Workbook هم، کارپوشه ای جدید (یک فایل جدید اکسلی) برای نمایش اطلاعات جدول های آمار توصیفی در نظر گرفته خواهد شد.

اگر گزینه Summary statistics و Confidence Level for Mean را انتخاب کرده باشید، شاخص های معرفی شده در جدول ۲، محاسبه و در خروجی ظاهر خواهند شد.

نکته: انتخاب دو گزینه Kth Largest و Kth smallest باعث نمایش kامین مقدار بزرگتر و کوچکتر خواهد بود. مقدار K در کادر جلوی هر یک از این گزینه ها، وارد می شود.

جدول ۲: شاخص های توصیفی در خروجی محاسبات آماری در اکسل

ردیفشاخصعملکردتوضیحات
۱Meanمحاسبه میانگینشاخص مرکزی
۲Standard Errorخطای استانداردانحراف استاندارد نمونه تقسیم بر جذر حجم نمونه
3Medianمیانهمقدار مرکزی داده ها
4Modeنمامقدار با بیشترین تکرار
5Standard Deviationانحراف استاندارد نمونه ایجذر واریانس نمونه ای
6Sample Varianceواریانس نمونه ایمیانگین مجموع مربعات انحراف از میانگین
7Kurtosisکشیدگیمعیار تقارن عمودی نسبت به توزیع نرمال
8Skewnessچولگیمعیار تقارن افقی نسبت به توزیع نرمال
9Rangeدامنه تغییراتفاصله بین حداقل و حداقل مقادیر
10Minimumکوچکترین مقدار
11Maximumبزرگترین مقدار
12Sumمجموع مقادیر
13Countتعداد مقادیر
14Confidence Level(95.0%)فاصله اطمینان برای میانگین نمونه ایبا سطح اطمینان ۹۵٪ (با توجه به انتخاب کاربر)

با توجه به گزینه های انتخابی، خروجی اجرای این دستور که با فشردن دکمه OK در یک کاربرگ جدید ظاهر شده، مطابق با تصویر ۶ خواهد بود. همانطور که مشاهده می کنید، جدول و مقادیر متنوعی که برای شناخت رفتار داده ها لازم است توسط این افزونه محاسبه و طی یک گزارش ظاهر شده است.

تصویر
تصویر ۶: خروجی محاسبات آماری در اکسل

همانطور که مشخص است میانگین نمرات برابر با ۱۴٫۸ و انحراف استاندارد نیز تقریبا برابر با ۴ واحد است. در این صورت خطای برآورد میانگین حداکثر ۱٫۰۶ خواهد بود که نشان دهنده حداکثر یک واحد خطا برای میانگین نمرات کل دانشجویان در درس مورد نظر، توسط این نمونه تصادفی است.

همینطور چولگی و کشیدگی نیز به صفر نزدیک بوده که نشانگر تقارن و مشابهت توزیع این داده ها با توزیع نرمال (Normal Distribution) است.

برگرفته از: ساعد نیوز

مفاهیم اساسی در آمار

مفاهیم اساسی در آمار

آمار در دو شاخه آمار توصیفی و احتمالات و آمار استنباطی بحث و بررسی می شود. احتمالات و تئوریهای احتمال اساسا از دایره بحث ما خارج است. همچنین آمار توصیفی مانند فراوانی، میانگین، واریانس و … نیز مفروض در نظر گرفته شده اند.

۱- آمار استنباطی و آمار توصیفی

در یک پژوهش جهت بررسی و توصیف ویژگیهای عمومی پاسخ دهندگان از روش های موجود در آمار توصیفی مانند جداول توزیع فراوانی، در صد فراوانی، درصد فراوانی تجمعی و میانگین استفاده میگردد. بنابراین هدف آمار توصیفی یا descriptive محاسبه پارامترهای جامعه با استفاده از سرشماری تمامی عناصر جامعه است.

در آمار استنباطی یا inferential پژوهشگر با استفاده مقادیر نمونه آماره ها را محاسبه کرده و سپس با کمک تخمین و یا آزمون فرض آماری، آماره ها را به پارامترهای جامعه تعمیم می دهد.برای تجزیه و تحلیل داده ها و آزمون فرضیه های پژوهش از روش های آمار استنباطی استفاده می شود.

پارامتر شاخص بدست آمده از جامعه آماری با استفاده از سرشماری است و شاخص بدست آمده از یک نمونه n تائی از جامعه آماره نامیده می شود. برای مثال میانگین جامعه یا µ یک پارامتر مهم جامعه است. چون میانگین جامعه همیشه در دسترس نیست به همین خاطر از میانگین نمونه یا که آماره برآورد کننده پارامتر µ است در بسیاری موارد استفاده می شود.

۲- آزمون آماری و تخمین آماری

در یک مقاله پژوهشی یا یک پایان نامه باید سوال پژوهش یا فرضیه پژوهش مطرح شود. اگر تحقیق از نوع سوالی و صرفا حاوی پرسش درباره پارامتر باشد، برای پاسخ به سوالات از تخمین آماری استفاده می شود و اگر حاوی فرضیه ها بوده و از مرحله سوال گذر کرده باشد، آزمون فرضیه ها و فنون آماری آن به کار می رود.

هر نوع تخمین یا آزمون فرض آماری با تعیین صحیح آماره پژوهش شروع می شود. سپس باید توزیع آماره مشخص شود. براساس توزیع آماره آزمون با استفاده از داده های بدست آمده از نمونه محاسبه شده آماره آزمون محاسبه می شود. سپس مقدار بحرانی با توجه به سطح خطا و نوع توزیع از جداول مندرج در پیوست های کتاب آماری محاسبه می شود. در نهایت با مقایسه آماره محاسبه شده و مقدار بحرانی سوال یا فرضیه تحقیق بررسی و نتایج تحلیل می شود. در ادامه این بحث موشکافی می شود.

۳- آزمون های آماری پارامتریک و ناپارامتریک

آمار پارامتریک مستلزم پیش فرضهائی در مورد جامعه ای که از آن نمونه گیری صورت گرفته می باشد. به عنوان مهمترین پیش فرض در آمار پارامترک فرض می شود که توزیع جامعه نرمال است اما آمار ناپارامتریک مستلزم هیچگونه فرضی در مورد توزیع نیست. به همین خاطر بسیاری از تحقیقات علوم انسانی که با مقیاس های کیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک استفاده می کنند.

فنون آمار پارامتریک شدیداً تحت تاثیر مقیاس سنجش متغیرها و توزیع آماری جامعه است. اگر متغیرها از نوع اسمی و ترتیبی بوده حتما از روشهای ناپارامتریک استفاده می شود. اگر متغیرها از نوع فاصله ای و نسبی باشند در صورتیکه فرض شود توزیع آماری جامعه نرمال یا بهنجار است از روشهای پارامتریک استفاده می شود در غیراینصورت از روشهای ناپارامتریک استفاده می شود.

۳- خلاصه آزمونهای پارامتریک

آزمون t تک نمونه : برای آزمون فرض پیرامون میانگین یک جامعه استفاده می شود. در بیشتر پژوهش هائی که با مقیاس لیکرت انجام می شوند جهت بررسی فرضیه های پژوهش و تحلیل سوالات تخصصی مربوط به آنها از این آزمون استفاده می شود.

آزمون t وابسته : برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می شود. برای مثال اختلاف میانگین رضایت کارکنان یک سازمان قبل و بعد از تغییر مدیریت یا زمانی که نمرات یک کلاس با پیش آزمون و پس آزمون سنجش می شود.

آزمون t دو نمونه مستقل: جهت مقایسه میانگین دو جامعه استفاده می شود. در آزمون t برای دو نمونه مستقل فرض می شود واریانس دو جامعه برابر است. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه های پژوهش استفاده میشود.

آزمون t ولچ: این آزمون نیز مانند آزمون t دو نمونه جهت مقایسه میانگین دو جامعه استفاده می شود. در آزمون t ولچ فرض می شود واریانس دو جامعه برابر نیست. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه های پژوهش استفاده میشود.

آزمون t هتلینگ : برای مقایسه چند میانگین از دو جامعه استفاده می شود. یعنی دو جامعه براساس میانگین چندین صفت مقایسه شوند.

تحلیل واریانس (ANOVA): از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می شود. برای نمونه جهت بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس سن یا تحصیلات در خصوص هر یک از فرضیه های پژوهش استفاده می شود.

تحلیل واریانس چندعاملی (MANOVA): از این آزمون به منظور بررسی اختلاف چند میانگین از چند جامعه آماری استفاده می شود.

تحلیل کوواریانس چندعاملی (MANCOVA): چنانچه در MANOVA بخواهیم اثر یک یا چند متغیر کمکی را حذف کنیم استفاده می شود.

۵-  خلاصه آزمونهای ناپارامتریک

آزمون علامت تک نمونه : برای آزمون فرض پیرامون میانگین یک جامعه استفاده می شود.

آزمون علامت زوجی : برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می شود.

ویلکاکسون : همان آزمون علامت زوجی است که در آن اختلاف نسبی تفاوت از میانگین لحاظ می شود.

من-ویتنی: به آزمون U نیز موسوم است و جهت مقایسه میانگین دو جامعه استفاده می شود.

کروسکال-والیس: از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می شود. به آزمون H نیز موسوم است و تعمیم آزمون U مان-ویتنی می باشد. آزمون کروسکال-والیس معادل روش پارامتریک آنالیز واریانس تک عاملی است.

فریدمن: این آزمون معادل روش پارامتریک آنالیز واریانس دو عاملی است که در آن k تیمار به صورت تصادفی به n بلوک تخصیص داده شده اند.

کولموگروف-اسمیرنف : نوعی آزمون نیکوئی برازش برای مقایسه یک توزیع نظری با توزیع مشاهده شده است.

آزمون تقارن توزیع : در این آزمون شکل توزیع مورد سوال قرار می گیرد. فرض بدیل آن است که توزیع متقارن نیست.

آزمون میانه : جهت مقایسه میانه دو جامعه استفاده می شود و برای k جامعه نیز قابل تعمیم است.

مک نمار : برای بررسی مشاهدات زوجی درباره متغیرهای دو ارزشی استفاده می شود.

آزمون Q کوکران: تعمیم آزمون مک نمار در k نمونه وابسته است.

ضریب همبستگی اسپیرمن: برای محاسبه همبستگی دو مجموعه داده که به صورت ترتیبی قرار دارند استفاده می شود.

منبع: http://spss-amar.vcp.ir

کدام آزمون آماری برای تحقیق ما مناسب است؟

کاشانی ۱۱:۰۷ ق.ظ ۰

شاخه های مختلف علوم برای تجزیه و تحلیل داده ها از روش های مختلفی مانند روش های ذیل استفاده می نمایند:

الف) روش تحلیل محتوا

ب) روش تحلیل آماری

ج) روش تحلیل ریاضی

د) روش اقتصاد سنجی

ه) روش ارزشیابی اقتصادی

و) …

تمرکز این نوشتار بر روش های تجزیه و تحلیل سیستمهای اقتصادی اجتماعی و بویژه روش های تحلیل آماری می باشد.

آمار علم طبقه بندی اطلاعات، علم تصمیم گیری های علمی و منطقی، علم برنامه ریزی های دقیق و علم توصیف و بیان آن چیزی است که از مشاهدات می توان فهمید.

هدف ما آموزش درس آمار نیست زیرا اینگونه مطالب تخصصی را میتوان در مراجع مختلف یافت، هدف اصلی ما ارائه یک روش دستیابی سریع به بهترین روش آماری می باشد.

یکی از مشکلات عمومی در تحقبقات میدانی انتخاب روش تحلیل آماری مناسب و یا به عبارتی انتخاب آزمون آماری مناسب برای بررسی سوالات یا فرضیات تحقیق می باشد.

در آزمون های آماری هدف تعیین این موضوع است که آیا داده های نمونه شواهد کافی برای رد یک حدس یا فرضیه را دارند یا خیر؟

انتخاب نادرست آزمون آماری موجب خدشه دار شدن نتایج تحقیق می شود.

دکتر غلامرضا جندقی استاد یار دانشگاه تهران در مقاله ای کاربرد انواع آزمون های آماری را با توجه به نوع داده ها و وبژگی های نمونه آماری و نوع تحلیل نشان داده است که در این بخش به نکات کلیدی آن اشاره می شود:

قبل از انتخاب یک آزمون آماری بایستی به سوالات زیر پاسخ داد:

۱- چه تعداد متغیر مورد بررسی قرار می گیرد؟

۲- چند گروه مفایسه می شوند؟

۳- آیا توزیع ویژگی مورد بررسی در جامعه نرمال است؟

۴- آیا گروه های مورد بررسی مستقل هستند؟

۵- سوال یا فرضیه تحقیق چیست؟

۶- آیا داده ها پیوسته، رتبه ای و یا مقوله ای Categorical هستند؟

قبل از ادامه این مبحث لازم است مفهوم چند واژه آماری را یاد آور شوم که زیاد وقت گیر نیست.

۱- جامعه آماری: به مجموعه کاملی از افراد یا اشیاء یا اجزاء که حداقل در یک صفت مورد علاقه مشترک باشند ،گفته می شود.

۲- نمونه آماری: نمونه بخشی از یک جامعة آماری تحت بررسی است که با روشی که از پیش تعیین شده است انتخاب می‌شود، به قسمی که می‌توان از این بخش، استنباطهایی دربارة کل جامعه بدست آورد.

۳- پارامتر و آماره: پارامتر یک ویژگی جامعه است در حالی که آماره یک ویژگی نمونه است. برای مثال میانگین جامعه یک پارامتر است. حال اگر از جامعه نمونه‌گیری کنیم و میانگین نمونه را بدست آوریم، این میانگین یک آماره است.

۴- برآورد و آزمون فرض: برآوردیابی و آزمون فرض دو روشی هستند که برای استنباط درمورد پارامترهای مجهول دو جمعیت به کار می روند.

۵- متغیر: ویژگی یا خاصیت یک فرد، شئ و یا موقعیت است که شامل یک سری از مقادیر با دسته بندیهای متناسب است. قد، وزن، گروه خونی و جنس نمونه هایی از متغیر هستند. انواع متغیر می تواند کمی و کیفی باشد.

۶- داده های کمی مانند قد، وزن یا سن درجه بندی می شوند و به همین دلیل قابل اندازه گیری می باشند. داده های کمی نیز خود به دو دسته دیگر تقسیم می شوند:

الف: داده های فاصله ای (Interval data)

ب: داده های نسبتی (Ratio data)

7- داده های فاصله ای: به عنوان مثال داده هایی که متغیر IQ (ضریب هوشی) را در پنج نفر توصیف می کنند عبارتند از: ۸۰، ۱۱۰، ۷۵، ۹۷ و ۱۱۷، چون این داده ها عدد هستند پس داده های ما کمی اند اما می دانیم که  IQ نمی تواند صفر باشد و صفر در اینجا فقط مبنایی است تا سایر مقادیر  IQ در فاصله ای منظم از صفر و یکدیگر قرار گیرند پس این داده ها فاصله ای اند.

۸- داده های نسبتی: داده های نسبتی داده هایی هستند که با عدد نوشته می شوند اما صفر آنها واقعی است. اکثریت داده های کمی این گونه اند و حقیقتاً دارای صفر هستند. به عنوان مثال داده هایی که متغیر طول پاره خط بر حسب سانتی متر را توصیف می کنند عبارتند از: ۲۰، ۱۵، ۳۵، ۸ و ۲۳، چون این داده ها عدد هستند پس داده های ما کمی اند و چون صفر در اینجا واقعاً وجود دارد این داده نسبتی تلقی می شوند.

۹- داده های کیفی مانند جنس، گروه خونی یا ملیت فقط دارای نوع هستند و قابل بیان با استفاده از واحد خاصی نیستند. داده های کیفی خود به دو دسته دیگر تقسیم می شوند:

الف: داده های اسمی  (Nominal data)

ب: داده های رتبه ای  (Ordinal data)

10- داده های رتبه ای Ordinal: مانند کیفیت درسی یک دانش آموز (ضعیف، متوسط و قوی) و یا رتبه بندی هتل ها ( یک ستاره، دو ستاره و …)

۱۱- داده های اسمی (nominal ) که مربوط به متغیر یا خواص کیفی مانند جنس یا گروه خونی است و بیانگر عضویت در یک گروها category  خاص می باشد. (داده مقوله ای)

۱۲- متغیر تصادفی گسسته و پیوسته: به عنوان مثال تعداد تصادفات جاده‌ای در روز یک متغیر تصادفی گسسته است ولی انتخاب یک نقطه‌ به تصادف روی دایره‌ای به مرکز مبدأ مختصات و شعاع ۳ یک متغیر تصادفی پیوسته است.

۱۳- گروه: یک متغیر می تواند به لحاظ بررسی یک ویژگی خاص در یک گروه و یا دو و یا بیشتر مورد بررسی قرار گیرد. نکته ۱: دو گروه می تواند وابسته و یا مستقل باشد. دو گروه وابسته است اگر ویژگی یک مجموعه افراد قبل و بعد از وقوع یک عامل سنجیده شود. مثلا میزان رضایت شغلی کارکنان قبل و بعد از پرداخت پاداش و همچنین اگر در مطالعات تجربی افراد از نظر برخی ویژگی ها در یک گروه با گروه دیگر همسان شود.

۱۴- جامعه نرمال: جامعه ای است که از توزیع نرمال تبعیت می کند.

۱۵- توزیع نرمال: یکی از مهمترین توزیع ها در نظریه احتمال است. و کاربردهای بسیاری در علوم دارد.

فرمول این توزیع بر حسب دو پارامتر امید ریاضی و واریانس بیان می شود. منحنی رفتار این تابع تا حد زیادی شبیه به زنگ های کلیسا می باشد. این منحنی دارای خواص بسیار جالبی است برای مثال نسبت به محور عمودی متقارن می باشد، نیمی از مساحت زیر منحنی بالای مقدار متوسط و نیمه دیگر در پایین مقدار متوسط قرار دارد و اینکه هرچه از طرفین به مرکز مختصات نزدیک می شویم احتمال وقوع بیشتر می شود.

سطح زیر منحنی نرمال برای مقادیر متفاوت مقدار میانگین و واریانس فراگیری این رفتار آنقدر زیاد است که دانشمندان اغلب برای مدل کردن متغیرهای تصادفی که با رفتار آنها آشنایی ندارند، از این تابع استفاده می کنند. به عنوان  مثال در یک امتحان درسی نمرات دانش آموزان اغلب اطراف میانگین بیشتر می باشد و هر چه به سمت نمرات بالا یا پایین پیش برویم تعداد افرادی که این نمرات را گرفته اند کمتر می شود. این رفتار را بسهولت می توان با یک توزیع نرمال مدل کرد.

اگر یک توزیع نرمال باشد مطابق قضیه چی بی شف ۲۶٫۶۸ % مشاهدات در فاصله میانگین، مثبت و منفی یک انحراف معیار قرار دارد. و  ۴۴٫۹۵ % مشاهدات در فاصله میانگین، مثبت و منفی دو انحراف معیار قرار دارد. و ۷۳٫۹۹ % مشاهدات در فاصله میانگین، مثبت و منفی سه انحراف معیار قرار دارد.

نکته ۱: واضح است که داده های رتبه ای دارای توزیع نرمال نمی باشند.

نکته ۲: وقتی داده ها کمی هستند و تعداد نمونه نیز کم است تشخیص نرمال بودن داده ها توسط آزمون کولموگروف – اسمیرنف مشکل خواهد شد.

۱۶- آزمون پارامتریک: آزمون های پارامتریک، آزمون های هستند که توان آماری بالا و قدرت پرداختن به داده  های جمع آوری شده در طرح  های پیچیده را دارند. در این آزمون ها داده ها توزیع نرمال دارند. (مانند آزمون تی).

۱۷- آزمون های غیرپارامتری: آزمون هائی می باشند که داده ها توزیع غیر نرمال داشته و در مقایسه با آزمون های پارامتری از توان تشخیصی کمتری برخوردارند.  (مانند آزمون من – ویتنی و آزمون کروسکال و والیس)

نکته۳: اگر جامعه نرمال باشد از آزمون های پارامتریک و چنانچه غیر نرمال باشد از آزمون های غیر پارامتری استفاده می نمائیم.

نکته ۴: اگر نمونه بزرگ باشد، طبق قضیه حد مرکزی جتی اگر جامعه نرمال نباشد می توان از آزمون های پارامتریک استفاده نمود.

حال به کمک جدول زیر براحتی می توانید یکی از ۲۴ آزمون مورد نظر خود را انتخاب کنید:

هدفداده کمی و دارای توزیع نرمالداده رتبه ای و یا داده کمی غیر نرمالداده های کیفی اسمی
Categorical
توصیف یک گروهآزمون میانگین و انحراف معیارآزمون میانهآزمون نسبت
مقایسه یک گروه با یک مقدار فرضیآزمون یک نمونه ایآزمون ویلکاکسونآزمون خی – دو یا آزمون دو جمله ای
مقابسه دو گروه مستقلآزمون برای نمونه های مستقلآزمون من – ویتنیآزمون دقیق فیشر ( آزمون خی دو برای نمونه های بزرگ)
مقایسه دو گروه وابستهآزمون زوجیآزمون کروسکالآزمون مک – نار
مقایسه سه گروه یا بیشتر (مستقل)آزمون آنالیز واریانس یک راههآزمون والیسآزمون خی – دو
مقایسه سه گروه یا بیشتر (وابسته)آزمون آنالیز واریانس با اندازه های مکررآزمون فریدمنآزمون کوکران
اندازه همبستگی بین دو متغیرآزمون ضریب همبستگی پیرسونآزمون ضریب همبستگی اسپرمنآزمون ضریب توافق
پیش بینی یک متغیر بر اساس یک یا چند متغیرآزمون رگرسیون ساده یا غیر خطیآزمون رگرسیون نا پارامتریکآزمون رگرسیون لجستیک

در رویکردی دیگر بر مبنای تعداد متغیر، تعداد گروه و نرمال بودن جامعه نیز می توان به الگوریتم آزمون آماری مورد نظر دست یافت:

یک متغیر:

انتخاب آزمون آماری برای یک متغیریک متغیر در یک گروهیک متغیر در دو گروهیک متغیر در سه گروه یا بیشتر
متغیر نرمالآزمون میانگین و انحراف معیارآزمون تیآزمون آنالیز واریانس ANOVA
متغیر غیر نرمالآزمون نسبت (دو جمله ای)آزمون خی -دوآزمون ناپارامتریک

دو متغیر

انتخاب آزمون آماری برای دو متغیرهر دو متغیر پیوسته هستندیک متغیر پیوسته و دیگری گسسته استهر دو متغیر مقوله ای هستند
آزمون همبستگیآزمون آنالیز واریانس ANOVAآزمون خی – دو

سه متغیر و بیشتر:

انتخاب آزمون آماری برای سه متغیر و بیشتریک گروهدو گروه و بیشتر
آنالیز کواریانستحلیل ممیزی
آنالیز واریانس با اندازه های مکررآنالیز واریانس چند متغیره
تحلیل عاملیورگرسیون چند گانه

قابل ذکر است قبل از ورود به الگوریتم انتخاب آزمون آماری بهتر است به سوالات زیر پاسخ دهیم:

۱- آیا اختلافی بین میانگین (نسبت) یک ویژگی در دو یا چند گروه وجود دارد؟

۲- آیا دو متغیر ارتباط دارند؟

۳- چگونه می توان یک متغیر را با استفاده از متغیر های دیگر پیش بینی کرد؟

۴- چه چیزی می توان با استفاده از نمونه در مورد جامعه گفت؟

پس از انتخاب آزمون آماری مناسب حال می توان با هر یک از آزمون ها به صورت تخصصی برخورد کرد:

آزمون کی دو (خی دو یا مربع کای) 

این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیرهای اسمی به کار می‌رود. این آزمون تنها راه حل موجود برای آزمون همقوارگی در مورد متغیرهای مقیاس اسمی با بیش از دو مقوله است، بنابراین کاربرد خیلی زیادتری نسبت به آزمونهای دیگر دارد. این آزمون نسبت به حجم نمونه حساس است.

آزمون  z  –  آزمون خطای استاندارد میانگین

این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و یکسان نبودن (Goodness of fit) میانگین نمونه ای و میانگین جامعه به کار می رود. این آزمون مواقعی به کار می رود که می خواهیم بدانیم آیا میانگین برآورد شده نمونه ای با میانگین جامعه جور می آید یا نه.  اگر این تفاوت کم باشد، این تفاوت معلول تغییر پذیری نمونه ای شناخته می شود، ولی اگر زیاد باشد نتیجه گرفته می شود که برآورد نمونه ای با پارامتر جامعه یکسان (همقواره) نیست.  این آزمون پارامتری است یعنی استفاده از آن مشروط به آن است که دو پارامتر جامعه که میانگین و انحراف معیار معلوم باشند. همچنین برای آزمون متغیرهای پیوسته (مقیاس فاصله ای) کاربرد دارد. تعداد نمونه بزرگتر  و یا مساوی ۳۰  باشد و نیز توزیع متغیر در جامعه نرمال باشد.

آزمون استیودنت t

این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و نبودن میانگین نمونه ای با میانگین جامعه در حالتی به کار می رود که انحراف معیار جامعه مجهول باشد. چون توزیع t  در مورد نمونه های کوچک (کمتر از ۳۰) با استفاده از درجات آزادی تعدیل می‌شود، می‌توان از این آزمون برای نمونه های بسیار کوچک استفاده نمود. همچنین این آزمون مواقعی که خطای استاندارد جامعه نامعلوم و خطای استاندارد نمونه معلوم باشد، کاربرد دارد.

برای به کاربردن این آزمون، متغیر مورد مطالعه باید در مقیاس فاصله ای باشد، شکل توزیع آن نرمال و تعداد نمونه کمتر از ۳۰ باشد.

آزمون t در حالتهای زیر کاربرد دارد:

– مقایسه یک عدد فرضی با میانگین جامعه نمونه

– مقایسه میانگین دو جامعه

– مقایسه یک نسبت فرضی با یک نسبتی که از نمونه بدست آمده

– مقایسه دو نسبت از دو جامعه

آزمون F

این آزمون تعمیم یافته آزمون t است و برای ارزیابی یکسان بودن یا یکسان نبودن دو جامعه و یا چند جامعه به کار برده می‌شود. در این آزمون واریانس کل جامعه به عوامل اولیه آن تجزیه می‌شود. به همین دلیل به آن آزمون آنالیز واریانس (ANOVA) نیز می‌گویند.

وقتی بخواهیم بجای دو جامعه، همقوارگی چند جامعه را تواما با هم مقایسه نماییم از این آزمون استفاده می‌شود، چون مقایسه میانگین های چند جامعه با آزمون t  بسیار مشکل است.  مقایسه میانگین ها و همقوارگی چند جامعه بوسیله این آزمون (F   یا ANOVA) راحت تر از آزمون t  امکان پذیر است.

آزمون کوکران 

آزمون کوکران تعمیم یافته آزمون مک نمار است. این آزمون برای مقایسه بیش از دو گروه که وابسته باشند و مقیاس آنها اسمی یا رتبه ای باشند به کار می‌رود و همچون آزمون مک نمار، جوابها باید دوتایی باشند.

برای آزمون تغییرات یک نمونه در زمان ها و یا موقعیت های مختلف (مثل آراء رای دهندگان قبل از انتخابات در زمانهای مختلف) به کار می‌رود. مقیاس می‌تواند اسمی یا رتبه ای باشد. به جای چند سوال می‌توان یک سوال را در موقعیت های مختلف ارزیابی نمود. همه افراد باید به همه سوالات پاسخ گفته باشند. چون پاسخ ها دو جوابی است، در بعضی از انواع تحقیقات ممکن است اطلاعات بدست آمده از دست برود و بهتر است از رتبه بندی استفاده کرد که در این صورت «آزمون ویلکاکسون» بهتر جوابگو خواهد بود.

در صورت کوچک بودن نمونه ها آزمون کوکران مناسب نیست و بهتر است از «آزمون فرید من» استفاده شود.

آزمون فریدمن 

این آزمون برای مقایسه چند گروه از نظر میانگین رتبه های آنهاست و معلوم می‌کند که آیا این گروه ها می‌توانند از یک جامعه باشند یا نه؟

مقیاس در این آزمون باید حداقل رتبه ای باشد. این آزمون متناظر غیر پارامتری آزمون F است و معمولا در مقیاس های رتبه ای به جای F به کار می‌رود و جانشین آن می‌شود (چون در F باید همگنی واریانس ها وجود داشته باشد که در مقیاسهای رتبه ای کمتر رعایت می‌شود).

آزمون فریدمن برای تجریه واریانس دو طرفه (برای داده های غیر پارامتری) از طریق رتبه بندی به کار می‌رود و نیز برای مقایسه میانگین رتبه بندی گروه های مختلف. تعداد افراد در نمونه ها باید یکسان باشند که این از معایب این آزمون است. نمونه ها باید همگی جور شده باشند.

آزمون کالماگورف- اسمیرانف 

این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیرهای رتبه ای در دو نمونه (مستقل و یا غیر مستقل) و یا همقوارگی توزیع یک نمونه با توزیعی که برای جامعه فرض شده است، به کار می‌رود (اسمیرانف یک نمونه ای). این آزمون در مواردی به کار می‌رود که متغیرها رتبه ای باشند و توزیع متغیر رتبه ای را در جامعه بتوان مشخص نمود. این آزمون از طریق مقایسه توزیع فراوانی های نسبی مشاهده شده در نمونه  با توزیع فراوانی های نسبی جامعه  انجام می‌گیرد. این آزمون ناپارامتری است و بدون توزیع است اما باید توزیع متغیر در جامعه برای هر یک از رتبه های مقیاس رتبه ای در جامعه بطور نسبی در نظر گرفته شود که آنرا نسبت مورد انتظار می نامند.

آزمون کالماگورف- اسمیرانف دو نمونه ای Two- Sample Kalmogorov- Smiranov Test

این آزمون در مواقعی به کار می‌رود که دو نمونه داشته باشیم (با شرایط مربوط به این آزمون که قبلا گفته شد) و بخواهیم همقوارگی بین آن دو نمونه را با هم مقایسه کنیم.

آزمون کروسکال- والیس

این آزمون متناظر غیر پارامتری آزمون F  است و همچون آزمون F ، موقعی به کار برده می‌شود که تعداد گروه ها بیش از ۲ باشد. مقیاس اندازه گیری در کروسکال والیس حداقل باید ترتیبی باشد.

این آزمون برای مقایسه میانگین های بیش از ۲ نمونه رتبه ای (و یا فاصله ای) بکار می‌رود. فرضیات در این آزمون بدون جهت است یعنی فقط تفاوت را نشان می‌دهد و جهت بزرگتر یا کوچکتر بودن گروه ها را از نظر میانگین هایشان نشان نمی دهد. کارایی این آزمون ۹۵ درصد آزمون F است.

آزمون مک نمار

این آزمون از آزمونهای ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته بر حسب  متغیر دو جوابی استفاده می‌شود. متغیرها می‌توانند دارای مقیاس های اسمی و یا رتبه ای باشند. این آزمون در طرح های ماقبل و مابعد می‌تواند مورد استفاده قرار گیرد (یک نمونه در دو موقعیت مختلف). این آزمون مخصوصا برای سنجش میزان تاثیر عملکرد تدابیر به کار می‌رود.

ویژگی ها: اگر متغیرها اسمی باشند، این آزمون بی بدیل است اما اگر رتبه ای باشد می‌توان از آزمون t نیز استفاده کرد (در صورت وجود شرایط آزمون t) ، و یا آزمون ویلکاکسون استفاده نمود. از عیوب این آزمون این است که جهت و اندازه تغییرات را محاسبه نمی‌کند و فقط وجود تغییرات را در نمونه ها در نظر می‌گیرد.

آزمون میانه

این آزمون همتای ناپارامتری آزمون های t – Z – F  است و وقتی دو یا چند گروه از میان دو یا چند جامعه مستقل با توزیع های یکسان انتخاب شده اند به کار برده می‌شود. در این آزمون مقیاس اندازه گیری ترتیبی است و بین داده ها نباید همرتبه وجود داشته باشد. این آزمون، هم برای گروه های مستقل و هم وابسته کاربرد دارد و لزومی ندارد که حتما حجم گروه های نمونه با یکدیگر برابر باشند.

آزمون تک نمونه ای دورها 

این آزمون مواقعی به کار می‌رود که توالی مقادیر متغیرها را بخواهیم آزمون نماییم که آیا تصادفی بوده و یا نه. در واقع آزمون کی دو و یا آزمون های دیگر که در آنها توالی متغیرها بی اهمیت است، در این آزمون مهم و اصل انگاشته می‌شود. به عبارت دیگر، برای اینکه بتوانیم در یک نمونه که در آن رویدادهای مختلف از طرف فرد و یا واحد آماری رخ داده است، آزمون نماییم که آیا این رویدادها تصادفی است یا نه، به کار برده می‌شود. هیچ آزمون دیگری همچون این آزمون نمی تواند توالی را مورد نظر قرار دهد. بنابراین برای این منظور منحصر به فرد می‌باشد.

آزمون علامت

این آزمون از انواع آزمونهای غیر پارامتری است و هنگامی به کار برده می‌شود که نمونه های جفت، مورد نظر باشد (مثل زن و شوهر و یا خانه های فرد و زوج و . . . ). زیرا در این آزمون یافته‌ها به صورت جفت جفت بررسی می‌شوند و اندازه مقادیر در آن بی اثر است و فقط علامت مثبت و منفی و یا در واقع جهت پاسخ ها و یا بیشتر و کمتر بودن پاسخ های جفت‌های گروه مورد تحقیق (نمونه آماری) در نظر گرفته می‌شود.

هنگامی که ارزشیابی متغیر مورد مطالعه با روشهای عادی قابل اندازه گیری نباشد و قضاوت در مورد نمونه های آماری (که به صورت جفت ها هستند) فقط با علامت بیشتر (+) و کمتر (-) مورد نظر باشد ، از این آزمون می‌توان استفاده کرد. شکل توزیع می‌تواند نرمال و یا غیر نرمال باشد و یا از یک جامعه و یا دو جامعه باشند (مستقل و یا وابسته). توزیع باید پیوسته باشد. این آزمون فقط تفاوت های زوجها را مورد بررسی قرار می‌دهد و در صورت مساوی بودن نظرات هر زوج (مشابه بودن) آنها را از آزمون حذف می‌کند. چون مقادیر در این آزمون نقشی ندارند، شدت و ضعف و اندازه بیشتر یا کمتر بودن نظرات پاسخگویان (جفت ها) در این آزمون بی اثر است و در واقع نقص این آزمون حساب می‌شود.

آزمون تی هتلینگ (T)

آزمون T هتلینگ تعمیم یافته t استیودنت است. در آزمون t یک نمونه ای، میانگین یک صفت از یک نمونه، با یک عدد فرضی که میانگین آن صفت از جامعه فرض می‌شد، مورد مقایسه قرار می‌گرفت، اما در T  هتلینگ K متغیر (صفت) از آن جامعه (نمونه های جامعه) با k  عدد فرضی، مورد مقایسه قرار می‌گیرند. در واقع این آزمون از نوع آزمونهای چند متغیره است که همقوارگی (Goodness of fit) را بین صفت های مختلف از جامعه بدست می‌دهد. در T  هتلینگ دو نمونه ای نیز همچون T استیودنت دو نمونه ای، مقایسه دو نمونه است اما در این آزمون K صفت از یک جامعه (نمونه) با K صفت از جامعه دیگر (نمونه دیگر) مورد مقایسه قرار می‌گیرد.

آزمون مان وایتنی U  

هر گاه دو نمونه مستقل از جامعه ای مفروض باشد و متغیرهای آنها به صورت ترتیبی باشند، از این آزمون استفاده می‌شود. این آزمون مشابه t استیودنت با دو نمونه مستقل است و آزمون ناپارامتری آن محسوب می‌شود.

منبع: http://isigroup.ir/tag

هرگاه شرایط استفاده از آزمونهای پارامتری در متغیرها موجود نباشد، یعنی متغیرها پیوسته و نرمال نباشند از این آزمون استفاده می‌شود. دو نمونه باید مستقل بوده و هر دو کوچکتر از ۱۰ مورد باشند. در صورت بزرگتر بودن از ۱۰ مورد باید از آماره های ‌‌Z  استفاده کرد (در محاسبات کامپیوتری، تبدیل به Z  به طور خودکار انجام می‌شود). در این آزمون شکل توزیع، پیش فرضی ندارد یعنی می‌تواند نرمال و یا غیر نرمال باشد.

آزمون ویلکاکسون  

این آزمون از آزمونهای ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته با مقیاس رتبه ای به کار می‌رود. همچون آزمون مک نمار، این آزمون نیز مناسب طرح های ماقبل و مابعد است (یک نمونه در دو موقعیت مختلف)، و یا دو نمونه که از یک جامعه باشند. این آزمون اندازه تفاوت میان رتبه ها را در نظر می‌گیرد بنابراین متغیرها می‌توانند دارای جوابهای متفاوت و یا فاصله ای باشند. این آزمون متناظر با آزمون t دو نمونه ای وابسته است و در صورت وجود نداشتن شرایط آزمون t جانشین خوبی برای آن است. نمونه های به کار برده شده در این آزمون باید نسبت به سایر صفت هایشان جور شده (جفت شده) باشند.

آزمون لون Levene

آزمون لون همگنی واریانس ها را در نمونه های متفاوت بررسی می نماید. به عبارتی فرض تساوی متغیر وابسته را برای گروه هائی که توسط عامل رسته ای تعیین شده اند، آزمون می کند و نسبت به اکثر آزمونها کمتر به فرض نرمال بودن وابسته بوده و در واقع به انحراف نرمال مقاوم است.

این آزمون در نظر می گیرد که واریانس جمعیت آماری در نمونه های مختلف برابر است. فرض صفر همگن بودن واریانس ها می باشد یعنی واریانس جمعیت ها با هم برابر است و اگر مقدار P-VALUE در اماره لون کمتر از ۰٫۰۵ باشد تفاوت بدست آمده در واریانس نمونه بعید است که بر اساس روش نمونه گیری تصادفی رخ داده باشد. بنابراین فرض صفر که برابری واریانس ها می باشد رد می شود و به این نتیجه می رسیم که که بین واریانس ها در نمونه تفاوت وجود دارد.

منبع: http://isigroup.ir

کاربرد آمار در داده کاوی

کاشانی ۹:۱۵ ب.ظ ۲

همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده قرار می گیرد. علم امروز نسبت به دیروز جدیدتر است. روشهای جدید علمی در پی کشف محدودیت های روشهای قدیمی ایجاد می شود و از آنجایی که روشهای آماری جزء روشهای قدیمی Data mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند. داشتن فرض اولیه در مورد داده ها، یکی از این موارد است. در اینجا به تشریح بیشتر تفاوت های بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.

تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی، ارزشیابی خوب و داده های دقیق (تمیز) (clean data) خوب عمل می کنند، همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسایل (پیش گویی، کلاس بندی و کشف) استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ما آنچنان که علاقه مند بکاربردن روشهای داده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد. اول اینکه روشهای کلاسیک داده کاوی از قبیل شبکه های عصبی، تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند. دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند، این روشها با اطلاعات کمتر بهتر می توانند کار کنند و همچنین اینکه برای داده ها وسیع کابرد دارند.

در جایی دیگر اینگونه بیان شده که داده های جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند، از قبیل اینکه مشخصه ها باید مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند، تخلف کردن از هر کدام از فرضها می تواند مشکلات بزرگی ایجاد کند. زمانی که یک کاربر (تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین  (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.

به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.

بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.

روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise  وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.

در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.

روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است. هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.

تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining  در جدول اریه شده است :

روشهای آماریدیگر روشهای Data mining
داشتن فرض اولیهبدون فرض اولیه
تنها برای داده های  عددی کاربرد دارنددر انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی
در محدوده کوچکی از داده هادر محدوده وسیع تری از داده ها
حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty dataData mining به دادهای درست clean data بستگی دارند
روشهای رگرسیون و استفاده از معادلاتاستفاده از شبکه عصبی
استفاده از چارتهای دو بعدی و سه بعدیاستفاده ازData visualization
استفاده از روابط ریاضیاستفاده از روشهای یادگیری ماشین و هوش مصنوعی
در  descriptive statisticalوcluster   analysis  کاربرد دارد.در یادگیری غیر نظارتی کاربرد بیشتر دارد

همچنین می توان گفت که در DM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند.

تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.

با ارایه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آمار وDM  می پردازیم .

کاربردهای روشهای آماری

Data  mining   معمولا  وظایف یا به  عبارت بهتر استراتژهای  زیر را  در  داده ها بکار  می برد :

– توضیح و تفسیر (description)

– تخمینestimation)  )

– پیش بینیprediction)  )

– کلاس بندیclassification) )

– خوشه سازی  (clustering)

– وابسته سازی وایجاد رابطه (association)

در جدول زیر  استراتژی ها  و روشهای هر استراتژی مشخص شده است :

روشهااستراتژیها
تحلیل  داده هاتوضیح  وتفسیر
تحلیل های آماریتخمین
تحلیل های آماریپیش بینی
الگوریتم نزدیک ترین همسایهکلاس بندی
درخت  تصمیمکلاس بندی
شبکه های عصبیکلاس بندی
خوشه سازی  k-meanخوشه سازی
شبکه های kohonenخوشه سازی
وابسته سازی  و ایجاد رابطهرابطه سازی

البته باید  گفت که روشهای data mining  تنها  به یک استراتژی خاص محدود  نمی شوندو  نتایج  یک را همپوشانی بین روشها نشان  می دهد. برای مثال درخت تصمیم ممکن است که درکلاس بندی تخمین وپیش بینی کاربرد داشته باشد. بنابراین این جدول را نباید به عنوان تعریف تعریف تقسیم بندی از وظایف در نظرگرفته شود‏‎ بلکه به عنوان یک خروجی از آنچه که ما به عنوان وظایف dataminig  آشنایی پیدا کردیم در نظر گرفته می شود.

همانگونه که ازجدول پیداست روشهای آماری  در مباحث تخمین و پیش بینی کاربرد دارند. در تحلیل آماری تخمین و پیش بینی عناصری از استنباطهای آماری هستند.استنباطهای آماری شامل روشهایی برای تخمین و تست فرضیات درباره جمعیتی از ویژگیها براساس اطلاعات حاصل از نمونه است .یک  جمعیت شامل مجموعه ای از عناصر از قبیل افراد، ایتم ها، یا داده ها یی که دریک مطالعه خاص آمده است. بنابراین در اینجا به توضیح این  دواستراتژی می پردازیم.

۱- تخمین

در تخمین به دنبال این هستیم  که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسائل تخمین بیشتر عددی هستند تا قیاسی. بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند. مثلا موارد بلی،خیر به ۰ و۱ تبدیل می شود.

تکنیکهای نظارتی DM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را. یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.

روشهای آماری مورد استفاده دراین مورد بطورکلی شامل تخمین نقطه و فاصله اطمینان میباشد. تحلیل های آماری تخمین و تحلیل های یک متغیره و… از این جمله  می باشند.

در توضیح اینکه چرا به سراغ تخمین می رویم باید گفت که مقدار واقعی پارامترها برای ما ناشناخته است.مثلا مقدار واقعی میانگین یک جامعه مشخص نیست. داده ها ممکن است که بطور رضایت بخشی جمع آوری نشده باشد‏ یا به  عبارتی warehouse نشده باشد. به همین دلیل تحلیل گران از تخمین استفاده میکنند.

در خیلی از موارد تعیین میانگین مجموعه ای از داده ها برای ما مهم است.مثلا میانگین نمرات درسی یک کلاس،میانگین تعداد نفراتی که در یک روز به بانک مراجعه می کنند،متوسط مقدار پولی که افراد دریک  شعبه خاص از بانک واریز می کنند و موارد این چنینی.

زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم، آن پارامتر را تخمین زده ایم و به مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم. در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم. از مهمترین تخمین زننده ها  است که به ترتیب برآورد واریانس و میانگین جامعه هستند. خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی، ناسازگاری، بسندگی و… هستند، که هر یک به بیان ویژگی خاصی از آنها می پردازند و میزان توانایی آنها را در تخمین درست و دقیق یک پارامتر تعیین می کنند.

در مواردی نیز تخمین فاصله برای ما اهمیت دارد. فاصله اطمینان شامل فاصله ای است که  با درصدی از اطمینان می توانیم بگوییم که مقدار یک  پارامتر درون این فاصله قرار می گیرد. به عبارت دیگر اگر چه برآورد نقطه ای طریقه متداول توصیف برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است. مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد  پارامتر  را  با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس  ،یا اطلاعات دیگری درباره توزیع نمونه گیری  کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.

۲- پیش بینی( prediction )

هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند و هم قیاسی. این استراتژی در بین استراتژی های data mining از اهمیت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد. خیلی از تکنیکهای نظارتی  data mining که برای کلاس بندی و تخمین مناسب هستند در واقع کار پیش بینی انجام می دهند.

آنچه از کتابهای آماری و data minig تحت عنوان پیش بینی برمی آید رگرسیون و مباحث  مر بوط به آن است . در واقع در اکثر این کتابها هدف اصلی از انجام تحلیل های آماری برای داده  کاوی، رگرسیون  داده  هاست و این بعنوان وظیفه اصلی متد های آماری معرفی می شود.

برگرفته از: مدرسه متا یکجا

تحلیل داده های آماری

نرم افزار لیزرل و انجام مدلسازی معادلات ساختاری با آن

نرم افزار لیزرل و انجام مدلسازی معادلات ساختاری با آن

1- مدل معادلات ساختاری چیست؟

مدل يابي معادلات ساختاري (Structural equation modeling: SEM) يک تکنيک تحليل چند متغيري بسيار کلي و نيرومند از خانواده رگرسيون چند متغيري و به بيان دقيق‌تر بسط “مدل خطي کلي” (General linear model) یا GLM است. SEM به پژوهشگر امکان مي‌دهد مجموعه اي از معادلات رگرسيون را به صورت هم زمان مورد آزمون قرار دهد.

مدل يابي معادله ساختاري يک رويکرد جامع براي آزمون فرضيه‌هايي درباره روابط متغيرهاي مشاهده شده و مکنون است که گاه تحليل ساختاري کوواريانس، مدل يابي علّي و گاه نيز ليزرل (Lisrel) ناميده شده است اما اصطلاح غالب در اين روزها، مدل يابي معادله ساختاري يا به گونه خلاصه SEM است. (هومن 1384،11)

از نظر آذر (1381) نيز يکي از قوي‌ترين و مناسب‌ترين روش‌هاي تجزيه و تحليل در تحقيقات علوم رفتاري و اجتماعي، تجزيه و تحليل چند متغيره است زيرا اين گونه موضوعات چند متغيره بوده و نمي توان آنها را با شيوه دو متغيري (که هر بار يک متغير مستقل با يک متغير وابسته در نظر گرفته مي‌شود) حل نمود.

«تجزيه و تحليل ساختارهاي کوواريانس» يا همان «مدل يابي معادلات ساختاري»، يکي از اصلي‌ترين روش‌هاي تجزيه و تحليل ساختار داده‌هاي پيچيده و يکي از روش‌هاي نو براي بررسي روابط علت و معلولي است و به معني تجزيه و تحليل متغيرهاي مختلفي است که در يک ساختار مبتني بر تئوري، تاثيرات همزمان متغيرها را به هم نشان مي‌دهد. از طريق اين روش مي‌توان قابل قبول بودن مدل‌هاي نظري را در جامعه‌هاي خاص با استفاده از داده‌هاي همبستگي، غير آزمايشي و آزمايشي آزمود.

2- انديشه اساسي و زيربنايی مدل يابي ساختاري

يکي از مفاهيم اساسي که در آمار کاربردي در سطح متوسط وجود دارد اثر انتقالهاي جمع پذير و ضرب پذير در فهرستي از اعداد است. يعني اگر هر يک از اعداد يک فهرست در مقدار ثابت K ضرب شود ميانگين اعداد در همان K ضرب مي‌شود و به اين ترتيب، انحراف معيار استاندارد در مقدار قدر مطلق  K  ضرب خواهد شد.

نکته اين است که اگر مجموعه اي از اعداد X با مجموعه ديگري از اعداد Y از طريق معادله Y=4X   مرتبط باشند در اين صورت واريانس Y بايد 16 برابر واريانس X باشد و بنابراين از طريق مقايسه واريانس‌هاي X و Y مي‌توانيد به گونه غير مستقيم اين فرضيه را که Y و X از طريق معادله Y=4X با هم مرتبط هستند را بيازماييد.

اين انديشه از طريق تعدادي معادلات خطي از راه‌هاي مختلف به چندين متغير مرتبط با هم تعميم داده مي‌شود. هرچند قواعد آن پيچيده‌تر و محاسبات دشوارتر مي‌شود، اما پيام کلي ثابت مي‌ماند. يعني با بررسي واريانسها و کوواريانسهاي متغيرها مي‌توانيد اين فرضيه را که “متغيرها از طريق مجموعه اي از روابط خطي با هم مرتبط اند” را بيازماييد.

توسعه مدل‌هاي علّي و همگرايي روش‌هاي اقتصادسنجي، روان سنجي و غیره

توسعه مدل‌هاي علّي متغيرهاي مکنون معرف همگرايي سنتهاي پژوهشي نسبتا مستقل در روان سنجي، اقتصادسنجي، زيست شناسي و بسياري از روشهاي قبلا آشناست که آنها را به شکل چهارچوبي وسيع در مي‌آورد. مفاهيم متغيرهاي مکنون (Latent variables)  در مقابل متغيرهاي مشاهده شده (Observed variables)  و خطا در متغيرها، تاريخي طولاني دارد.

در اقتصادسنجي آثار جهت دار هم زمان چند متغير بر متغيرهاي ديگر، تحت برچسب مدلهاي معادله همزمان بسيار مورد مطالعه قرار گرفته است. در روان سنجي به عنوان تحليل عاملي و تئوري اعتبار توسعه يافته و شالوده اساسي بسياري از پژوهش‌هاي اندازه گيري در روانسنجي مي‌باشد. در زيست شناسي، يک سنت مشابه همواره با مدلهاي معادلات همزمان (گاه با متغيرهاي مکنون) در زمينه نمايش و طرح برآورده در تحليل مسير سر و کار دارد.

3- موارد کاربرد روش ليزرل

روش ليزرل ضمن آنکه ضرايب مجهول مجموعه معادلات ساختاري خطي را برآورد مي‌کند براي برازش مدلهايي که شامل متغيرهاي مکنون، خطاهاي اندازه گيري در هر يک از متغيرهاي وابسته و مستقل، عليت دو سويه، هم زماني و وابستگي متقابل مي‌باشد طرح ريزي گرديده است.

اما اين روش را مي‌توان به عنوان موارد خاصي براي روشهاي تحليل عاملي تاييدي، تحليل رگرسيون چند متغيري، تحليل مسير، مدلهاي اقتصادي خاص داده‌هاي وابسته به زمان، مدلهاي برگشت پذير و برگشت ناپذير براي داده‌هاي مقطعي/ طولي، مدلهاي ساختاري کوواريانس و تحليل چند نمونه اي (مانند آزمون فرضيه‌هاي برابري ماتريس کوواريانس هاي، برابري ماتريس همبستگي ها، برابري معادلات و ساختارهاي عاملي و غيره) نيز به کار برد.

4- نرم افزار ليزرل چیست؟

ليزرل يک محصول نرم افزاري است که به منظور برآورد و آزمون مدلهاي معادلات ساختاري طراحي و از سوي “شرکت بين المللي نرم افزار علمي”

Scientific software international  (www.ssicentral.com)

به بازار عرضه شده است. اين نرم افزار با استفاده از همبستگي و کوواريانس اندازه گيري شده، مي‌تواند مقادير بارهاي عاملي، واريانسها و خطاهاي متغيرهاي مکنون را برآورد يا استنباط کند و از آن مي‌توان براي اجراي تحليل عاملي اکتشافي، تحليل عاملي مرتبه دوم، تحليل عاملي تاييدي و همچنين تحليل مسير (مدل يابي علت و معلولي با متغيرهاي مکنون) استفاده کرد.

تحلیل ساختاری کوواریانس که به آن روابط خطی ساختاری نیز می گویند، یکی از تکنیک های تحلیل مدل معادلات ساختاری است. جالب است بدانید که نام LISREL از عبارت

Linear Structural Relations 

که به معنای روابط خطی ساختاری است، بدست آمده است.

5- تحليل عاملي اکتشافي (efa) و تحليل عاملي تاييدي (cfa)

تحليل عاملي مي‌تواند دو صورت اکتشافي و تاييدي داشته باشد. اينکه کدام يک از اين دو روش بايد در تحليل عاملي به کار رود مبتني بر هدف تحليل داده هاست.

تحليل عاملی اکتشافي

در تحليل عاملی اکتشافي(Exploratory factor analysis) پژوهشگر به دنبال بررسي داده‌هاي تجربي به منظور کشف و شناسايي شاخص‌ها و نيز روابط بين آنهاست و اين کار را بدون تحميل هر گونه مدل معيني انجام مي‌دهد. به بيان ديگر تحليل عاملی اکتشافي علاوه بر آنکه ارزش تجسسي يا پيشنهادي دارد مي‌تواند ساختارساز، مدل ساز يا فرضيه ساز باشد.

تحليل اکتشافي وقتي به کار مي‌رود که پژوهشگر شواهد کافي قبلي و پيش تجربي براي تشکيل فرضيه درباره تعداد عامل‌هاي زيربنايي داده‌ها نداشته و به واقع مايل باشد درباره تعيين تعداد يا ماهيت عامل‌هايي که همپراشي بين متغيرها را توجيه مي‌کنند داده‌ها را بکاود. بنابر اين تحليل عاملی اکتشافي بيشتر به عنوان يک روش تدوين و توليد تئوري و نه يک روش آزمون تئوري در نظر گرفته مي‌شود.

تحليل عاملي اکتشافي روشي است که اغلب براي کشف و اندازه گيري منابع مکنون پراش و همپراش در اندازه گيري‌هاي مشاهده شده به کار مي‌رود. پژوهشگران به اين واقعيت پي برده اند که تحليل عاملي اکتشافي مي‌تواند در مراحل اوليه تجربه يا پرورش تستها کاملا مفيد باشد. توانشهاي ذهني نخستين ترستون، ساختار هوش گيلفورد نمونه‌هاي خوبي براي اين مطلب مي‌باشد. اما هر چه دانش بيشتري درباره طبيعت اندازه گيري‌هاي رواني و اجتماعي به دست آيد ممکن است کمتر به عنوان يک ابزار مفيد به کار رود و حتي ممکن است بازدارنده نيز باشد.

از سوي ديگر بيشتر مطالعات ممکن است تا حدي هم اکتشافي و هم تاييدي باشند زيرا شامل متغير معلوم و تعدادي متغير مجهول‌اند. متغيرهاي معلوم را بايد با دقت زيادي انتخاب کرد تا حتي الامکان درباره متغيرهاي نامعلومي که استخراج مي‌شود اطلاعات بيشتري فراهم‌ايد. مطلوب آن است که فرضيه اي که از طريق روش‌هاي تحليل اکتشافي تدوين مي‌شود از طريق قرار گرفتن در معرض روش‌هاي آماري دقيق‌تر تاييد يا رد شود. تحليل عاملی اکتشافي نيازمند نمونه‌هايي با حجم بسيار زياد مي‌باشد.

تحليل عاملي تاييدي

در تحليل عاملي تاييدي (Confirmatory factor analysis) ، پژوهشگر به دنبال تهيه مدلي است که فرض مي‌شود داده‌هاي تجربي را بر پايه چند پارامتر نسبتا اندک، توصيف تبيين يا توجيه مي‌کند. اين مدل مبتني بر اطلاعات پيش تجربي درباره ساختار داده هاست که مي‌تواند به شکل:

1) يک تئوري يا فرضيه

2) يک طرح طبقه بندي کننده معين براي گويه‌ها يا پاره تستها در انطباق با ويژگي‌هاي عيني شکل و محتوا

3)شرايط معلوم تجربي

و يا    4) دانش حاصل از مطالعات قبلي درباره داده‌هاي وسيع باشد.

تمايز مهم روش‌هاي تحليل اکتشافي و تاييدي در اين است که روش اکتشافي با صرفه‌ترين روش تبيين واريانس مشترک زيربنايي يک ماتريس همبستگي را مشخص مي‌کند. در حالي که روش‌هاي تاييدي (آزمون فرضيه) تعيين مي‌کنند که داده‌ها با يک ساختار عاملي معين (که در فرضيه آمده) هماهنگ اند يا نه.

ضمنا خاطر نشان می شود برای دریافت ویدئوی آموزشی تحلیل عاملی تاییدی در نرم افزار لیزرل می توانید به این صفحه مراجعه نمایید:

6- آزمون‌هاي برازندگي مدل کلي

با آنکه انواع گوناگون آزمون‌ها که به گونه کلي شاخص‌هاي برازندگي(Fitting indexes) ناميده مي‌شوند پيوسته در حال مقايسه، توسعه و تکامل مي‌باشند اما هنوز درباره حتي يک آزمون بهينه نيز توافق همگاني وجود ندارد. نتيجه آن است که مقاله‌هاي مختلف، شاخص‌هاي مختلفي را ارائه کرده اند و حتي نگارش‌هاي مشهور برنامه‌هاي SEM مانند نرم افزارهاي lisrel, Amos, EQS نيز تعداد زيادي از شاخص‌هاي برازندگي به دست مي‌دهند.(هومن1384 ،235)

اين شاخص‌ها به شيوه‌هاي مختلفي طبقه بندي شده اند که يکي از عمده‌ترين آنها طبقه بندي به صورت مطلق، نسبي و تعديل يافته مي‌باشد. برخي از اين شاخص ها عبارتند از:

1-6- شاخص‌هاي  GFI و  AGFI

شاخص GFI – Goodness of fit index  مقدار نسبي واريانس‌ها و کوواريانس‌ها را به گونه مشترک از طريق مدل ارزيابي مي‌کند. دامنه تغييرات GFI بين صفر و يک مي‌باشد. مقدار GFI بايد برابر يا بزرگتر از  0.09  باشد.

شاخص برازندگي ديگر Adjusted Goodness of Fit Index – AGFI    يا همان مقدار تعديل يافته شاخص GFI براي درجه آزادي مي‌باشد. اين مشخصه معادل با کاربرد ميانگين مجذورات به جاي مجموع مجذورات در صورت و مخرج (1- GFI) است. مقدار اين شاخص نيز بين صفر و يک مي‌باشد. شاخص‌هاي GFI  و  AGFI  را که جارزکاگ و سوربوم (1989) پيشنهاد کرده اند بستگي به حجم نمونه ندارد.

2-6- شاخص RMSEA

اين شاخص , ريشه ميانگين مجذورات تقريب مي‌باشد.

شاخص Root Mean Square Error of Approximation – RMSEA براي مدل‌هاي خوب برابر 0.05 يا کمتر است. مدلهايي که RMSEA  آنها 0.1 باشد برازش ضعيفي دارند.

3-6- مجذور کاي

آزمون مجذور كاي (خي دو) اين فرضيه را مدل مورد نظر هماهنگ با الگوي همپراشي بين متغيرهاي مشاهده شده است را مي‌آزمايد، کميت خي دو بسيار به حجم نمونه وابسته مي‌باشد و نمونه بزرگ کميت خي دو را بيش از آنچه که بتوان آن را به غلط بودن مدل نسبت داد, افزايش مي‌دهد. (هومن.1384. 422).

4-6- شاخص  NFI و CFI

شاخصNFI (که شاخص بنتلر-بونت هم ناميده مي‌شود) براي مقادير بالاي 0.09  قابل قبول و نشانه برازندگي مدل است. شاخص CFI  بزرگتر از 0.09  قابل قبول و نشانه برازندگي مدل است. اين شاخص از طريق مقايسه يک مدل به اصطلاح مستقل که در آن بين متغيرها هيچ رابطه اي نيست با مدل پيشنهادي مورد نظر، مقدار بهبود را نيز مي‌آزمايد. شاخص CFI  از لحاظ معنا مانند NFI  است با اين تفاوت که براي حجم گروه نمونه جريمه مي‌دهد.

شاخص‌هاي ديگري نيز در خروجي نرم افزار ليزرل ديده مي‌شوند که برخي مثل AIC,  CAIC  ECVA  براي تعيين برازنده‌ترين مدل از ميان چند مدل مورد توجه قرار مي‌گيرند.

براي مثال مدلي که داراي کوچکترين AIC ,CAIC ,ECVA باشد برازنده‌تر است.(هومن1384 ،244-235) برخي از شاخص‌ها نيز به شدت وابسته به حجم نمونه اند و در حجم نمونه‌هاي بالا مي‌توانند معنا داشته باشند.

برگرفته از سایت اطمینان شرق

بنيان های مدل سازي معادله ساختاري

بنيان های مدل سازي معادله ساختاري

در این مقاله در خصوص الگوهای معادله ساختاری، تدوین مدل، تشخیص مدل، برآورد مدل، آزمون مدل و اصلاح مدل معادلات ساختاری گفتگو می کنیم.

 تحلیل آماری

الگوهای معادله ساختاری

الگوهای معادله ساختاری، مجموعه هایی از معادلات خطی هستند که برای تعیین یک پدیده برحسب متغیرهای علت و معلول از پیش فرض شده به کار می روند. کلی ترین شکل این الگوها امکان اندازه گیری متغیرهایی که نمی توانند مستقیماً اندازه گیری شوند را فراهم می کند. الگوهای معادله ساختاری به ویژه در علوم اجتماعی و رفتاری مفیدند و برای مطالعه رابطه بین وضعیت های اجتماعی و حصول آن ها، تصمیم های مربوط به قابلیت سوددهی شرکت ها، کارایی برنامه های رفتار اجتماعی و دیگر مکانیسم ها مورد استفاده قرار می گیرد.

تدوین مدل

قبل از هر نوع جمع آوری داده و تحلیل، پژوهشگر بایستی مدلی را تدوین نماید که به نظر می رسد مقادیر واریانس- کواریانس آن را تأیید نمایند. به بیان دیگر تدوین مدل تصمیم در این باره است که کدام متغیرها در مدل نظری قرار گیرند و این که این متغیرها چگونه با هم در ارتباط هستند.

یک مدل هنگامی به خوبی تدوین شده است که مدل واقعی جامعه با مدل نظری فرض شده سازگار باشد. به عبارت دیگر ماتریس کواریانس نمونه ای S به طور بسنده ای بوسیله مدل نظری تحت آزمون بازتولید شود. بنابراین هدف تحقق مدلی است که نزدیکترین برازش را با ساختار کواریانس مدل دارا باشد. مثال ساده ای را با دو متغیر X و Y در نظر بگیرید. ما براساس پژوهش قبلی می دانیم که این دو متغیر با یکدیگر ارتباط دارند. اما چرا؟ کدام ارتباط نظری بیانگر این رابطه است؟ آیا X بر Y اثر می گذارد یا عکس این حالت برقرار می باشد و یا متغیر سومی به نام Z بر هردوی آن ها اثر می گذارد. گاه ممکن است با در نظر مدل اولیه نامناسب باعث شویم یک پارامتر با اهمیت از مدل حذف شود (مثلا غفلت کردن از وجود رابطه X و Y) و یا این که یک متغیر مهم را از مدل حذف نماییم. علاوه بر این ممکن است یک پارامتر یا متغیر نامناسب در مدل وارد شوند که سبب ایجاد اریبی در برآورد پارامترها شده و نوعی خطا را در تدوین مدل بوجود می آورد.

تشخیص مدل

در مدل سازی معادلات ساختاری حل مسئله تشخیص مدل پیش از برآورد پارامترها بسیار با اهمیت است. در تشخیص مدل این سؤال مطرح می شود که : آیا براساس داده های نمونه ای موجود در ماتریس کواریانس نمونه ای S   و مدل نظری تعریف شده بوسیله ماتریس کواریانس جامعه ∑ می توان مجموعه ی منحصر به فردی از برآورد پارامترها یافت؟

پیش از توضیح در مورد تشخیص مدل، توضیحاتی را در مورد پارامترهای مدل ارائه می دهیم .هر پارامتر در مدل باید به عنوان یک پارامتر آزاد، ثابت یا مقید مشخص شود. یک پارامتر آزاد پارامتری است که شناخته شده نیست و نیازمند برآورد است. پارامتر ثابت، پارامتری است که آزاد نیست اما برای آن یک مقدار مشخص(به طور معمول مقدار صفر یا 1) تعریف شده است. یک پارامتر مقید نیز پارامتری است که مشخص نیست اما برابر با یک یا تعداد بیشتری پارامتر است.

تشخیص مدل در واقع به طرح پارامترها به عنوان ثابت، آزاد یا مقید بستگی دارد. پس از آن که مدل و پارامترها تدوین شدند، این پارامترها برای برای شکل دادن به یک و تنها یک ∑  با یکدیگر ترکیب می شوند. اگر دو یا تعداد بیشتری از مجموعه پارامترها ماتریس ∑  یکسانی را تولید کنند، انگاه این مجموعه ها معادل یا همتا خوانده می شوند.

بر این اساس سه سطح برای تشخیص مدل وجود دارد:

1- یک مدل فرومشخص است اگر یک یا تعداد بیشتری از متغیرها نتوانند به طور یکتایی مشخص شوند زیرا اطلاعات کافی در ماتریس S وجود ندارد.

2- یک مدل کاملا مشخص است اگر همه پارامترها به دلیل وجود اطلاعات کافی در ماتریس S به طور منحصر به فردی تعیین شوند..

3- یک مدل فرامشخص است هنگامی که بیش از یک جواب برای یک یا چند پارامتر وجود دارد.

اگر مدل فرومشخص باشد برآورد پارامترها قابل اعتماد نبوده و در چنین حالتی درجات آزادی مدل صفر یا منفی است. این مدل ممکن است با افزودن قیدهایی مشخص شود. مدل های کاملا مشخص و فرامشخص برای برآورد پارامترها مناسب هستند.

برآورد مدل

گام بعدی بدست آوردن برآوردهایی برای هریک از پارامترهای تعیین شده در مدل است که ماتریس نظری  ∑  را تولید می کنند. برآورد پارامترها باید به گونه ای باشد که نزدیک ترین ماتریس به ماتریس واریانس کواریانس نمونه ای بازتولید شود و خطا یعنی  ∑-S  حداقل شود.

برخی از روش های اولیه برای این منظور شامل حداقل مربعات غیروزنی، حداقل مربعات معمول، حداقل مربعات تعمیم یافته و روش حداکثر درستنمایی است. از میان این روش ها تنها روش حداقل مربعات غیروزنی وابسته به مقیاس است.

آزمون مدل

پس از آنکه برآورد پارامترها برای یک مدل تدوین شده و مشخص بدست آمدند، محقق باید تعیين کند که داده ها تا چه حد با مدل برازش دارند؟

دو شیوه برای برسی برازش مدل وجود دارد : ابتدا ملاحظه برخی آزمون های عمومیت یافته برای برازش کل مدل است و شیوه دوم بررسی برازش پارامترهای منفرد در هریک از اجزای مدل است. آزمو های کلی با عنوان معیارهای برازش مدل شناخته می شوند. بسیاری از این شاخص ها برمبنای مقایسه ماتریس کواریانس اقتباس شده از مدل ∑  با ماتریس کواریانس نمونه ای S ساخته شده اند.

برای بررسی برازش پارامترهای منفرد سه آزمون اصلی مورد استفاده قرار می گیرند:

  • اول آنکه آیا یک پارامتر آزاد به طور معناداری با صفر تفاوت دارد یا خیر؟
  • دوم آنکه آیا علامت پاارمتر با آنچه به لحاظ نظری مورد انتظار بوده هماهنگ است؟
  • و سوم اینکه برآورد پارامترها باید در دامنه مقادیر مورد انتظار قرارگیرند.

هریک از این سؤالات با کمک روش ها و آزمون های آماری مناسب پاسخ داده می شوند.

اصلاح مدل

اگر برازش یک مدل نظری به قوتی که انتظار داشتیم نبود آنگاه گام بعدی اصلاح مدل و ارزیابی مدل اصلاح شده می باشد. فرآیند نمایان سازی خطاهای تدوین مدل به نحوی که مدل های جایگزین تدوین شده به طور مناسب تری ارزیابی شوند ، «جستجوی تدوین» نامیده می شود. هدف از یک جستجوی تدوین تعویض مدل اصلی با مدلی است که در برخی جهات دارای برازش بهتری بوده و پارامترهایی را برآورد می کند که به لحاظ آماری معنادار و به لحاظ نظری دارای معنا و مفهوم باشند.

بررسی ماتریس باقیمانده ها، ملاحظه معناداری آماری پارامترهای مدل و همچنین استفاده از مضرب لاگرانژ و آماره والد از جمله روش های مورد استفاده برای این منظور هستند.

منبع : مقدمه ای بر مدل سازی معادله ساختاری ، نوشته رندال. ای. شوماخر و ریچارد ای لومکس /  ترجمه شده توسط دکتر وحید قاسمی/ انتشارات جامعه شناسان.

برگرفته از سایت اطمینان شرق

آموزش پیشرفته sPSS

انواع مدل هاي معادلات ساختاري و کاربرد آن ها

انواع مدل هاي معادلات ساختاري و کاربرد آن ها

در این مقاله به تشریح انواع مدل های معادله ساختاری و کاربرد آنها می پردازیم.

 تحلیل آماری

1- مدل های با معرف های چندگانه و علل چندگانه

معرف های چندگانه و علل چندگانه نوع خاصی از مدل های معادله ساختاری را معرفی می کند و به طور مخفف با

MIMIC (Multiple Indicator and Multiple Causes)

نشان داده می شود. مدل های MIMIC شامل کاربرد متغیرهای پنهانی است که بوسیله متغیرهای مشاهده شده پیش بینی می شوند. این موضوع را با مثالی از یورسکوگ و سوربوم (1996) بیان می کنیم که در آن یک متغیر پنهان (مشارکت اجتماعی) بوسیله رفتن به کلیسا، عضویت های گروهی و دیدار دوستان تعریف شده است. همچنین این متغیر بوسیله متغیرهای مشاهده شده درآمد، اشتغال و تحصیلات پیش بینی می شود.

متغیر پنهان مشارکت اجتماعی با پیکان هایی به سه معرف متصل شده است که هرکدام دارای مقداری خطای اندازه گیری هستند. همچنین سه پیکان از متغیرهای مشاده شده به سمت متغیر مشارکت اجتماعی نشانه رفته است. این متغیرهای مشاهده شده با یکدیگر همبستگی دارند. پس از بررسی معناداری متغیرها در صورت لزوم متغیرهای غیرضروری از مدل حذف می شوند.

2- مدل های گروه های چندگانه

تحلیل مدل های گروه های چندگانه با بررسی مدل های اندازه گیری و یکسانی اندازه گیری بین گروه ها آغاز می شود . چنین تحلیلی قبل از بررسی فرضیه های وجود تفاوت معنادار در ضرایب ساختاری بین گروه ها ضروری است. کاربرد این مدل شامل آزمون تفاوت بین برآورد پارامترها برای گروه های چندگانه می باشد.

به عنوان نمونه می توانیم به مثال ارائه شده توسط آربوکل و تکه (1999) اشاره کنیم. در این تحقیق تفاوت های ارزیابی از جذابیت و ارزیابی از توان آکادمیک بین دو گروه دختران و پسران مورد بررسی قرار گرفته است.

3-  مدل های چند سطحی

مدل های چندسطحی در مدل سازی معادله ساختاری به علت ماهیت سلسله مراتبی داده ها در یک طرح تحقیقی آشیانه ای به این نام خوانده می شوند. به عنوان مثال پیشرفت تحصیلی یک دانشجو در کلاس ها پایه ریزی شده است، بنابراین دانشجویان در کلاس ها آشیان شده، معلمان درمدارس آشیان شده هستند و مدارس در مناطق آشیان شده اند. طرح پژوهشی آشیانه ای با یک طرح پژوهشی متقاطع متفاوت است.

علاقه ما در این نوع از طرح ها، با ملاحظه ماهیت خوشه ای شده داده ها، به اثرات در سطوح متفاوت است. EQS دارای سه روش اجرای مدل چند سطحی بر اساس یک متغیر خوشه ای است که عبارتند از :

  • الف) حداکثر درستنمایی با استفاده از الگوریتم انتظار/ ماکزیمم کردن.
  • ب) برآورد موتن مبتنی بر حداکثر درستنمایی
  • ج) مدل خطی سلسله مراتبی.

روش چندسطحی ML با استفاده از برآورد حداکثر درستنمایی، الگوریتم EM را در دو گام به منظور برآورد پارامترها و خطاهای معیار به کار می برد. الگوریتم اول گام انتظار است(E) که در آن ماتریس های کواریانس درون و بین سطحی با استفاده از تکرار برآورد می شوند. گام دوم به حداکثر رسانی (ماکزیمم سازی) است که در آن اگر معیار همگرایی برقرار باشد، برآوردهای حداکثر درستنمایی و خطاهای معیار تولید می شوند.

تحلیل چندسطحی با ML تنها برای مدل های دوسطحی طراحی شده است. تفسیر مدل های چندسطحی که بیشتر از دو سطح آشیان شده دارند مشکل است. اما با این حال مدل های خطی سلسله مراتبی در رگرسیون با سه سطح از متغیر مشاهده شده تحلیل شده اند.

مدل های خطی سلسله مراتبی در EQS برای تحلیل تا 5 سطح با استفاده از متغیرهای پنهان طراحی شده اند. در مدل های خطی سلسله مراتبی ابتدا معادله سطح اول معادله سطح اول برای هر خوشه اجرا شده و پارامترهای برآورد شده ذخیره می شوند و سپس برای استفاده در معادله سطح دو مورد استفاده قرار می گیرند. بنابراین معادله سطح دوم داده های خود و همچنین پارامترهای برآورد شده از سطح اول را مورد استفاده قرار می دهد.

مدل چند سطحی خطی سلسله مراتبی در EQS مشابه برنامه های چند سطحی حداکثر درستنمایی و برآورد موتن بر مبنای حداکثر درستنمایی است به جز اینکه مجموعه دومی از داده ها نیز در آن تعریف می شوند.

4- مدل های ترکیبی

مدل های ترکیبی در مدل سازی معادلات ساختاری شامل تحلیل متغیرهای مشاهده شده ای است که از دو نوع مقوله ای و پیوسته هستند. EQS امکانی را فراهم می آورد که دو نوع متغیرهای مقوله ای و پیوسته در مدل حضور داشته باشند.

5- مدل میانگین های ساختمند

کاربرد مهم دیگر مدل سازی معادله ساختاری، آزمون تفاوت میانگین های گروهی برای متغیرهای مشاهده شده یا پنهان است. این کاربرد در واقع حالت توسعه یافته تحلیل پایه رویکرد واریانس است جایی که تفاوت میانگین ها برای متغیرهای مشاهده شده آزمون می شوند. آزمون تفاوت میانگین ها بین متغیرهای مشاهده شده در مدل سازی معادله ساختاری مشابه با تحلیل واریانس و کواریانس است.

در مورد آزمون مربوط به متغیرهای پنهان به عنوان مثال آزمون تفاوت میانگین متغیر پنهان توان شفاهی بین پسران دانشگاهی و غیر دانشگاهی در پایه های پنجم و هفتم را می توان در نظر گرفت. در این مثال نمرات افراد در خواندن و نوشتن، متغیر پنهان را در پایه های پنجم و هفتم می سازد.

6- مدل های چند خصیصه ای-چند روشی

این مدل ها با هدف نشان دادن خصایص چندگانه ارزیابی شده به وسیله سنجه های چندگانه مورد استفاده قرار می گیرند. به عنوان مثال می توان از پیشرفت و انگیزه دانش آموزان (خصیصه ها) نام برد که به وسیله نمره دهی معلمان و نمره دهی خود دانش آموزان (روش ها) ارزشیابی شده اند. این مدل ها اطلاعاتی را برای تعیین اعتبار سازه تدارک می بینند.

ماتریس چندخصیصه ای-چند روشی ضرایب اعتبار همگرا، ضرایب اعتبار ممیز و ضرایب قابلیت اعتماد را در طول قطر منعکس می کند. ضرایب قابلیت اعتماد نشان دهنده سازگاری درونی نمرات بر روی ابزار است و بنابراین باید حدودا بین 0.85 تا 0.95 یا بالاتر قرار گیرد. ضرایب اعتبار ممیز، همبستگی های بین سنجه های خصایص مختلف (سازه ها) با استفاده از روش یکسان (ابزار) است و بنابراین انتظار می رود بسیار پایین تر از ضرایب اعتبار همگرا و یا ضرایب قابلیت اعتماد ابزار باشد.

7- مدل یگانگی همبسته

این مدل ها توسط مارش و گریسون (1995) و وتکه (1996) به عنوان جایگزینی برای مدل های سنتی چندخصیصه ای-چند روشی طرح شده اند. در مدل های یگانگی همبسته هر متغیر به عنوان یک عامل خصیصه و یک جمله خطا، اثر پذیرفته و عامل های روشی نیز وجود ندارند. اثرات روش به وسیله جملات خطای همبسته هر متغیر به حساب می آیند.جملات خطای همبسته تنها بین متغیرهای سنجش شده به وسیله روش مشابه وجود دارند.

انواع متفاوتی از مدل های یگانگی همبسته می توانند تحلیل شوند. به عنوان مثال می توان به از یک عامل عام با یگانگی همبسته، دو عامل همبسته با یگانگی غیرهمبسته و دو عامل غیرهمبسته با یگانگی همبسته نام برد.  مارش و گریسون نشان می دهند که وجود کاهش معنادار در برازش بین یک مدل با خصایص همبسته اما جملات غیر همبسته و یک مدل با خصایص همبسته همراه با جملات خطای همبسته، نشانه وجود اثرات روشی است.

8- مدل های عاملی مرتبه دوم

این مدل ها هنگامی طرح می شوند که مدل های مرتبه اول به وسیله ساختار عاملی مرتبه بالاتر تبیین شوند. به عنوان مثال براساس داده های هولتزینگر و اسواینفورد نه متغیر روانشناختی، تعریف کننده سه عامل مشترک (بصری، شفاهی و سرعت) هستند. این سه عامل به نوبه خود عانل یگری به نام توان را تعریف می کنند. در برنامه Lisrel متغیر توان به عنوان یک متغیر پنهان معرفی می شود.

9- مدل های تعاملی

در مثال های قبلی فرض بر این بود که روابط موجود در مدل ها خطی هستند، به این معنا که همه روابط بین متغیرهای مشاهده شده و پنهان می توانند به وسیله معادلات خطی نشان داده شوند. هرچند که کاربرد اثرات تعاملی و غیرخطی در مدل های رگرسیونی عمومیت دارد، ارائه فرضیه های تعاملی در مدل های مسیر در حداقل است و مثال های بسیار کمی از مدل های عاملی غیرخطی تدارک دیده شده است. در واقع برای چندین دهه مدل سازی معادلات ساختاری برمبنای روابط ساختاری خطی قرار داشته است. اکنون مدل های معادله ساختاری با اثرات تعاملی امکان پذیر است.

در مدل سازی معادلات ساختاری اکنون می توانیم اثرات اصلی و اثرات تعاملی متغیرهای پنهان را آزمون کنیم. در هر حال چندین نوع از اثرات تعاملی وجود دارد. اثرات حاصلضرب متغیرهای مشاهده شده، غیرخطی، مقوله ای و حداقل مربعات دو مرحله ای.

رویکردهای متفاوتی را می توان برای بررسی اثرات تعاملی به کار برد، در ادامه این روش ها معرفی می شوند:

1-9- رویکرد متغیر پیوسته

کنی و جود (1984) روشی را برای آزمون تعامل میان متغیرهای پنهان براساس حاصلضرب های متغیرهای مشاهده شده طرح کرده اند. روش آن ها این امکان را فراهم می آورد که پژوهشگر هر دو نوع جملات درجه دوم و تعاملی را در میان متغیرهای پنهان وارد کند. به عنوان مثال اگر F1 بوسیله متغیرهای مشاهده شده X1 و X2 و F2 بوسیله متغیرهای مشاهده شده X3 و X4 تعریف شده اند، آنگاه تعامل متغیرهای پنهان به عنوان F3 می تواند بوسیله حاصلضرب های متغیرهای مشاهده شده مربوطه تعیین شود؛ یعنی X1X3 ، X1X4 ، X2X3 ، X2X4 . در این رویکرد متغیر پنهان تعاملی F3 می تواند در کنار متغیرهای پنهان اصلی F1 و F2 در معادله ساختاری وارد شود.

2-9- رویکرد متغیر مقوله ای

در این رویکرد نمونه های متفاوتی برحسب سطوح متفاوت متغیرهای تعاملی تعریف شده اند. منطق زیربنایی چنین است که چنانچه اثرات تعاملی وجود داشته باشند، هم اثرات اصلی و هم اثرات تعاملی می توانند با استفاده از نمونه ای متفاوت، به منظور آزمون تفاوت بین مقادیر عرض از مبدأ و ضریب زاویه تدوین شوند. دستیابی به چنین مدلی به وسیله اجرای دو مدل متفاوت امکان پذیر است. مدل اثرات اصلی برای تفاوت های گروهی در حالی که ضریب زاویه را ثابت نگه می داریم و مدل اثرات تعاملی برای تفاوت های گروهی در حالیکه مقادیر عرض از مبدأ و ضریب زاویه برآورد می شوند.

3-9- رویکرد حداقل مربعات دو مرحله ای

بولن (1996و1995) نشان داد که مدل های معادیه ساختاری غیرخطی می توانند به وسیله متغیرهای ابزاری در حداقل مربعات دو مرحله ای برآورد شوند. این روش از دو مرحله تشکیل شده است. در مرحله اول هریک از متغیرهای کمی برونزا در مدل رگرسیون می شوند و مقدار پیش بینی شده از این رگرسیون حاصل می شود.

در مرحله دوم رگرسیون هدف به طور معمول تخمین زده می شود و هر یک از متغیرهای برونزا با مقدار پیش بینی شده از مرحله اول جایگزین می شود. برآوردهای حداقل مربعات دو مرحله ای و خطاهای معیار آن ها بدون تکرار حاصل می شوند و بنابراین اطلاعاتی را بدست می دهد برای پاسخ به این سؤال که آیا مدل تدوین شده قابل دفاع هست یا خیر؟

4-9-  مدل های انحنایی رشد پنهان

تحلیل واریانس سنجه های تکرار شده به طور گسترده ای با استفاده از متغیرهای مشاهده شده برای آزمون آماری تغییرات در طول زمان مورد استفاده قرار گرفته اند. مدل سازی معادله ساختاری تحلیل داده های طولی را توسعه داده تا رشد متغیر پنهان را در طول زمان در برگیرد، در حالیکه هم تغییرات منفرد و هم تغییرات طولی را با استفاده از ضریب زاویه و مقادیر عرض از مبدأ به مدل درمی آورد. تحلیل انحنایی رشد پنهان به لحاظ مفهومی مشتمل بر دو تحلیل متفاوت است.

تحلیل اولیه سنجه های تکرار شده در طول زمان، که به طور خطی یا غیرخطی به شکل فرضیه درآمده است.

تحلیل دوم شامل استفاده از پارامترهای منفرد(مقادیر ضریب زاویه و عرض از مبدأ) برای تعیین تفاوت رشد از یک خط مبنا است. مدل انحنایی رشد پنهان تفاوت ها را در طول زمان منعکس کرده و میانگین ها (عرض از مبدأ) و نرخ تغییرات(ضریب زاویه) را در دو سطح فردی و گروهی به حساب می آورد.

در هر حال این رویکرد نیازمند نمونه های بزرگ، داده های دارای توزیع نرمال چندمتغیره، فواصل زمانی مساوی برای همه آزمودنی ها و تغییراتی می باشد که در نتیجه یک پیوستار زمانی رخ می دهند.

5-9- مدل های عاملی پویا

نوعی از کاربردهای مدل سازی معادله ساختاری که شامل متغیرهای پنهان ثابت و غیرثابت در طول زمان، با خطای اندازه گیری تأخیری (همبسته) است به نام تحلیل عاملی پویا خوانده می شود. ویژگی این کاربرد از مدل سازی معادله ساختاری این است که ابزارهای اندازه گیری مشابهی برای آزمودنی های یکسانی در دو یا تعداد بیشتری از موقعیت های زمانی اجرا شده اند.

هدف این تحلیل ارزیابی تغییر در متغیر پنهان بین دو موقعیت مرتب شده، در ارتباط با برخی وقایع یا آزمایش ها است. هنگامی که ابزار اندازه گیری مشابهی در دو یا چند موقعیت زمانی به کار می روند، تمایلی برای وجود خطای اندازه گیری همبسته وجود دارد (خودهمبستگی) 

برگرفته از سایت اطمینان شرق

مقاله نویسی

شاخص هاي برازش مدل معادلات ساختاري

شاخص هاي برازش مدل معادلات ساختاري

به طور کلی شاخص های برازش مدل در سه دسته اصلی برازش مدل، تطبیق مدل و اقتصاد مدل قرار می گیرند. در این نوشتار به معرفی اين شاخص ها می پردازیم.

 1- تعیین برازش مدل (پارامترها)

گاه حتی اگر معیار برازش کلی مدل بیانگر ساختاری قابل قبول باشد، برآورد پارامترهای منفرد در یک مدل می تواند فاقد معنا و مغهوم باشد. بنابراین تفسیر پارامترها در تحلیل هر مدل موضوعی با اهمیت است. در این باره گام های چهارگانه زیر پیشنهاد می شود :

1- بررسی کنید که آیا برآورد پارامترها دارای علامت مورد انتظار هستند یا خیر ؟

2- بررسی کنید که آیا برآورد پارامترها در دامنه تغییرات مورد نظر واقع می شوند یا خیر ؟

3- براورد پارامترها را برای تعیین معناداری آماری آن ها بررسی کنید.

4- عدم تفاوت سنجش بین گروهی را بوسیله برابر قرار دادن پارامترها (قیدها) در گروه های مختلف آزمون کنید و سپس مقایسه های نسبی را بین برآورد پارامترها انجام دهید.

بررسی برآورد پارامترهای اولیه نیز می تواند به تعیین نقص در مدل یا مدل بد تدوین شده کمک کند. در این مورد برآورد اولیه پارامترها به عنوان مقادیر اولیه مورد استفاده قرار می گیرند. به عنوان مثال در LISREL برآورد های اولیه حداقل مربعات دو مرحله با مقادیر آغازین تعریف شده توسط محقق جایگزین می شوند.

در مسیر برآورد پارامترها با مشکلات بسیاری ممکن است روبه رو شویم. گاه برآورد پارامترها مقادیر غیرممکنی را می گیرند، به عنوان مثال در مواردی که همبستگی بین متغیرها از عدد یک فراتر می رود چنین مشکلی پیش می آید. گاهی نیز مقادیر واریانس منفی بدست می آید.

علاوه براین ها داده های دورافتاده نیز می توانند برآورد پارامترها را تحت تأثیر قرار دهند. استفاده از حجم نمونه به اندازه کافی بزرگ و معرف های چندگانه برای هر متغیر پنهان، به عنوان راهکارهایی برای رسیدن به برآوردهای پایدار پارامترها پیشنهاد شده اند.

پس از آنکه این موضوعات مورد توجه قرار گرفتند تفسیر شاخص های اصلاح (آزمون های لاگرانژ و والد) و تغییرات بعدی در شاخص های برازش مدل می تواند آغاز شود.

اعتبار مدل بر اساس دو نیمه کردن نمونه مورد مطالعه و یا بررسی یک نمونه مستقل دیگر هنگامی که به مدل قابل قبول دست می یابیم، همواره باید مورد توجه باشد تا از پایداری برآورد پارامترها و اعتبار مدل اطمینان یابیم. علاوه براین ها خودگردان سازی نیز یک روش باز نمونه گیری را با استفاده از یک نمونه منفرد به کار می گیرد تا کارآمدی و دقت برآوردهای نمونه ای را آزمون کند.

آزمون های معناداری پارامترهای برآورد شده

آزمون های معناداری پارامترهای برآورد شده برای مدل های آشیان شده، شامل آزمون های نسبت درستنمایی(LR)، مضرب لاگرانژ(LM) و والد می باشد. پیش از آشنایی با هریک از این آزمون ها بایستی مفهوم مدل های آشیان شده را بیان نماییم.

مدل های آشیان شده

در یک مدل آشیان شده، یک ماتریس واریانس-کواریانس نمونه ای برای مدل اولیه با یک مدل مقید که در آن برآورد یک پارامتر برابر صفر قرار داده شده است مقایسه می شود. این روش با آزمون مدل های کامل در رگرسیون چندگانه قابل قیاس است.

در مدل سازی معادله ساختاری هدف تعیین معناداری تغییرات آماره کای دو برای مدل کامل است. در روش های برآورد حداقل مربعات تعمیم یافته، حداکثر درستنمایی و حداقل مربعات وزنی، این موضوع شامل تعیین معناداری آماره کای دو با یک درجه آزادی برای برآورد یک پارامتر منفرد است. بنابراین باید مقدار کاهش آماره کای دو برابر یا بیش از مقدار شاخص اصلاح برای برآورد پارامتری باشد که برابر صفر قرار داده شده است.

آزمون نسبت درستنمایی بین مدل های جایگزین برای بررسی تفاوت در مقادیر آماره کای دو بین مدل اولیه (کامل) و مدل مقید (اصلاح شده) در جایی که برآورد پارامتر برابر صفر قرار داده شده است امکان پذیر است. آمون نسبت درستنمایی براساس رابطه زیر محاسبه می شود :

آزمون مضرب لاگرانژ برازش یک مدل مقید را با مدلی با قید کمتر مقایسه کرده و در این مقایسه از ماتریسی مشابه ماتریس واریانس-کواریانس نمونه ای استفاده می کند. این آزمون پارامترهایی را نشان می دهد که لازم است به مدل افزوده شده یا در مدل به حساب آیند. محقق در این آزمون متغیری را برمی گزیند که بیشترین کاهش را در آماره کای دو را به دنبال دارد.  مضرب لاگرانژ دارای توزیع کای دو با درجه آزادی برابر با تفاوت درجات آزادی مدل های مقیدی است که با یکدیگر مقایسه می شوند.

در آزمون والد یک بردار 1*r از قیدها با نام (r(θ  در نظر می گیرد (برداری از پارامترهای انتخاب شده توسط محقق که برابر صفر قرار داده می شوند). اگر این بردار مقادیر بزرگتر از صفر را نشان دهد آنگاه مدل مقید یک مدل معتبر نیست. آماره والد نیز دارای توزیع کای دو با درجه آزادی برابر با تعداد قیدها در (r(θ  است. برخلاف آزمون نسبت درستنمایی هیچ یک از آماره های مضرب لاگرانژ و والد نیاز به برآوردهای جداگانه از قیدهای مدل های اولیه (کامل) و اصلاح شده (مقید) ندارند.

2- تطبيق مدل

با در نظر گرفتن نقشی که آماره کی دو در برازش مدل هایی با متغیرهای پنهان ایفا می کند، سه شاخص دیگر به عنوان روش هایی برای مقایسه مدل های جایگزین طرح می شوند : شاخص توکرلوییس (TLI)، شاخص برازش هنجارنشده (NNFI) یا هنجار شده (NFI) بنتلر بونت(1987) و شاخص برازش تطبیقی (CFI ).

این شاخص ها نوعا یک مدل پیشنهاد شده را با یک مدل صفر (مدل مستقل) مقایسه می کنند. توجه داشته باشید هر مدلی که پژوهشگر انتظار تفاوت مدل های جایگزین با آن را به عنوان یک مدل مبنایی داشته باشد، یک مدل صفر می باشد.

شاخص توکر-لوییس

این شاخص در ابتدا توسط توکر و لوییس(1973) برای تحلیل عاملی مطرح شد. اما سپس آن را برای مبحث مدل سازی معادله ساختاری توسعه دادند. این شاخص می تواند برای مقایسه مدل های جایگزین یا یک مدل پیشنهاد شده در مقابل مدل صفر به کار رود. مقدار این شاخص به کمک آماره کای دو به صورت زیر محاسبه می شود :

مقدار این شاخص بین 0 و 1 تغییر می کند. مقدار 0 نشان دهنده فقدان برازش و 1 بیانگر برازش کامل است.

شاخص برازش هنجار شده

شاخص برازش هنجار شده براساس تبدیل مقیاس کای دو ساخته شده و مقدار آن بین 0 و1 تغییر می کند. این شاخص برای مقایسه یک مدل مقید با مدل کامل بکار می رود وآماره معرفی شده برای آن به صورت زیر است :

شاخص برازش مقایسه ای

این شاخص که به عنوان شاخص برازش مقایسه ای بنتلر نیز نامیده می شود، برازش مدل موجود را با مدل صفری مقایسه می کند که در ان فرض شده است متغیرهای پنهان با یکدیگر ناهمبسته اند (مدل مستقل). در این روش با مقایسه ماتریس کواریانس پیش بینی شده براساس مدل و ماتریس کواریانس مشاهده شده در صد فقدان برازشی را که براساس حرکت از مدل صفر به مدل تعریف شده بوسیله محقق به حساب آمده است، تخمین می زند. به لحاظ معنا CFI مشابه NFI است که برای حجم نمونه اصلاح شده محاسبه شود. مقدارCFI نزدیک به 1 برازش بسیار خوب را نشان می دهد.

 3- شاخص های اقتصاد مدل

اقتصاد مدل

اقتصاد مدل به تعداد پارامترهای برآورد شده ای اشاره دارد که برای دستیابی به سطح خاصی از برازش مورد نیاز هستند. در این روش یک مدل فرامشخص با یک مدل مقید مقایسه می شود. شاخص هایی که در این زمینه مورد استفاده قرار می گیرند شامل کای اسکوئر هنجار شده (NC)، شاخص برازش مقتصد(PNFI,PCFI ) و معیار اطلاع آکائیک می باشند. این شاخص ها در واقع تعداد پارامترهایی را به حساب می آورد که برای رسیدن به مقدار خاصی از کای اسکوئر مورد نیاز است.

کای اسکوئر هنجار شده NC

پیش از معرفی این شاخص بایستی شاخص کای اسکوئر را معرفی نماییم.

کای اسکوئر

یک مقدار کای اسکوئر با درجه آزادی مشخص که به لجاظ آماری معنادار است، نشان می دهد که ماتریس های واریانس-کواریانس مشاهده شده و برآورد شده متفاوتند. به بیان دیگر محقق مایل به دستیابی به مقادیری از آماره کای دو است که کوچکتر از مقدار جدول کی دو باشد یعنی از نظر آماری معنادار نباشد.

سه روش برآورد برای محاسبه این آماره بکار برده می شود. روش حداکثر درستنمایی(ML)، حداقل مربعات تعمیم یافته(GLS) و حداقل مربعات غیر وزنی(ULS). هریک از این روش ها شرایط و همچنین مزایای خاص خود را دارا هستند. آماره کای دو از رابطه مقابل محاسبه می شود :

در این روابط t تعداد کل پارامترهای مستقل برآورد شده، n تعداد مشاهدات، p تعداد متغیرهای مشاهده شده و تحلیل شده و tr اثر ماتریس را نشان می دهند.

و اما در مورد شاخص کای دو هنجار شده، یورسکوگ (1969) پیشنهاد کرد که آماره کی دو به کمک درجه آزادی آن به منظور ارزیابی برازش مدل اصلاح شود. به این ترتیب می توان دو نوع از مدل های نامناسب را تعیین کرد : الف) مدلی که فرامشخص است. ب) مدلی که با داده های مشاهده شده برازش نداشته و نیاز به بهبود دارد. شاخص کای دو هنجار شده از تقسیم آماره کی دو بر درجه آزادی آن محاسبه می شود.

شاخص برازش مقتصد  PFI

شاخص برازش مقتصد به عنوان یکی از شاخص های برازش، اصلاح شده ی شاخص برازش هنجار شده می باشد. این شاخص تعداد درجات آزادی را به حساب می آورد که برای حصول سطح خاصی از برازش بکار می رود.شاخص های برازش مقتصد برای مقایسه مدل ها با درجات آزادی متفاوت مورد استفاده قرار گرفته و براساس رابطه زیر محاسبه می شود :

مقادیر مربوط به مدل تحت فرض صفر با عبارت null و مدل تحت فرض مقابل با  model  مشخص شده اند.

معیار اطلاع آکائیک

معیار اطلاع آکائیک برای مقایسه مدل هایی با تعداد متفاوتی از متغیرهای پنهان بکار می رود.

منبع

مقدمه ای بر مدل سازی معادله ساختاری ، نوشته رندال. ای. شوماخر و ریچارد.جی.لومکس/ ترجمه شده توسط دکتر وحید قاسمی/ انتشارات جامعه شناسان

برگرفته از سایت اطمینان شرق

پایان نامه نویسی مقاله نویسی

معرفي نرم افزار آموس يا اي موس (Amos)

نرم افزار Amos چیست؟

AMOS  مخفف عبارات Analysis of moment structures مي باشد. Amos را می توان یکی از موفق ترین نرم افزارهای کامپیوتری دانست که به طور خاص برای مدل سازی معادله ساختاری طراحی شده اند.

نرم افزار آموس (ايموسAmos ) نرم افزاري براي مدل سازي معادلات ساختاري  است که مدل سازی معادله ساختاری را به شیوه ای ترسیمی ارائه می دهد، به نحوی که می توان به سرعت مدل ها را تعریف کرد، محاسبات را انجام داد و در صورت نیاز آن ها را به سادگی اصلاح کرد.

هرچند هدف اصلی از طراحی این نرم افزار مدل سازی است اما قابلیت اجرای مجموعه ای از تحلیل های کمی و آماری معمول نیز بوسیله این نرم افزار وجود دارد. نرم افزار Amos توسط شرکت SPSS به بازار عرضه شده است و برای اجرا نیاز به حداقل 256 مگابایت RAM و  125 مگابایت فضای آزاد بر روی دیسک است.

مروری بر مقاله هایی که تحلیل داده های آن ها بر مبنای مدل سازی قرار دارد نشان می دهد که این برنامه به خوبی جای خود را در میان برنامه های کامپیوتری موجود در زمینه مدل سازی باز کرده و به سرعت استفاده از آن در حال گسترش است. با توجه به این که در حال حاضر به روز کردن و عرضه این نرم افزار توسط شرکت SPSS انجام می شود و این نرم افزار به همراه نگارش های 16 به بعد نرم افزار SPSS عرضه می شود، تا حدودی این انتظار وجود دارد که عمومیت استفاده از آن به تدریج به اندازه عمومیت استفاده از نرم افزار SPSS شود.

سفارش تحلیل داده های آماری برای پایان نامه و مقاله نویسی تحلیل داده های آماری شما با نرم افزارهای کمی و کیفی ،مناسب ترین قیمت و کیفیت عالی انجام می گیرد. نرم افزار های کمی: SPSS- PLS – Amos نرم افزارهای کیفی: Maxquda- NVivo تعیین حجم نمونه با:Spss samplepower Mobile : 09102194672& 09143444846 Telegram: @abazizi E-mail: abazizi1392@gmail.com

Amos Graphics

استفاده از این نرم افزار به دو شیوه نوشتن برنامه به زبانVB.NET و همچنین استفاده از Amos Graphics امکان پذیر است. استفاده از هریک از روش های ذکر شده به لحاظ کار بر روی انواع مدل ها، استفاده از انواع شیوه های برآورد پارامترها و یا محاسبه انواع شاخص های برازندگی و اخذ خروجی های مختلف، مشابه یکدیگر است اما در عین حال استفاده از  Amos Graphics تاحدودی ساده تر از برنامه نویسی است چرا که استفاده از آن برمبنای ترسیم مدل تدوین شده توسط پژوهشگر قرار دارد.

مدل نظری پژوهش در مقایسه با مدل مدون در Amos

به منظور استفاده از نرم افزار Amos بایستی به تفاوت های بین مدل های تعریف شده در Amos و مدل نظری توجه داشته باشیم. مدل نظری مدلی است که پژوهشگر با توجه به مبانی و چارچوب نظری مدل تعریف کرده است. این مدل عمدتا شامل متغیرهای پنهان، معرف های مرتبط و همچنین روابط بین آن ها می باشد. در مدل نظری پژوهشگر تعریف می کند که متغیرهای پنهان قرار است با کدام معرف ها اندازه گیری شوند و اینکه متغیرهای پنهان (و احتمالا برخی متغیرهای آشکار) چگونه با یکدیگر ارتباط داشته و یا یکدیگر را تحت تأثیر قرار می دهند. مدل مدون در ایموس گرافیکس (Amos Graphics) ضمن آن که همه اجزای تعریف شده در مدل نظری پژوهش را داراست، دارای اجزای جدیدی است که برای کار با Amos وجود این اجزا یا عناصر جدید ضرورت دارد.

جزئیات بیشتر هنگام کار با Amos Graphics معمولا شامل تعریف متغیرهای خطا (خطاهای اندازه گیری و خطاهای تبیین شده یا ساختاری) و همچنین تعریف متغیرهای مرجع است.تعریف متغیر مرجع به این مسئله برمی گردد که متغیرهای پنهان  موجود در مدل فاقد ریشه و واحد اندازه گیری هستند.

برای حل بدون مقیاس بودن متغیرهای پنهان دو راه وجود دارد :

  1. استاندارد در نظر گرفتن متغیر پنهان (متغیری با میانگین صفر و انحراف معیار 1) که برای این منظور لازم است واریانس متغیر پنهان برابر 1 قرار داده شود.
  2. قرار دادن ریشه و واحد اندازه گیری یکی از متغیرهای مشاهده شده مرتبط با متغیر پنهان به عنوان ریشه و واحد اندازه گیری همان متغیر پنهان. در این حالت به متغیر مشاهده شده اصطلاحا متغیر مرجع یا معرف نشان گذار گفته می شود.

آنچه در مدل سازی معمول است استفاد از روش دوم می باشد هرچند استفاده از روش اول نیز منجر به نتایج مشابهی در برآورد پارامترها می شود. لازم به ذکر است که متغیرهای پنهان موجود در مدل (به عبارت دیگر متغیرهایی که فاقد مقیاس اندازه گیری اند) خود به دو دسته اصلی تقسیم می شوند :

الف– متغیرهای خطا که شامل خطای اندازه گیری در مدل های اندازه گیری و خطاهای تبیین در مدل ساختاری اند. این متغیرها اساسا متغیرهای پنهانی هستند که اندازه گیری نشده اند، مدل را تحت تأثیر قرار می دهند ولی در مدل نظری پژوهش حضور نداشته اند.

ب– متغیرهای پنهان درمدل ساختاری که هرکدام با مجموعه ای از متغیرهای مشاهده شده اندازه گیری خواهند شد.

مراحل اجرایی کار با Amos Graphics

به طور خلاصه چهار مرحله اجرایی زیر را برای کار با Amos Graphics  می توان نام برد:

الف. تهیه فایل داده ها با SPSS
ب. ترسیم مدل تدوین شده در صفحه میانجی.
ج. مشخص کردن جزئیات تحلیل شامل موارد مورد نیاز در خروجی وتغییر شیوه برآورد پارامترها(درصورت لزوم)
د. انجام تحلیل و برآورد پارامترها.

حال به توضيح هر کدام مي پردازيم:

الف .تهیه فایل داده های ورودی

فایل داده ها با استفاده از نرم افزار SPSS  و به سه شکل زیر تهیه می شود:

  1. فایل حاوی داده های خام
  2. فایل حاوی ماتریس واریانس-کواریانس برگرفته از داده های خام
  3. فایل حاوی ماتریس همبستگی، میانگین و انحراف معیارها برگرفته ازداده های خام

مراحل تهیه ماتریس همبستگی تا حد زیادی به تهیه فایل در قالب واریانس-کواریانس شباهت دارد اما با این حال توجه به تفاوت های آن ها نیز ضرورت دارد. یکی از مهمترین این تفاوت ها این است که در صورت تدارک داده های گردآوری شده در قالب ماتریس همبستگی ضرورت دارد که میانگی ها و انحراف معیارهای متغیرها نیز در فایل وارد شوند تا امکان برآورد پارامترها به صورت غیراستاندارد نیز فراهم شود. درحالیکه با وجود ماتریس واریانس-کواریانس امکان برآوردهای استاندارد و غیراستاندارد وجود دارد.

ب. ترسیم مدل تدوین شده در Amos Graphics

Amos Graphics  یک جعبه ابزار متنوع در اختیار کاربر قرار می دهد که با استفاده از آن ها می توان مدل تدوین شده را با کلیه جزئیات آن ترسیم کرد بلکه امکانات مختلفی را برای اجرای تحلیل و مشاهده خروجی ها در اختیار قرار می دهد. توضیح این نکته لازم است که جعله ابزار قابل مدیریت است به نحوی که می توان نشانه هایی را به آن افزوده یا از آن کم کرد.

ج. مشخص کردن جزئیات تحلیل

پس از تدارک داده ها و ترسیم مدل لازم است قبل از اجرای تحلیل برخی از جزئیات آن مشخص شوند. چنین جزئیاتی می توانند موارد متنوعی را در برگیرند اما توجه به دو نکته لازم است :

  1. تعیین مواردی که مایل هستید علاوه بر موارد پیش فرض در خروجی گزارش شوند. مانند گزارش برآوردهای استاندارد علاوه بر برآوردهای غیراستاندارد در مدل.
  2. تعیین روش برآورد پارامترها. به طور پیش فرض روش حداکثر درستنمایی برای این منظور تعریف شده است.

د. اجرای تحلیل و برآورد پارامترها

اجرای تحلیل و برآورد پارامترها را می توان آخرین مرحله در اجرای اولیه دانست. پس از اجرای اولیه تحلیل و برآورد پارامترها و شاخص های مختلف برازش و همچنین وارسی سایر خروجی ها درباره تغییر، پژوهشگر می تواند درباره تغییر و اصلاح مدل تصمیم گیری نماید.

منبع

مدل سازی معادله ساختاری در پژوهش های اجتماعی با کاربرد Amos / نوشته دکتر وحید قاسمی / انتشارات جامعه شناسان.

برگرفته از سایت اطمینان شرق

مقاله نویسی

مدل معادلات ساختاری (Structural Equation Modeling) — مفاهیم، روش‌ها و کاربردها

مدل معادلات ساختاری (Structural Equation Modeling) — مفاهیم، روش‌ها و کاربردها

«مدل معادلات ساختاری» (Structural Equation Modeling)،‌ ابزاری قدرتمند در تحلیل‌های چند متغیره آماری محسوب می‌شود. این روش که به اختصار SEM نیز نامیده می‌شود، از روش‌هایی که در تحلیل چند متغیره وجود دارد در حالت خاص استفاده کرده و مدل‌هایی مناسب برای داده‌هایی مربوط به تحقیقات کیفی ارائه می‌دهد.

 کاربرد مدل معادلات ساختاری

در SEM از مفاهیم ساده‌ای مانند واریانس و کوواریانس به عنوان معیارهایی برای اندازه‌گیری پراکندگی یا وابستگی بین متغیرها استفاده کرده و مدل مناسب با داده‌ها با کمترین متغیر یا ایجاد متغیرهای جدید، تولید می‌شود.

از کاربردهای مهم مدل معادلات ساختاری می‌توان به موارد زیر اشاره کرد:

  1. «تحلیل مسیر» (Path Analysis) یا مدلی که  رابطه بین متغیرها را نشان می‌دهد.
  2. «تحلیل عاملی تاییدی» (Confirmatory Factor Analysis) که شبیه تحلیل عاملی است و آزمون‌های مربوط به وزن عامل (ضریب هر عامل) و همبستگی درونی را انجام می‌دهد.
  3. «تحلیل عاملی مرتبه دوم» (Second Order Factor Analysis) که در آن ماتریس همبستگی عوامل، خود قابل تجزیه به عوامل دیگری است که «عوامل ثانویه» (Second Order Factors) خوانده می‌شوند.
  4. «مدل تحلیل رگرسیونی» (Regression Models)،‌ که از رگرسیونی خطی استفاده کرده و با منظور تخصیص وزن به هر یک از متغیرها، مدل کمترین مربعات خطا را می‌سازد.
  5. «مدل ساختار کوواریانس» (Covariance Structure Models) که به بررسی ساختار و شکل ماتریس کوواریانس می‌پردازد و در مورد آن آزمون فرض انجام می‌دهد.
  6. «مدل ساختار همبستگی» (Correlation Structure Models)، که آزمون‌های فرض مربوط به ساختار ماتریس همبستگی را محاسبه می‌کند.

با توجه به گزینه‌هایی زیادی که معادلات ساختاری با آن مواجه است، تفکیک و تعریف دقیق آن به آسانی میسر نیست. آنچه اهمیت دارد، ابزارهایی است که SEM از آن‌ها بهره می‌گیرد.

شیوه به کارگیری مدل معادلات ساختاری

ایده اصلی در مدل معادلات ساختاری، تاثیر عمل جمع و ضرب روی اعداد است. همانطور که در مطلب مربوط به مباحث میانگین و واریانس خوانده‌اید، می‌دانیم که اگر همه مقدارها در یک عدد ثابت (مثل k) ضرب شوند، میانگین آن‌ها هم در همان مقدار ضرب خواهد شد. یعنی اگر داشته باشیم y=kx�=��، آنگاه خواهیم داشت ¯¯¯y=k¯¯¯x�¯=��¯. همچنین واریانس اعداد تبدیل یافته نیز در k2�2 ضرب خواهد شد یعنی می‌توان نوشت:

σ2y=k2σ2x��2=�2��2.

بر این اساس برای انحراف استاندارد داده‌های تبدیل شده هم رابطه زیر برقرار است:

sy=|k|sx��=|�|��

نکته‌ای که در اینجا به کار می‌آید، آن است که فرض کنید بین Y و X یک رابطه خطی به صورت Y=4X وجود دارد. در نتیجه واریانس Y باید ۱۶ برابر واریانس X باشد. با تصور معکوس این حالت می‌توان با مقایسه واریانس Yها با ۱۶ برابر واریانس Xها، آزمون مربوط مناسب بودن مدل Y=4X را با توجه به داده‌ها انجام داد.

این ایده را می‌توان برای چندین متغیر همبسته در گروهی از مدل‌های خطی به کار بست. هرچند در این حالت تعداد محاسبات و مدل‌های انتخابی زیاد هستند ولی اساس کار به همان شکل خواهد بود.

«بررسی وجود رابطه خطی بین متغیرها را می‌توان به بررسی واریانس و کووریانس آن‌ها تبدیل کرد.»

روش‌های آماری مختلفی برای بررسی چنین کاری وجود دارد که ساختار «ماتریس واریانس-کوواریانس» (Variance-Covariance Matrix) را تحلیل می‌کنند. به این ترتیب روش SEM طی مراحل زیر اجرا می‌شود:

  1. متغیرهایی مرتبط و همبسته در مدل معرفی می‌شوند. این کار ممکن است بوسیله یک دیاگرام مسیر انجام شود.
  2. براساس داده‌ها مشخص می‌شود که چه مقدار از رابطه بین متغیرها از طریق واریانس و کوواریانس متغیرها قابل تجزیه و تحلیل است.
  3. به کمک آزمون فرض مشخص می‌شود که مدل انتخابی در بخش ۱ به چه میزان از لحاظ آماری بامعنا (Statistical Significant) است.
  4. نتایج حاصل از آزمون فرض آماری و ضرایب یا پارامترهای مدل مشخص می‌شود.
  5. براساس این اطلاعات، مشخص می‌شود که آیا داده‌ها توسط مدل قابل تفسیر هستند یا باید به معرفی مدل یا متغیرهای جدید دست زد.

هرچند محاسبات مربوط به روند SEM پیچیده و طولانی است ولی امروزه برنامه‌های زیادی به منظور انجام چنین محاسباتی موجود است. ولی آنچه حائز اهمیت محسوب می‌شود الگویی است که در انجام تحلیل SEM وجود دارد. برای راحتی کار مراحل بالا را در نمودار گردشی زیر می‌بینید.

SEM diagram

باید توجه داشت که هرگز بهترین مدل برای داده‌ها را نمی‌توان بوجود آورد. البته اگر برای داده‌های موجود بهترین مدل ساخته شود برای داده‌های جدید ممکن است مدل ایجاد شده مناسب نباشد. در این حالت مدل را «بیش‌برازش» (Overfitting) می‌نامند زیرا با در نظر گرفتن بیشترین تعداد متغیر در طراحی مدل، داده‌های موجود توسط مدل حفظ و رابطه‌شان به طور مصنوعی ایجاد شده است. همیشه رابطه‌های معرفی شده توسط مدل‌های آماری، تقریبی از مدل واقعی رابطه بین متغیرها هستند. زیرا براساس یک نمونه آماری از جامعه ساخته شده‌اند. بنابراین بهتر است به جای اصطلاح «بهترین برازش» (Best Fit) از «مناسب‌ترین برازش» (Good Fit) استفاده کنیم.https://beta.kaprila.com/a//templates_ver2/templates.php?ref=blog.faradars&id=string-1&t=string&w=760&h=140&background=fffff3&cid=2995531,2305,1012&wr=special,brother,brother&pid=54

نمودار مسیر و SEM

به منظور معرفی مدل در SEM از الگویی به نام «نمودار مسیر» (Path Diagram) استفاده می‌شود. این نمودار شبیه یک «نمودار گردش» (Flow Chart) است که در آن متغیرهای مرتبط بوسیله خطوطی در آن به یکدیگر متصل می‌شوند.

برای مثال فرض کنید که رابطه رگرسیونی خطی بین دو متغیر X و Y وجود دارد. یعنی داریم Y=aX+e که در آن a پارامتر مدل و e نیز خطای مدل محسوب می‌شوند. برای نمایش این رابطه در نمودار مسیر از شکل زیر استفاده می‌کنیم.

sem path diagram

در این نمودار، همه متغیرهای مستقل در سمت چپ قرار دارند. متغیر مربوط به خطا نیز معرفی شده است. با توجه به میزان خطا در برآورد رابطه خطی بین دو متغیر X و Y متغیر دیگری که نقش مزاحم را دارد در مدل با E‌ دیده می‌شود. با مشخص شدن پارامترهای مدل برای هر متغیر مستقل، ضریب آن متغیر روی خط ارتباطی با متغیر وابسته دیده خواهد شد. این ضریب در صورتی که داده‌‌ها استاندارد شده باشند، می‌تواند به عنوان میزان اهمیت این متغیر در پیش‌بینی متغیر وابسته در نظر گرفته شود.

در هنگام معرفی مدل، ممکن است «متغیرهای پنهان» (Latent Variable) نیز در آن ایجاد شود. متغیر پنهان،‌ بدون آنکه در مرحله جمع‌آوری داده‌ها به عنوان یک متغیر تعریف شده باشد، به علت وجود رابطه بین متغیرهای مستقل ممکن است،‌ توسط روند SEM معرفی شود.

مثلا در بررسی قیمت خودرو با توجه به ویژگی‌هایی آن ممکن است حجم موتور، قدرت موتور و مصرف سوخت به عنوان متغیرهای مستقل اندازه‌گیری شده باشند ولی در واقعیت متوجه شویم که بین آن‌ها رابطه شدیدی وجود دارد و عملا به کارگیری آن‌ها در مدل رگرسیونی مناسب نیست. بنابراین ترکیبی خطی از آن‌ها را به عنوان متغیر پنهان که از ابتدا قابل اندازه‌گیری نبوده است در مدل اضافه می‌کنیم.

ویژگی موتوری=a × حجم موتور+b × قدرت موتور+c× مصرف سوخت

همچنین عامل دیگری به نام راحتی خودرو که به متغیرهای حجم اتاق و حجم صندوق عقب وابسته است، به عنوان یک متغیر پنهان دیگر در مدل حضور یابد.

راحتی خودرو=d × حجم اتاق+e × حجم صندوق عقب

این عوامل باعث می‌شوند که بین مولفه‌های جدید به عنوان متغیرهای پنهان کمترین وابستگی وجود داشته باشد و مدل حاصل از آن‌ها از اعتبار بیشتری برخوردار خواهد بود.

محاسبات مربوط به معادلات ساختاری در اغلب موارد در نرم‌افزارهای آماری AMOS یا نرم‌افزار لیزرل (LISREL) صورت می‌گیرد.

برگرفته از سایت فرادرس

پایان نامه نویسی مقاله نویسی

مقدار T-Value و مقدار P-Value در آزمون فرض آماری چیست؟

مقدار T-Value و مقدار P-Value در آزمون فرض آماری چیست؟

1- مفدمه بر آزمون فرض آماری

مطابق با الزامات استانداردهای ISO 15189:2022 و ISO/IEC 17025:2017 آزمایشگاه باید یک روش‌ اجرایی برای پایش اعتبار نتایج، داشته باشد.

داده‌های به دست آمده باید به نحوی ثبت شوند که روند آن‌ها قابل تشخیص باشد.

در جایی که قابل اجرا است از فنون آماری در بازنگری نتایج استفاده شود.

در بسیاری از مراکز آزمایشگاهی از آزمونهای فرض آماری برای کنترل کیفیت نتایج آزمون، تحلیل نتایج مقایسات بین آزمایشگاهی و یا صحه گذاری روشهای آزمون برای برآوزده‌سازی الزامات استاندارد ایزو 17025 و استاندارد ایزو 15189 استفاده می‌شود.

اگر کارکنان آزمایشگاه و یا پژوهشگران با علم آمار آشنایی نداشته باشند و به دنبال استفاده از از نرم افزارهای آماری مانند minitab, spss و … برای تجزیه و تحلیل نتایج خود باشند، در مواجه با خروجی‌های این نرم افزارها احساسی شبیه احساس آلیس در سرزمین عجایب را پیدا خواهند کرد.

ناگهان آنها با یک دنیا فانتزی که در آن عبارات عجیب و مرموزی وجود دارد، روبه رو می‌شوند.

به عنوان مثال ظهور مقادیر T و P را در انجام آزمون فرض t-test را در نظر بگیرید.

در مشاهد این خروجی شما ممکن است بسیار متعجب شوید!!

نتایج آزمون T-TEST یک طرفه

این مقادیر واقعاً چیست؟

آنها از کجا بدست آمده‌اند؟

حتی اگر شما از مقدار P-value برای تفسیر آماری نتایج خود به دفعات بسیار زیاد استفاده کرده باشید، باز هم ممکن است منشا واقعی آن ممکن هنوز برای شما گنگ باشد.

2- مقادیر P value و t-value در آزمون T-Test

مقدار P value و مقدار t-value به طور جدایی ناپذیری با هم مرتبط است.

آنها به صورت خیلی مشابه در کنار هم نتایج تجزیه و تحلیل آماری ظاهر می‌شوند. 

هنگامی که شما آزمون t-test را انجام می‌دهید، معمولا برای پیدا کردن شواهدی از یک اختلاف معنی داری در میان دو جمعیت (۲-sample t) و یا بین یک جمعیت مقدار هدف (۱-sample t) هستید.

به عنوان مثال در مقایسه بین آزمایشگاهی به دنبال آن هستیم که ببینم نتایج بدست آمده در دو آزمایشگاه مختلف بر روی یک نمونه یکسان بایکدیگر اختلاف معناداری دارند یا نه؟

مقدار t اندازه تفاوت را نسبت به تغییرپذیری بدست آمده از نمونه‌ها را می‌سنجد.

 به عبارت دیگر، T برابر با تفاوت محاسبه شده تقسیم بر خطای استاندارد (SE MEAN) است.

هر چه مقدار T (چه در جهت مثبت و چه در جهت منفی) بزرگتر باشد احتمال بیشتری برای رد فرض صفر به وجود خواهد آمد  و هر چه مقدار T به صفر نزدیکتر باشد احتمال بیشتری برای پذیرش فرض صفر وجود خواهد داشت. (فرض صفر یعنی تفاوت معنی‌داری وجود ندارد.)

بخاطر داشته باشید که مقدار t که در خروجی نرم افزار نشان داده شده است بر اساس تنها یک نمونه که به صورت تصادفی از کل جمعیت گرفته شده، محاسبه می گردد و اگر نمونه‌برداری تصادفی را مجدداً انجام دهید ممکن است مقدار  t کمی متفاوت از آنچه قبلا محاسبه کرده‌اید، بدست آید.

حال این سئوال مطرح می‌شود که در بسیاری از نمونه های که به صورت تصادفی از یک جمعیت یکسان گرفته می‌شود، چقدر تفاوت در مقدار t انتظار داریم که به وجود آید؟

 و چگونه مقدار t بدست آمده از داده های مربوط به نمونه خود را نسبت به مقدار t مورد انتظار مقایسه کنیم؟

این کار را می‌توان با رسم یک توزیع t انجام داد.


3- استفاده از یک تابع توزیع t برای محاسبه احتمال

به عنوان مثال فرض کنید که با استفاده از یک آزمون فرض آماری به روش ۱-sample t-test  می خواهید تعیین کنید که یک ویژگی در جمعیت مورد مطالعه بزرگتر از یک مقدار مشخص می‌باشد یا خیر؟

در این مثال مقدار مشخص ۵ در نظر گرفته شده که از یک نمونه با ۲۰ مشاهده بدست آمده است.

همانطور که در شکل بالا نشان داده شده مقدار t‌ در خروجی نرم افزار minitab برابر با ۲٫۸ بدست آمده است.

لذا می‌خواهیم ببینم در یک تابع توزیع T با درجه آزادی ۱۹ (درجه آزادی برابر است با تعداد مشاهدات منهای یک) احتمال آنکه مقدار t‌ برابر با ۲٫۸ شود چقدر است. 

برای انجام این کار از نرم افزار minitab ‌می توان استفاده نمود بدین منظور در این نرم افزار  مسیر زیر را طی می کنیم:

In Minitab, choose Graph > Probability Distribution Plot.

Select View Probability, then click OK.

From Distribution, select t.

In Degrees of freedom, enter ۱۹.

Click Shaded Area. Select X Value. Select Right Tail.

 In X Value, enter 2.8 (the t-value), then click OK.

بیشترین مقدار مورد انتظار برای t محلی است که قله گراف بالا قرار دارد (یعنی مقدار صفر).  این بدان معنا است که در بیشتر واقع انتظار می‌رود که مقدار t=0 شود.

علت این امر آن است که وقتی یک نمونه به صورت تصادفی از یک جامعه برداشته می شود انتظار می رود که اختلافی بین میانگین نمونه با میانگین جامعه وجود نداشته باشد یعنی به احتمال زیاد اختلاف بین میانگین نمونه و میانگین جامعه نزدیک به صفر است.


4- مجاسبه مقدار T-Value و مقدار P-Value

احتمال اینکه مقدار T-value (چه در جهت مثبت و چه در جهت منفی) در آزمونهای فرض آماری مقدار بزرگی شود خیلی کم است. یعنی آنکه هر چه از مقدار صفر در هر دو جهت دور می شویم احتمال رخداد چنین وضعیتی به صورت طبیعی کاهش می یابد. به عنوان مثال ناحیه قرمز مشخص شده در منحی فوق احتمال اینکه مقدار T-Value برابر با ۲٫۸  و بیشتر از آن باشد را نشان می‌دهد. احتمال این امر  ۰٫۰۰۵۷۱۲ محاسبه شده است که اگر آن را گرد کنیم برابر با ۰٫۰۰۶ می شود که به این مقدار P-Value گفته می شود.

به عبارت دیگر، احتمال به دست آوردن T-Value برابر با ۲٫۸ و یا بالاتر، زمانی که نمونه برداری از جمعیت یکسان (در مثال، یک جمعیت با میانگین ۵ در نظر گرفته شده)، حدود ۰٫۰۰۶ است.

چقدر احتمال این رخ داد وجود دارد؟ این رخداد مثل آن است که در برداشت تصادفی از ۵۲ برگ در بازی پوکر ۲ برگ تک پشت سر هم به دست شما برسد. شناس چنین رخدادی بسیار کم است!!

poker_picture

این امر که این نمونه‌ از جامعه‌ی با میانگین بیشتری از مقدار مشخص شده (در این مثال ۵) باشند، محتمل تر است.  بعبارت دیگر: از آنجا که مقدار P-value بسیار کوچک تر از (< alpha level)  است، شما فرض صفر رد و نتیجه گیری است که تفاوت معنی داری وجود دارد.

مقادیر T و P به طور جدایی ناپذیری مرتبط هستند و به سادگی می‌توانید از آنها برای تصمیم در خصوص درست یا نادرست بودن یک فرض استفاده کنید. مقدار یکی از آنها بدون تغییر در دیگری، تغییر نخواهد کرد. مقادیر بزرگتر قدرمطلق T-Value منجر به مقادیر کوچکتر P-value می‌شود که امر سبب کاهش احتمال پذیرش فرض صفر می‌شود. به طور  معمول مطالعات آماری در سطح اطمینان ۹۵% (یعنی آلفای برابر با ۰٫۰۵) انچام می‌شود.

در سطح اطمینان ۹۵% اگر P-value  کوچکتر یا مساوی ۰٫۰۵ باشد فرض صفر را رد می‌کنند و در غیر این صورت فرض صفر را نمی توان رد کرد. 


5- سخن پایانی

نکته آخر اینکه که در برخی از نرم افزارها مانند spss مقدار p-value در جدول های خروجی نرم افزار تحت عنوان Significant Level ذکر می‌شود. در این پست آموزشی برخی از نکات مهم برای در خصوص آزمون فرض T-TEST و مقدار P-Value ذکر شود.

برگرفته از سایت دکتر دستمردی

تحلیل عاملی اکتشافی چیست؟

تحلیل عاملی اکتشافی (Exploratory Factor Analysis) یک روش آماری است که به کمک آن می‌توانیم سعی کنیم که ساختار داخلی متغیرهای مختلف را به دست آوریم. در واقع، با استفاده از این روش، می‌توانیم بررسی کنیم که آیا متغیرها با هم ارتباط دارند و در چه مقداری با هم همبستگی دارند.

در این روش، ابتدا مجموعه‌ای از متغیرها را در نظر می‌گیریم و سپس با استفاده از روش‌های آماری، تلاش می‌کنیم تا به دست آوریم که چند عامل اصلی (Factor) در پشت ساختار داده‌ها وجود دارند و هر عامل به چه متغیرهایی وابسته است. در واقع، با استفاده از این روش، می‌توانیم به دست آوریم که متغیرهای مختلف چگونه در یک مجموعه عوامل (Factors) قرار دارند و به طور خلاصه، این که هر متغیر در چه عامل‌هایی نقش دارد.

تحلیل عاملی اکتشافی به عنوان یکی از روش‌های خوشه‌بندی، برای شناسایی الگوهای موجود در داده‌ها و بررسی روابط بین متغیرها استفاده می‌شود. استفاده از این روش در بسیاری از حوزه‌های علمی و صنعتی، از جمله روان‌شناسی، علوم اجتماعی، مدیریت، بازاریابی و … رایج است.

مثالی از کاربرد تحلیل عاملی اکتشافی در علوم اجتماعی:

به عنوان مثال، در مطالعات اجتماعی می‌توان از تحلیل عاملی اکتشافی برای شناسایی عوامل مؤثر در تعیین نگرش و نظرات افراد نسبت به موضوعات مختلف استفاده کرد.

فرض کنید که می‌خواهیم بررسی کنیم که چه عواملی مؤثر بر نگرش افراد نسبت به حقوق زنان هستند. در این مثال، ما می‌توانیم از یک پرسشنامه برای جمع‌آوری داده‌ها استفاده کنیم. پرسشنامه ممکن است شامل چندین سوال در مورد نگرش به حقوق زنان باشد که هر یک از این سوال‌ها یک متغیر است. با استفاده از تحلیل عاملی اکتشافی، می‌توانیم به دست آوریم که کدام سوالات با هم مرتبط هستند و چه عواملی در تعیین نگرش افراد نسبت به حقوق زنان مؤثر هستند.

در این مثال، یکی از عواملی که ممکن است تعیین کننده نگرش افراد نسبت به حقوق زنان باشد، عامل “تفاوت‌های جنسیتی” باشد. این عامل می‌تواند شامل سوالاتی باشد که مرتبط با تفاوت‌های جنسیتی و نقش زنان و مردان در جامعه هستند. عامل دیگری که ممکن است در تعیین نگرش افراد نسبت به حقوق زنان مؤثر باشد، “مساویت” است. این عامل می‌تواند شامل سوالاتی باشد که مرتبط با حقوق مساوی برای زنان و مردان در جامعه هستند.

در نتیجه، با استفاده از تحلیل عاملی اکتشافی، ما می‌توانیم به دست آوریم که چه عواملی در تعیین نگرش افراد نسبت به حقوق زنان مؤثر هستند و این که هر متغیر در کدام عامل نقش دارد. این اطلاعات می‌تواند در تدوین سیاست‌هایی مبتنی بر تعیین اولویت‌های مؤثر در

نحوه ی انجام تحلیل عاملی اکتشافی مثال بالا را در Spss :

این منظور، می‌توانید از دستورالعمل‌های زیر استفاده کنید:

ابتدا، داده‌های خود را در SPSS وارد کنید و به مسیر Analyze > Dimension Reduction > Factor بروید.

در پنجره باز شده، می‌توانید متغیرهای مورد نظر خود را انتخاب کنید و سپس روش تحلیل عاملی اکتشافی را انتخاب کنید.

در بخش “Extraction”, می‌توانید روش استخراج عامل‌ها را انتخاب کنید. روش‌های مختلفی برای استخراج عامل‌ها وجود دارد، مانند روش Principal Component Analysis (PCA) و Maximum Likelihood (ML).

در بخش “Rotation”, می‌توانید روش چرخش عامل‌ها را انتخاب کنید. روش‌های مختلفی برای چرخش عامل‌ها وجود دارد، مانند روش Varimax و Oblimin.

در بخش “Scores”, می‌توانید برای هر شرکت کننده، امتیاز عامل‌ها را محاسبه کنید.

در نهایت، با کلیک بر روی دکمه “OK”، SPSS شروع به اجرای تحلیل عاملی اکتشافی شما می‌کند و نتایج را به شما نمایش می‌دهد.

در نتیجه، با استفاده از این روش، می‌توانید به دست آورید که چه عامل‌هایی در تعیین نگرش افراد نسبت به حقوق زنان مؤثر هستند و این که هر متغیر در کدام عامل نقش دارد. این اطلاعات می‌تواند در تدوین سیاست‌هایی مبتنی بر تعیین اولویت‌های مؤثر در ارتقای حقوق زنان موثر باشد.

تحلیل عاملی اکتشافی در نرم افزار های دیگر:

از جمله نرم افزارهایی که می‌توانید برای انجام تحلیل عاملی اکتشافی استفاده کنید عبارتند از R، SAS، و MATLAB.

در R، می‌توانید از پکیج “psych” برای انجام تحلیل عاملی استفاده کنید. برای انجام تحلیل عاملی اکتشافی، می‌توانید از تابع “fa()” استفاده کنید. این تابع شامل پارامترهایی است که می‌توانید برای تنظیم تحلیل عاملی خود استفاده کنید.

در SAS، می‌توانید از روش‌های مختلفی برای انجام تحلیل عاملی استفاده کنید، از جمله روش‌های Principal Component Analysis (PCA) و Maximum Likelihood (ML). برای انجام تحلیل عاملی اکتشافی در SAS، می‌توانید از ماژول “PROC FACTOR” استفاده کنید.

در MATLAB، می‌توانید از پکیج “Statistics and Machine Learning Toolbox” برای انجام تحلیل عاملی استفاده کنید. برای انجام تحلیل عاملی اکتشافی، می‌توانید از تابع “factoran()” استفاده کنید. این تابع شامل پارامترهایی است که می‌توانید برای تنظیم تحلیل عاملی خود استفاده کنید.

در هر صورت، برای انجام تحلیل عاملی اکتشافی در هر نرم افزاری، شما باید داده‌های خود را به فرمت مناسب وارد کنید و پارامترهای مورد نیاز را برای تحلیل عاملی خود تنظیم کنید. سپس، برنامه را اجرا کرده و نتایج را بررسی کنید.

برای یادگیری بیشتر در مورد تحلیل عاملی اکتشافی، می‌توانید از منابع معتبر زیر استفاده کنید:

“Factor Analysis: A Practical Introduction” نوشته ی Jeremy Miles: این کتاب یکی از بهترین منابع برای یادگیری تحلیل عاملی اکتشافی است. همچنین، این کتاب شامل مثال‌هایی از تحلیل داده‌های واقعی است که می‌تواند به شما در فهم بهتر تحلیل عاملی اکتشافی کمک کند.

“Applied Multivariate Statistics for the Social Sciences” نوشته ی James P. Stevens: این کتاب درباره روش‌های آماری مختلف استفاده شده در تحلیل داده‌های چند متغیره می‌باشد و بخشی درباره تحلیل عاملی اکتشافی است.

“Factor Analysis in SPSS” نوشته ی Andy Field: این کتاب به شما نحوه استفاده از تحلیل عاملی در SPSS را آموزش می‌دهد. در این کتاب به توضیح مراحل تحلیل عاملی در SPSS و تفسیر نتایج آن پرداخته می‌شود.

“Factor Analysis: Statistical Methods and Practical Issues” نوشته ی Jae-On Kim and Charles W. Mueller: این کتاب شامل توضیحاتی درباره تاریخچه و تئوری تحلیل عاملی، روش‌های مختلف استخراج عامل‌ها و دستورالعمل‌های اجرایی برای انجام تحلیل عاملی است.

“Factor Analysis for Applied Research” نوشته ی Robert Jennrich and Douglas A. Harrington: این کتاب به شما نحوه تحلیل داده‌های چند متغیره با استفاده از تحلیل عاملی را آموزش می‌دهد. این کتاب شامل مثال‌هایی از تحلیل داده‌های واقعی است که به شما در فهم بهتر تحلیل عاملی کمک می‌کند.

همچنین، منابع معتبر دیگری نیز برای یادگیری تحلیل عاملی اکتشافی وجود دارد که می‌توانید از آنها استفاده کنید.

برای مشاهده لیست همه ی  پرسشنامه های استاندارد لطفا همین جا روی پرسشنامه استاندارد  کلیک فرمایید.

تحلیل داده های آماری برای پایان نامه و مقاله نویسی ،تحلیل داده های آماری شما با نرم افزارهای کمی و کیفی ،مناسب ترین قیمت و کیفیت عالی انجام می گیرد.نرم افزار های کمی: SPSS- PLS – Amosنرم افزار کیفی: Maxqudaتعیین حجم نمونه با:Spss samplepower

روش های تماس:Mobile :  09143444846  واتساپ – تلگرام کانال

تلگرام سایت: برای عضویت در کانال تلگرام سایت اینجا کلیک کنید(البته قبلش فیلتر شکن روشن شود!!) مطالب جالب علمی و آموزشی در این کانال درج می گردد.