برازش الگو با استفاده از روش رگرسيون لجستيک
در بررسي الگوها با استفاده از رگرسيون لجستيک، میزان موفقیت به عنوان متغير وابسته تعريف مي شود که دو گروه شرکت موفق و غير موفق به ترتيب با ۰ و ۱ در نظر گرفته مي شوند. روش انجام رگرسيون لجستيک به سه روش اينتر، پيش رونده و پس رونده و بک وارد است. در روش اينتر تمامي متغيرهاي مستقل به طور همزمان وارد رگرسيون مي شوند. در روش پيش رونده گزينش متغيرها به صورت مرحله اي با افزايش متغيرها در هر مرحله است و در ابتدا متغيري که بيشترين مقدار آماره F را دارد، وارد رگرسيون مي شود. در روش پس رونده گزينش متغيرها به صورت مرحله اي با کاهش متغيرها در هر مرحله است و ضرايب رگرسيوني برآورد مي شود.
– آزمون معني دار بودن همبستگي براي گزينش الگوي مناسب
يکي از شرط هاي لازم براي دقت نتايج به دست آمده با روش رگرسيون لجستيک، فقدان همبستگي ميان متغيرهاي مستقل الگوهاست. بنابراين براي گزينش روش صحيح، نياز به آزمون همبستگي ميان متغيرهاي مستقل الگوهاست.
– نحوه محاسبه ضرايب متغير هاي مستقل در رگرسيون لجستيک
هر چند در رگرسيون لجستيک ضرايب متغيرهاي مستقل مانند رگرسيون چند متغيره برآورد مي شود ، ليکن نحوه برآورد آن کاملاً متفاوت است . در رگرسيون چند متغيره از روش حداقل مربعات استفاده مي شود . در اين روش مجموع مجذور اختلاف بين مقادير واقعي و مقادير پيش بيني شده متغير وابسته حداقل مي گردد . در رگرسيون لجستيک بدليل طبيعت غيرخطي تبديل لجستيک از روش ديگري که حداکثر درستنمايي نام دارد ، استفاده مي شود .
با اين حال روش برآورد ضرايب هنوز از بسياري جهات شبيه رگرسيون معمولي است . البته لازم است که در رگرسيون لجستيک نيز در صورتي که نسبت شانس قابل محاسبه باشد ، مي توان از روش حداقل مربعات استفاده نمود ، اما در ساير موارد مي توان ضرايب مدل لاجيت را به روش عمومي حداکثر درستنمايي برآورد نمود . ( عرب مازار ۱۳۶۶)
همانطور که ذکر شد در رگرسيون لجستيک متغير وابسته يک متغير دو حالته (۰ و ۱) است که مقدار صفر و يک را به خود اختصاص مي دهد . اگر فرض کنيم که Y متغير تصادفي باشد که مي تواند مقادير صفر و يک را اختيار نمايد در اين صورت احتمال وقوع Y را مي توانيم به شکل رابطه زير در نظر بگيريم :

که در آن بردار سطري ضرايب و x بردار ستوني متغير هاي مستقل است . روابط فوق را مي توان به صورت زير در نظر گرفت :

رابطه فوق، رابطه خطي بين متغيرهاي مستقل و لگاريتم نپرين نسبت بخت را نشان مي دهد . چون معمولاً نمي توان نسبت بخت و به تبع آن لگاريتم آنرا بطور مستقيم محاسبه نمود لذا ضريب مورد نظر از روش حداکثر درستنمايي قابل برآورد خواهد بود. بر اين اساس اگر هر مشاهده را يک آزمون برنولي فرض نمائيم که در اين صورت براي مشاهده ام رابطه زير را خواهيم داشت:

که در آن احتمال وقوع پيشامد مورد نظر در مشاهده ام و نيز مقادير متغير تصادفي است که مي تواند برحسب مورد صفر ويا يک باشد (يک براي وقوع و صفر براي عدم وقوع پيشامد ) .
با فرض اينکه مشاهده مستقل باشد در اين صورت تابع درستنمايي به شرح رابطه زير خواهد بود :

حال با جايگذاري از رابطه صفحه قبل در اين رابطه به رابطه زيرمي رسيم:

با گرفتن لگاريتم طبيعي از رابطه فوق خواهيم داشت :

بدين ترتيب برآورد ضرايب مستقل ( يعني بردار ) از طريق حداکثر کردن رابطه فوق بدست مي آيد که توسط مشتق گيري نسبت به هريک از ضرايب متغير هاي مستقل و مساوي صفر قراردادن هر يک از مشتق ها محاسبه مي گردد . البته معادلات مزبور جواب تحليلي ندارند و حل دستگاه معادلات مزبور از طريق روش نيوتن ـ رافسون ميسر مي گردد .

– آزمون معني دار بودن ضرايب
در رگرسيون لجستيک مانند رگرسيون معمولي معني دار بودن ضريب يک متغير را مي تون با اين فرض آزمون کرد که صفر بودن ضريب مزبور هيچ تاثيري در ميزان احتمال موفقيت متغير وابسته نمي گذارد . در رگرسيون معمولي آزمون معني دار بودن ضريب يک متغير مستقل از طريق آماره انجام مي شود ، اما در رگرسيون لجستيک از آماره ديگري به نام آماره والد استفاده مي شود . آماره والد براي هر يک از ضرايب همچون رگرسيون معمولي نشان دهنده معني داري ضريب مربوط است . آماره والد براي ضريب برابر است با :

اين آماره داري توزيع کاي دو با ۱ درجه آزادي است.(Whitehead j,2004)
– تعيين ميزان نيکويي برازش مدل برآورد شده (ارزيابي کارايي مدل )
در رگرسيون لجستيک براي مقايسه کارايي چند مدل مختلف با يکديگر و يا نيکويي برازش يک مدل خاص آماره هاي متعددي مورد استفاده قرار مي گيرد که از جمله آنها مي توان به موارد زير اشاره نمود (Anderson,1984):

– آماره کاي دو
همانطور که توضيح داده شد در رگرسيون لجستيک از روش حداکثر درستنمايي براي تعيين ضرايب متغيرهاي مستقل استفاده مي شود. براي بررسي ميزان نيکويي برازش مدل برآورد شده ، روشي مشابه رگرسيون چندگانه بکار مي رود . بدين منظور دو فرضيه زير در نظر گرفته مي شود :
H0 =مدل مفروض با داده ها تطابق دارد
H1 =مدل مفروض با داده ها تطابق ندارد
واضح است که قبول فرضيه (عدم رد آن) ، زمانيکه مدل مفروض بر اساس ضرايب برآورد شده است مطلوب خواهد بود . آماره اي که براي آزمون فرضيه فوق بکار مي رود براساس تابع درستنمايي قسمت قبل ساخته مي شود. به واقع تابع درستنمايي، احتمال اينکه تمام مشاهدات از جامعه مورد نظر باشند را نشان مي دهد. براي آزمون فرضيه صفر مقدار تابع درستنمايي تحت تابع لگاريتم بصورت -۲ln L در نظر گرفته
مي شود.
آماره -۲ln L داراي توزيع کاي دو با n-q درجه آزادي است که در آن n تعداد مشاهدات و q تعداد پارامتر هاي برآورد شده در مدل مي باشد . در نتيجه مدل دو نوع آماره بدست مي دهد ، يکي براي حالتي که تمام ضرايب به غير از مقدار ثابت صفر باشند که آنرا با (-۲ln L)null نشان مي دهيم و مربوط به حالتي است که همه ضرايب مربوط به متغيرهاي مستقل صفر هستند . اين امر حاکي از بي اثر بودن متغيرهاي مستقل در توضيح مدل مورد نظر مي باشد. حالت ديگر مربوط به نتايج بدست آمده از برآورد ضرايب متغيرها مي باشد که با(-۲ln L)Model نشان داده مي شود. بدين ترتيب با فرض توزيع کاي دو براي آماره اخير مي توان معني دار بودن آنرا در سطح ۵% مورد آزمون قرار داد . بر اين اساس براي حالتي که مثلاً تمام ضرايب متغير هاي مستقل صفر است مي توان آماره (-۲ln L)null را بعنوان آماره کاي دو با n-1 درجه آزادي (تعداد پارامترهاي مدل فقط مقدار ثابت است) تحت آزمون فرضيه به ترتيب زير در نظر گرفت .
H0 =مدل مفروض (صفر بودن تمام ضرايب متغيرهاي مستقل) با داده ها تطابق دارد.
H1 =مدل مفروض (صفر بودن تمام ضرايب متغيرهاي مستقل) با داده ها تطابق ندارد.
در صورتيکه اين مقدار در منطقه رد آزمون قرار بگيرد فرض بي اثر بودن متغيرهاي مستقل مدل در سطح مثلاً ۵% رد شده و مدل برازش شده معني دار خواهد بود . به همين ترتيب با در نظر گرفتن آماره (-۲ln L)Model به عنوان آماره کاي دو با n-k-1 درجه آزادي ( k تعداد متغيرهاي مستقل مي باشد ) مي توان مفروضات زير را مورد آزمون قرار داد :
H0 =مدل مفروض ( بر اساس ضرايب بدست آمده ) با داده ها تطابق دارد
H1 =مدل مفروض (بر اساس ضرايب بدست آمده ) با داده ها تطابق ندارد
در اين صورت اگر آماره مورد نظر در ناحيه رد در سطح معني داري ۵% قرار نگيرد مدل برازش شده معني دار است . البته به صورت ديگري نيز مي توان براساس اختلاف آماره هاي مزبور يعني :
(-۲lnL)null – (-2lnL)model ) LR (آماره
که داراي توزيع کاي دو با (n-1) – (n-k-1) = k درجه آزادي است ، معني داري کل مدل را مورد آزمون قرار داده و فرضيه هاي آزمون را به شرح زير در نظر گرفت :
H0 = همه ضرايب برابر صفر است
H1 =همه ضرايب غير صفر است
بر اين اساس تاثير ورود متغير هاي مستقل در بهبود مدل سنجيده مي شود . در اين صورت اگر آماره مزبور در سطح ۵% در ناحيه رد قرار گيرد فرضيه صفر مبني بر بي اثر بودن متغير هاي مستقل رد خواهد شد.
پس بدين ترتيب در اين رگرسيون ، معني دار بودن ضرايب با آزمون کاي دو در هر مرحله براي تعيين متغيرها مشخص مي گردد ، مشروط بر اينکه متغيرها بتوانند از مدل حذف شوند .
نحوه عمل به اين شکل است که ابتدا مدل با متغيرهاي متعدد و با آمارهاي موجود که مي تواند به صورت سري زماني ، مقطعي و يا تابلوئي باشد برآورد و سپس متغيرهاي مستقل مناسب شناسايي و مدل نهايي تدوين و ضرايب مدل برآورد مي شود .
علاوه بر آماره هاي فوق برخي معيار هاي اطلاعاتي , بر اساس آماره -۲lnL ، به منظور سنجش نيکويي برازش مدل رگرسيون لجستيک محاسبه مي شوند که از جمله آنها مي توان به معيارهاي زير اشاره نمود :
– معيار آکائيک
– معيار شوارتز
– معيار هنان – کوئين
در مورد انتخاب بهترين مدل از ميان چند مدل مختلف ، مدلي انتخاب مي شود که کمترين شاخص هاي اطلاعاتي را داشته باشد . به طوريکه حداکثر لگاريتم تابع درستنمايي و تعداد متغيرهاي مستقل و تعداد کل مشاهدات مي باشد .
اين سه معيار داراي توزيع نمونه اي نمي باشند و معمولاً نشان دهنده ميزان تطابق مدل هاي مختلف بر روي داده هاي يکسان هستند . بر اين اساس هرچقدر که مقادير اين آماره ها کوچکتر باشد ميزان تطابق بيشتر است .
ـ آماره شبه و يا مک فادن
آماره شبه و يا مک فادن براي رگرسيون لجستيک ، مشابه در رگرسيون معمولي است ، اين آماره به شرح رابطه زير است :

مقدار اين آماره بين صفر و يک تغيير مي کند و خوبي برازش مدل را اندازه گيري مي نمايد . هرچه اين شاخص نزديک به يک باشد ميزان تطابق مدل با واقعيت بيشتر بوده و به عبارتي نيکويي برازش بيشتر است و بالعکس هرچه مقدار شاخص به صفر نزديک تر باشد نيکويي برازش کمتر خواهد بود.

آماره هاسمر ـ لمشو
در اين روش با استفاده از گروه بندي مشاهدات، مقادير پيش بيني شده توسط مدل با مقادير واقعي مشاهدات مقايسه مي شوند. اگر اختلاف ها بزرگ باشند، مدل رد شده و نشان دهنده اين است که مدل به خوبي برازش نشده است و در غير اينصورت مدل پذيرفته مي شود (عرب مازار، ۱۳۶۶).
معمولا و در اکثر نرم افزارها مشاهدات به ۱۰ گروه مساوي تقسيم مي شوند. استفاده مناسب از اين روش مستلزم تعداد کافي مشاهدات است، بطوريکه در هر گروه حداقل بايد ۵ مشاهده وجود داشته باشد. آماره هاسمرـ لمشو داراي توزيع کاي دو با K-2 درجه آزادي مي باشد (K تعداد گروه ها ست). خاطر نشان مي نمايد که توزيع کاي دو نسبت به تعداد نمونه حساس است. لذا زماني که تعداد نمونه خيلي بزرگ باشد تفاوت هاي کمي بين مقادير مشاهده شده و پيش بيني شده از طريق اين روش نشان داده مي شود و آزمون معتبر است.
از سوي ديگر علاوه بر آماره هاي فوق در رگرسيون لجستيک شاخص هاي ديگري به عنوان جانشين در رگرسيون معمولي نيز بکار مي رود . از آن جمله مي توان از شاخص نيگل کرک و شاخص کاکس و اسنيل نام برد .
– درصد صحيح بودن احتملات پيش بيني شده
روش ديگري که براي بررسي کارايي مدل مورد استفاده قرار مي گيرد بررسي درصد صحيح احتمال هاي پيش بيني شده توسط مدل برازش شده مي باشد. به اين منظور ، اين احتمالات با حد آستانه ، که عددي بين صفر و يک بوده و معمولاً در بيشتر کارهاي عملي و نرم افزارها براي سهولت ۵% در نظر گرفته مي شود مقايسه مي گردد، در اين صورت فرض مي شود که اگر احتمال هاي تخمين زده شده توسط مدل ، بالاتر و يا برابر حد آستانه باشد پيش آمد رخ داده و در غير اين صورت پيشامد رخ نخواهد داد.
با تعيين احتمالات به صورت صفر ( براي احتمال هاي پايين تر از حد آستانه) و يا يک ( براي احتمال هاي بالاتر از حد آستانه ) و مقايسه با مقادير واقعي صفر و يک هاي متغير وابسته، درصد پيش بيني هاي صحيح مشخص مي شود . بديهي است هرچه اين درصد بزرگتر باشد نشان دهنده پيش بيني صحيح تر و در نتيجه کارايي بيشتر خواهد شد .

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگوها شرکت کنید؟
در گفتگو ها شرکت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

15 − 11 =