راهکار مبتنی بر معیار
راهکار مبتنی بر نمونه برداری
راهکار مبتنی بر معیار
در دسته بندی شایع ترین معیار ارزیابی کارایی دسته بند، معیار دقت دسته بندی است. در معیار دقت دسته بندی فرض بر یکسان بودن ارزش رکوردهای دسته های مختلف دسته بندی است. در راهکار مبتنی بر معیار بجای استفاده از معیار دقت دسته بندی از معیارهایی بهره برداری می شود که بتوان بالاتر بودن ارزش دسته های نادر و کمیاب را در آنها به نحوی نشان داد. بنابراین با لحاظ نمودن معیارهای گفته شده در فرایند یادگیری خواهیم توانست جهت یادگیری را به سمت نمونه های نادر هدایت نماییم. از جمله معیارهایی که برای حل مشکل عدم تعادل دسته ها بکار می روند عبارتند از Recall, Precession, F-Measure, AUC و چند معیار مشابه دیگر.
۲-۴-۲-راهکار مبتنی بر نمونه برداری
نمونه برداری یکی از راهکارهای بسیار موثربرای مواجهه با مشکل دسته های نامتعادل است. ایده اصلی نمونه برداری آن است که توزیع نمونه ها را به گونه ای تغییر دهیم که دسته کمیاب به نحو پررنگ تری در مجموعه داده های آموزشی پدیدار شوند. سه روش برای این راهکار وجود دارد که عبارتند از:
الف- نمونه برداری تضعیفی:
در این روش نمونه برداری، توزیع نمونه های دسته های مساله به گونه ای تغییر می یابند که دسته شایع به شکلی تضعیف شود تا از نظرفراوانی با تعداد رکوردهای دسته نادر برابری کند. به این ترتیب هنگام اجرای الگوریتم یادگیری، الگوریتم ارزشی مساوی را برای دو نوع دسته نادر و شایع درنظر می گیرد.
ب- نمونه برداری تقویتی:
این روش درست برعکس نمونه برداری تضعیفی است. بدین معنی که نمونه های نادر کپی برداری شده و توزیع آنها با توزیع نمونه های شایع برابر می شود.
ج- نمونه برداری مرکب:
در این روش از هردو عملیات تضعیفی و تقویتی بصورت همزمان استفاده میشود تا توزیع مناسب بدست آید.
در این پژوهش با توجه به کمتر بودن نسبت نمونه نادر یعنی منجر به خسارت شده به نمونه شایع از روش نمونه برداری تضعیفی استفاده گردید که کل تعداد نمونه ها به حدود ۳ هزار رکورد تقلیل پیدا کرد و توزیع نمونه ها به نسبت مساوی بوده است. شایان ذکر است این نمونه برداری پس از انجام مرحله پاک سازی داده ها انجام شد که خود مرحله پاکسازی با عث تقلیل تعداد نمونه های اصلی نیز گردیده بود.
پیشینه تحقیق
سالهاست که محققان در زمینه بیمه و مسائل مرتبط با آن به تحقیق پرداخته اند و از جمله مسائلی که برای محققان بیشتر جذاب بوده است می توان به کشف تقلب اشاره کرد.
Brockett و همکاران ابتدا به کمک الگوریتم تحلیل مولفه های اصلی (PCA) به انتخاب ویژگی ها پرداختند و سپس با ترکیب الگوریتم های خوشه بندی و شبکه های عصبی به کشف تقلبات بیمه اتومبیل اقدام کردند. مزیت این کار ترکیب الگوریتمها و انتخاب ویژگی بوده که منجر به افزایش دقت خروجی بدست آمده گردید.
Phua و همکاران [ Phua et. al 2004] با ترکیب الگوریتم های شبکه های عصبی پس انتشاری ، بیزساده و درخت تصمیم c4.5 به کشف تقلب در بیمه های اتومبیل پرداختند.نقطه قوت این کار ترکیب الگوریتم ها بوده اما بدلیل عدم کاهش ویژگی ها و کاهش ابعاد مساله میزان دقت بدست آمده در حد اعلی نبوده است.
Allahyari Soeini و همکاران نیز یک متدلوژی با بهره گرفتن از روش های داده کاوی خوشه بندی ودرخت تصمیم برای مدیریت مشتریان ارائه دادند. از ایرادات این روش میتوان عدم استفاده از الگوریتم های دسته بندی و قوانین انجمنی را نام برد.
مورکی علی آباد ] مورکی علیآباد۱۳۹۰[ تحقیقی داشته است که اخیراً در زمینه بیمه صورت گرفته و درمورد طبقهبندی مشتریان صنعت بیمه با هدف شناسایی مشتریان بالقوه با بهره گرفتن از تکنیکهای دادهکاوی (مورد مطالعه: بیمهگذاران بیمه آتشسوزی شرکت بیمه کارآفرین (که هدف آن دسته بندی مشتریان صنعت بیمه بر اساس میزان وفاداری به شرکت، نوع بیمه نامه های خریداری شده، موقعیت جغرافیایی مکان های بیمه شده و میزان جذب به شرکت بیمه در بازه زمانی ۴ سال گذشته بوده است. روش آماری مورد استفاده از تکنیک های داده کاوی نظیر درخت تصمیم و دسته بندی بود. این تحقیق نیز چون نمونه آن قبلا انجام شده بوده از الگوریتم های متفاوت استفاده نکرده است. همچنین سعی بر بهبود تحقیق قبلی نیز نداشته است. وجه تمایز این تحقیق با نمونه قبلی استفاده از ویژگی های متفاوت بوده است.
عنبری ]عنبری ۱۳۸۹[ نیز پژوهشی در خصوص طبقه بندی ریسک بیمه گذاران در رشته بیمه بدنه اتومبیل با بهره گرفتن از داده کاوی داشته است که هدف استفاده از داده های مربوط به بیمه نامه بدنه از کل شرکتهای بیمه (بانک اطلاعاتی بیمه خودرو) بوده و سعی بر آن شده است تا بررسی شود که آیا میتوان بیمه گذاران بیمه بدنه اتومبیل را از نظر ریسک طبقه بندی کرد؟ و آیا درخت تصمیم برای طبقه بندی بیمه گذاران بهترین ابزار طبقه بندی می باشد؟ و آیا سن و جنسیت از موثرترین عوامل در ریسک بیمه گذار محسوب می شود؟ نتایج این طبقه بندی به صورت درخت تصمیم و قوانین نشان داده شده است. ونتایج حاصل از صحت مدل درخت تصمیم با نتایج الگوریتم های شبکه عصبی و رگرسیون لجستیک مورد مقایسه قرار گرفته است. از مزیت های این تحقیق استفاده از الگوریتم های متفاوت و مقایسه نتایج حاصله برای بدست آوردین بهترین الگوریتم ها بوده است.
رستخیز پایدار]رستخیز پایدار ۱۳۸۹[ تحقیقی دیگر در زمینه بخش بندی مشتریان بر اساس ریسک با بهره گرفتن از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) داشته است. با بهره گرفتن از مفاهیم شبکه خود سازمانده بخش بندی بر روی مشتریان بیمه بدنه اتومبیل بر اساس ریسک صورت گرفت. در این تحقیق عوامل تأثیرگذار بر ریسک بیمه گذاران طی دو مرحله شناسایی گردید. در مرحله اول هیجده فاکتور ریسک در چهار گروه شامل مشخصات جمعیت شناختی، مشخصات اتومبیل، مشخصات بیمه نامه و سابقه راننده از بین مقالات علمی منتشر گردیده در ژورنال های معتبر در بازه سال های ۲۰۰۰ الی ۲۰۰۹ استخراج گردید و در مرحله دوم با بهره گرفتن از نظرسنجی از خبرگان فاکتورهای نهایی تعیین گردید. مشتریان بیمه بدنه اتومبیل در این تحقیق با بهره گرفتن از شبکه های عصبی خودسازمانده به چهار گروه مشتریان با ریسک های متفاوت بخش بندی گردیدند. مزیت این تحقیق استفاده از نظر خبرگان بیمه بوده و ایراد آن عدم استفاده از ویژگی های بیشتر و الگوریتم های انتخاب ویژگی بوده است.
ایزدپرست ]ایزدپرست۱۳۸۹[ همچنین تحقیقی در مورد ارائه چارچوبی برای پیش بینی خسارت مشتریان بیمه بدنه اتومبیل با بهره گرفتن از راهکار داده کاوی انجام داده است که چارچوبی برای شناسایی مشتریان بیمه بدنه اتومبیل ارائه میگردد که طی آن میزان خطرپذیری مشتریان پیشبینی شده و مشتریان بر اساس آن ردهبندی میگردند. در نتیجه با بهره گرفتن از این معیار (سطح خطرپذیری) و نوع بیمهنامه مشتریان، میتوان میزان خسارت آنان را پیشبینی کرده و تعرفه بیمهنامه متناسب با ریسک آنان تعریف نمود. که این مطلب میتواند کمک شایانی برای شناسایی مشتریان و سیاستگذاریهای تعرفه بیمه نامه باشد. در این تحقیق از دو روش خوشهبندی و درختتصمیم استفاده میگردد. در روش خوشهبندی مشتریان بر اساس ویژگی هایشان در خوشه هایی تفکیک شده، سپس میانگین سطح خسارت در هر یک از این خوشهها را محاسبه میکند. حال مشتریان آتی با توجه به اینکه به کدامیک از این خوشهها شبیه تر هستند در یکی از آنها قرار میگیرند تا سطح خسارتشان مشخص گردد. در روش درختتصمیم با بهره گرفتن از دادههای مشتریان، درختی را بر اساس مجموعهای از قوانین که بصورت “اگر-آنگاه” میباشد ایجاد کرده و سپس مشتریان جدید با بهره گرفتن از این درخت ردهبندی میگردند. در نهایت هر دو این مدلها مورد ارزیابی قرار میگیرد. ایراد این روش در عدم استفاده از دسته بند ها بوده است. چون ماهیت تحقیق پیش بینی بوده است استفاده از دسته بند ها کمک شایانی به محقق در تولبد خروجی های حذاب تر می کرد.
خلاصه فصل
عمده پژوهشهایی که درخصوص داده های بیمه ای صورت گرفته کمتر به سمت پیش بینی سود و زیان شرکتهای بیمه بوده است. در موارد مشابه نیزپیش بینی خسارت مشتریان انجام شده که هدف دسته بندی مشتریان بوده است. موضوع این پژوهش اگرچه از نوع همسان با تحقیقات گفته شده است اما در جزئیات بیمه شخص ثالث را پوشش می دهد که درکشور ما یک بیمه اجباری تلقی می شود. همچنین تعداد خصیصه هایی که در صدور یا خسارت این بیمه نامه دخالت دارند نسبت به سایر بیمه های دیگر بیشتر بوده ضمن اینکه بررسی سود یا زیان بیمه شخص ثالث با بهره گرفتن از دانش نوین داده کاوی کارتقریبا جدیدی محسوب می شود.
فصل سوم
شرح پژوهش
در این فصل هدف بیان مراحل انجام این پژوهش و تحلیل خروجی های بدست آمده می باشد.
انتخاب نرم افزار
در اولین دهه آغاز به کار داده کاوی و در ابتدای امر، هنوز ابزار خاصی برای عملیات کاوش وجود نداشت و تقریبا نیاز بود تا تمامی تحلیل گران، الگوریتمهای موردنظر داده کاوی و یادگیری ماشین را با زبان های برنامه نویسی مانند c یا java یا ترکیبی از چند زبان پیاده سازی کنند. اما امروزه محیط های امکان پذیر برای این امر، با امکانات مناسب و قابلیت محاوره گرافیکی زیادی را می توان یافت]صنیعی آباده ۱۳۹۱[.
Rapidminer
این نرم افزار یک ابزار داده کاوی متن باز است که به زبان جاوا نوشته شده و از سال ۲۰۰۱ میلادی تا به حال توسعه داده شده است. در این نرم افزار سعی تیم توسعه دهنده بر این بوده است که تا حد امکان تمامی الگوریتم های رایج داده کاوی و همچنین یادگیری ماشین پوشش داده شوند. بطوری که حتی این امکان برای نرم افزار فراهم شده است تا بتوان سایر ابزارهای متن باز داده کاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربر پسند نرم افزار نیز آن را یک سرو گردن بالاتر از سایر ابزارهای رقیب قرار میدهد]صنیعی آباده ۱۳۹۱[.
مقایسه RapidMiner با سایر نرم افزار های مشابه
در اینجا دو نرم افزار مشهور متن باز را با RapidMiner مقایسه خواهیم کرد و معایب و مزایای آنها را بررسی می کنیم.
الف-R
یک زبان برنامه نویسی و یک پکیج داده کاوی به همراه توابع آماری است و بر پایه زبان های s و scheme پیاده سازی شده است. این نرم افزار متن باز، حاوی تکنیک های آماری مانند: مدل سازی خطی و غیرخطی، آزمون های کلاسیک آماری، تحلیل سری های زمانی، دسته بندی، خوشه بندی، و همچنین برخی قابلیت های گرافیکی است. R را می توان در محاسبات ماتریسی نیز بکار برد که این امر منجر به استفاده از آن در علم داده کاوی نیز می شود.
-مزایا:
شامل توابع آماری بسیار گسترده است.
بصورت بسیارمختصر قادر به حل مسائل آماری است.
دربرابر سایر نرم افزار های مرسوم کار با آرایه مانند Mathematica, PL, MATLAB, LISP/Scheme قدرت مند تر است.
با بهره گرفتن از ویژگی Pipeline قابلیت ترکیب بالایی را با سایر ابزارها و نرم افزارها دارد.
توابع نمودار مناسبی دارد.
-معایب:
فقدان واسط کاربری گرافیک
فقدان سفارشی سازی لزم جهت داده کاوی
ساختار زبانی کاملا متفاوت نسبت به زبان های برنامه نویسی مرسوم مانندc, PHP, java, vb, c#.
نیاز به آشنایی با زبانهای آرایه ای
قدیمی بودن این زبان نسبت به رقبا. این زبان در ۱۹۹۰ ساخته شده است.
ب- Scipy
یک مجموعه از کتابخانه های عددی متن باز برای برنامه نویسی به زبان پایتون[۲۰] است که برخی از الگوریتم های داده کاوی را نیز پوشش می دهد.
-مزایا
برای کاربردهای ریاضی مناسب است.
عملیات داده کاوی در این نرم افزار چون به زبان پایتون است راحت انجام می شود.
دانلود فایل ها با موضوع ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها ...