۲-۸-۵-۶- تحلیل انحراف[۱۰۵]
این روش جهت یافتن دادههایی که بسیار متفاوت از دادههای دیگر عمل می کنند یا تغییرات چشمگیری نسبت به رفتار مشاهده شده قبلی دارند. این دادهها، دادهها پرت[۱۰۶] نام دارند. از کاربردهای این روش میتوان به کشف تقلب در کارتهای اعتباری اشاره نمود جایی که شناسایی رفتار غیر نرمال از بین میلیونها تراکنش کاری دشوار و تا حدودی ناممکن مینماید. کشف نفوذ در شبکه و تشخیص کلاهبرداری در معاملات از دیگر کاربردهای این روش میباشد. این الگوریتم در سادهترین حالت با بهره گرفتن از سطح زیر منحنی نرمال و در نظر گرفتن مقدار معینی از انحراف معیار نمونههای متفاوت با سایرین را شناسایی مینماید [۱].
یک سوءاستفاده مالی در بانک می تواند مدیران بانک را متحمل هزینه های زیادی نماید. با بهکارگیری این الگوریتم میتوان به کشف رفتارهای مشکوک مشتریان پرداخت و در نتیجه هزینه های ناشی از اینگونه سوءاستفادهها را کاهش داد.
۲-۸-۵-۷- قواعد وابستگی (انجمنی)[۱۰۷]
این روش برای یافتن الگوهای پر تکرار، وابستگیها، ارتباطات یا ساختارهای علی موجود در میان مجموعه ای از عناصر و یا اشیاء در پایگاه دادههای تراکنشی و یا پایگاه دادههای رابطهای و دیگر مخازن اطلاعات به کار میرود. مثلاً اینکه چه نوع خدمات بانکی اغلب به صورت همزمان توسط یک مشتری مطالبه می شود می تواند به صورت یک قاعده از پایگاه دادههای بانک استخراج شود [۳۱].
قواعد وابستگی برای بیان حقایق موجود در مجموعه ای از دادهها به کار میروند. بدین ترتیب که اگر بعضی وقایع رخ دهند آنگاه وقایع دیگری نیز رخ خواهند داد. اگر یک قاعده وابستگی را با نشان دهیم (یعنی در صورتی که X اتفاق بیافتد Y هم اتفاق میافتد)، مسئله قواعد وابستگی در اصل یافتن قواعدی است که از حداقل پشتیبانی[۱۰۸] برقرار بوده و به اندازه کافی به آنها اعتماد[۱۰۹] داشته باشیم.
۲-۸-۵-۸- تحلیل توالی[۱۱۰]
تحلیل توالی برای یافتن الگوهای موجود در بین یک مجموعه داده است. تحلیل توالی و قواعد انجمنی هر دو شامل مجموعهای از حالات، تراکنشها و یا ارتباطات هستند. تفاوت این دو روش در این است که تقدم و تأخر رخدادها در تحلیل توالی بسیار حائز اهمیت است و توالی انتقالهای بین حالتهای مختلف تحلیل می شود. در صورتی که در قواعد انجمنی تراکنشهای مختلف یک مشتری ارزش یکسان دارند. مثلاً در تحلیل توالی اینکه یک مشتری بانک از خدمات انتقال وجه بعد از واریز سود بهره گیرد یا پیش از واریز سود اهمیت دارد. اما در کشف قواعد انجمنی اینکه کدام فعالیت زودتر یا دیرتر انجام شده اهمیتی ندارد و دو تراکنش واریز سود و برداشت وجه مجموعه اقلام یکسانی را میسازند.
شکل ۲-۱۰ توالی از بازدیدهای وب را نشان میدهد. هر گره شامل یک گروه URL است. هر خط جهت دار انتقال بین این گرهها را نشان میدهد و وزن هر انتقال نشان دهنده احتمال انتقال بین این گرههاست [۱].
شکل ۲-۱۰ نمونه ای از توالی بازدیدها در وب
۲-۸-۶- نرمافزار دادهکاوی
ابزارهای دادهکاوی که جهت مدیریت دانش مشتری انتخاب میشوند باید قادر باشند تا اطلاعات ضروری را از میان انبوه دادههای در دسترس استخراج کنند. برای حصول این منظور ابزارهای دادهکاوی باید خصوصیات زیر را داشته باشند:
- محیط کاربر پسند.
- بهرهوری[۱۱۱] بالا
- قابلیت انجام عملیات اساسی لازم
- هزینه اجرای نسبتاً پایین [۳۰].
در حال حاضر چندین نرمافزار جهت دادهکاوی توسط شرکتهای معتبر نرمافزاری عرضه شده است. نرمافزار مورد استفاده در این تحقیق SPSS Clementine 12.0 میباشد. SPSS از شرکتهای عمده آماری است که حاوی تعدادی از محصولات دادهکاوی میباشد. SPSS توسط شرکت بریتانیایی ISL در اواخر سال ۱۹۹۸ ارائه شد و بسته دادهکاوی Clementine را ارائه نمود.
Clementine از اولین نرم افزارهایی بود که به مفهوم جریان دادهکاوی پرداخت و به کاربر این امکان را داد که کارهایی چون پاکسازی دادهها، تبدیل دادهها و آموزش مدل را در همان محیط گردش کار انجام دهند. این نرمافزار شامل ابزارهایی برای مدیریت چرخه پروژه دادهکاوی دارا میباشد.
۲-۸-۷- کاربردهای دادهکاوی
امروزه کاربردهای بسیار زیادی از دادهکاوی در بسیاری از زمینه ها از جمله بازاریابی، علوم پزشکی، شرکتهای بیمه و مخابرات، شرکتهای تبلیغاتی و همه سازمانهایی که به علت تراکنشهای بالا و سروکار داشتن با مشتریان، دارای پایگاه دادههای بزرگ میباشند، شناخته شده است.
این علم می تواند پیش بینیهایی با دقت بالا برای سازمانها انجام دهد، همچنین به مدیران و متخصصان و کارشناسان کمک میکند که بتوانند آینده شرکت و کسب و کار خود را با دقتهای بسیار بالا پیش بینی کنند، دادهکاوی به مراکز صنعتی کمک میکند که درک و بینش صحیحی از نحوه کارکرد دستگاههای صنعتی پیچیده خود بدست آورند. در واقع دادهکاوی ابزاری بسیار کارا برای استفاده از دادههایی است که تولید میشوند اما استفادهای از آنها نمیشود.
دادهکاوی علمی است که باعث تغییر و تحول در هر صنعت و کسب و کاری میشود و اکنون بسیاری از شرکتهای معتبر در سرتاسر دنیا توانستهاند با بهره گرفتن از روشهای دادهکاوی سود سالیانه خود را به اندازه چشم گیری افزایش دهند تا جایی که این شرکتها در کنار واحدهایی مانند تحقیق و توسعه، تکنولوژی اطلاعات، برنامه ریزی و غیره، اقدام به تأسیس واحدهای دادهکاوی نمودهاند.
همچنین کاربردهای زیادی از دادهکاوی در زمینه صنعت بانکداری شناخته و بکار گرفته شده است. از این میان میتوان به کاربرد این ابزار در بازاریابی و مدیریت ارتباط با مشتریان (نظیر پروفایل سازی جهت جذب، حفظ و توسعه مشتری، مراقبت از مشتری، تحلیل رویگردانی مشتری)، کاربرد دادهکاوی در کشف تقلب و سوءاستفادههای مالی (مانند فساد مالی، سوءاستفاده از دارایی ها و تقلب در گزارشگری مالی)، کاربرد دادهکاوی در پیش بینی عملکرد بانک، دادهکاوی جهت ارزیابی اعتبار مشتریان بانک و دادهکاوی جهت ارزیابی عملکرد بانکها اشاره نمود [۱].
۲-۸-۷-۱- دادهکاوی در صنعت بانکداری
بخش بانکداری طبق الگوی پورتر برای فعالیت در محیط رقابتی امروز با پنج نیروی رقابتی مواجه است که یکی از آنها قدرت چانه زنی مشتری است. افزایش رقابت بین بانکها، تغییر قوانین و معرفی فناوریهای جدید و خصوصاً زیرساخت اینترنتی سبب افزایش آگاهی مشتریان به همه امور شده است و در نتیجه قدرت چانه زنی مشتری را بیشتر کرده است، به طوری که مشتری قادر است در کمترین زمان به بانک دیگری رجوع کند [۱۱].
شکل ۲-۱۱ نیروهای رقابتی پورتر [۱۱ به نقل از ۶]
صنعت بانکداری در جهان تحت تغییرات شدید در طریقه انجام کسب و کار میباشند. بانکهای پیشرو از ابزارهای دادهکاوی برای بخشبندی، تعیین سودمندی، دسته بندی اعتبار، پیش بینی قصور در بازپرداختها، بازاریابی، تشخیص تراکنشهای متقلبانه و غیره استفاده میکنند. این ابزار به عنوان یک ابزار رقابتی در بانک شناخته شده است [۱۱].
داده یکی از با ارزشترین دارایی های شرکتها میباشد، اما فقط در صورتی که بدانیم چگونه دانش در آنرا آشکار کنیم. داده کاوی امکان استخراج دانش موجود در داده های تاریخی و پیش بینی پیامدهای موقعیتهای آینده را در اختیار می گذارد. دادهکاوی ابزار ارزشمندی میباشد که با کمک آن یک سازمان میتواند با شناسایی اطلاعات مفید بالقوه از مقدار اطلاعات جمع آوری شده، مزیت واضحی نسبت به رقبایش کسب نماید [۱۱].
کاهش هزینهای ذخیره سازی دادهها و افزایش راحتی در ذخیرهسازی دادهها، توسعه الگوریتمهای قوی و مؤثر یادگیری ماشین برای پردازش دادهها و کاهش هزینه قدرت محاسباتی از عواملی است که باعث گسترش و علاقه به دادهکاوی گشته است [۱۱].
۲-۹- پیشینه تحقیق
از آنجاکه هوشمندی سازمانی بر کشف دانش به واسطه بهره گیری از منابع دادهای تأکید داشته و این امکان جهت پشتیبانی اتخاذ تصمیمات در سازمانها کاربرد دارد، جای تعجب نیست که اخیراً مسائلی چون مدیریت دانش مشتری، مدیریت ارتباط با مشتری، دادهکاوی و ترکیب این زمینه ها مطالعات بسیاری را به خود اختصاص دادهاند. در این میان بانکها به دلیل ماهیت ارتباط خود با مشتریان و حجم زیاد تراکنشها و دادههای برجای مانده از آنها توجه ویژهای را میطلبند.
مدهوشی و همکاران در [۲۱] اثر مدیریت دانش مشتری (CKM) بر مدیریت ارتباط با مشتری (CRM) را توسط ابزارهای آماری بررسی و تحلیل نمودند. در این مطالعه برای جمع آوری دادهها، پرسشنامهای بین ۱۴۴۰ نفر از مدیران، معاونان و کارشناسان شعب بانک ملی استان مازندران توزیع شد. دادههای حاصل توسط نرمافزارهای SPSS و LISREL مورد تجزیه و تحلیل قرار گرفت. تست نتایج آزمون با روش آلفای کرونباخ، ضریب ثابت ۹۴٫۷۸ را نشان داد. نتایج آزمون کولموگروف-اسمیرنوف نشان داد که متغیرهای CKM و CRM نرمال هستند. به منظور تست اولویت اجزای CKM و CRM آزمون کروسکال-والیس را اجرا شد. سپس با بهره گرفتن از تست رگرسیون همبستگی، ارتباط بین CKM و CRM مورد مطالعه قرار گرفت. در نتیجه آنها نشان دادند که ارتباط معنیداری بین CKM و CRM وجود دارد. در نهایت تحلیل برازش منحنی ریشه متوسط خطای مربعی کمتر ۰٫۱۰ و شاخص های مناسب بودن برازش بیشتر از ۰٫۹۰ را نشان داد که این نتایج حاکی از تأثیر CKM بر CRM در بانک ملی ایران، شعب مازندران بوده است.
همانطور که پیش از این اشاره شد تا به امروز زمینههای بسیاری از کاربرد دادهکاوی در صنعت بانکداری شناخته شده و این زمینهها مطالعات و تحقیقات زیادی را به خود تخصیص دادهاند. از جمله این کاربردها میتوان به کاربرد دادهکاوی در بخشبندی مشتریان و مدلسازی رفتاری آنها با اهداف پیش بینی ارزش طول عمر مشتری (CLV) یا ارائه سرویس مناسب به مشتریان بالقوه در مسیر اجرای CRM، کاربرد دادهکاوی در رتبه بندی اعتبار مشتریان متقاضی وام، کاربرد دادهکاوی در زمینه تحلیل رویگردانی مشتریان بانک، کاربرد دادهکاوی در زمینه کشف تقلب و سوءاستفادههای مالی، کاربرد دادهکاوی در زمینه پیش بینی عملکرد بانک و کاربرد دادهکاوی در ارزیابی عملکرد بانکها و … اشاره نمود [۱].
از این رو در بخش پیشینه تحقیق، بررسی مطالعات صورت گرفته به تفکیک کاربرد مطرح خواهد شد.
۲-۹-۱- کاربرد دادهکاوی در بخشبندی و مدلسازی رفتاری مشتریان در صنعت بانکداری
با در نظر گرفتن این اصل که برای موفقیت در کسب و کار درک کامل مشتریان ضروری است و از آنجا که مشتریان سازمان نیازها و روحیات متفاوتی دارند میتوان گفت استفاده از استراتژیهایی چون بازاریابی مستقیم جهت ارائه و معرفی خدمات و محصولات جدید سازمان به مشتریان چندان کارامد نخواهد بود. از این رو تکنیکهای رتبه بندی مشتریان به مدیران امکان خواهد داد تا با هر مشتری بر اساس علایق و خواسته های او برخورد نموده و از ویژگیهای مربوط به هر دسته جهت اتخاذ استراتژیهای متناسب بهره گیرد.
مؤمنی و همکاران در [۸] به لزوم ارتباط با مشتری در بانکها پرداختهاند. در این مقاله اشاره شده که طبق قاعده معروف ۸۰/۲۰ پارتو معمولاً ۲۰ درصد مشتریان، ۸۰ درصد سودآوری سازمان را منجر میشوند. بنابراین دستهبندی مشتریان می تواند ابزار شناسایی این گروه طلایی و ارائه خدمات بیشتر به آنها بوده و سود بیشتر سازمان را برای سازمان به ارمغان آورد. در ادامه به کاربردهای دادهکاوی در صنعت بانکداری اشاره شده و به طور خاص دادهکاوی جهت امتیازدهی و برآورد اعتبار مشتریان پرداخته شده است. در این مطالعه مشتریان از نظر اعتبار به چهار دسته تقسیم شده و مشتریان متقاضی اعتبار جدید نیز بر مبنای مدل حاصل دستهبندی میشوند.
هسیه در [۳۵] به تحقیقی تحت عنوان «مدل یکپارچه دادهکاوی و رتبه بندی رفتاری برای تجزیه و تحلیل رفتار مشتریان بانک» پرداخته است. این تحقیق مدلی ادغامی از دادهکاوی و مدل رتبه بندی مشتریان جهت مدیریت کارتهای اعتباری مشتریان در بانک ارائه میدهد. در این تحقیق جهت ساخت مدلی برای شناسایی الگوی رفتاری مشتریان از شبکه های عصبی و روش خود سازمان دهنده[۱۱۲]، استفاده گردیده است. در ابتدا مشتریان بانک با بهره گرفتن از تکنیکهای SOM خوشهبندی گردیده و سپس با بهره گرفتن از قوانین وابستگی متغیرهای رفتاری که بیشترین ارتباط را با یکدیگر دارند شناسایی گردیدهاند. این تحقیق مشتریان بانک را به سه گروه اصلی تقسیم مینماید. این مطالعه نشان میدهد که شناسایی مشخصههای مشتریان با بهره گرفتن از مدل رتبه بندی رفتاری مفید میباشد و توسعه استراتژی های بازاریابی را تسهیل مینماید.
حسینی در [۱۱] از تکنیکهای هوشمند دادهکاوی جهت مدیریت ارتباط با مشتریان بانک پارسیان بهره گرفته است. او در پایان نامه خود با ترکیب دو دسته از متغیرها، ۳۰ متغیر برای بررسی الگوی رفتاری مشتریان شناسایی نموده و با بهره گرفتن از شبکه عصبی کوهنن ماتریس نرونهای خروجی شبکه ۳*۵ را تشخیص داده و مشتریان را در ۱۳ خوشه تقسیم نمود. در ادامه این تحقیق ارائه سرویسهای بانکی مناسب به مشتریان بالقوه با بهره گرفتن از تکنیکهای دادهکاوی را مورد بررسی قرار داده و نتایج بدست آمده حاکی از آنست که از ۲۱ سرویس در نظر گرفته شده بانک پارسیان که شامل اعلام موجودی، دریافت صورت حساب، پرداخت قبض، برداشت وجه، انتقال وجه، عملیات مربوط به چک از کانالهای مختلف بانکی شامل دستگاه ATM، اینترنت، موبایل، تلفن و پایانه های خرید POS میباشد، ۱۲ سرویس در گروه مورد نظر بیشترین استفاده را داشته است. کشف این مسئله که کدام دسته از مشتریان سودمندی لازم را برای نگهداری دارند و جلوگیری از هزینه های اضافی تبلیغات به صورت گسترده با ارائه سرویسهای مناسب به مشتریان بالقوه، از نتایج این بررسی اعلام شده است.
مقاله [۲۳] به خوشهبندی مشتریان با خصوصیات رفتاری مشابه (RFM) با هدف تخمین وفاداری مشتری جهت تسهیل اتخاذ استراتژی و پیشنهاد سرویسهای متناسب هر گروه با ترکیب روشهای دادهکاوی و ارزش طول عمر مشتری[۱۱۳] (CLV)، پرداخته است. در این تحقیق از دادههای جمعیت شناختی و دادههای مربوط به تراکنشهای مالی مشتریان (RFM) مربوط به شرکت ایرانی ساپکو به عنوان ورودی استفاده شد. این مقاله رویه جدیدی را بر مبنای مدل RFM توسعه یافته که شامل یک پارامتر اضافی است معرفی مینماید. در این رویه، روش RFM وزن دار[۱۱۴] با الگوریتم K-Means در دادهکاوی ترکیب شده و از روش دیویس- بولدین[۱۱۵] برای محاسبه مقدار بهینه K استفاده شده است و نهایتاً مشتریان بر مبنای وفاداری به محصولات شرکت ساپکو ایران دستهبندی شدند. نتایج حاصل نشان داد قابلیت سازمان برای جلب وفاداری مشتریان خود با استراتژیهایی که با توجه به این دستهبندی بکار برد در مقایسه با روش معمول انتخاب تصادفی که در اکثر سازمانها در ایران بکار میرود، افزایش چشمگیری داشته است.
۲-۹-۲- کاربرد دادهکاوی در ارزیابی اعتبار مشتریان
عبدو و همکاران در [۲۹] به مطالعه دادههای مشتریان یک بانک مصری که از این بانک وام گرفته بودند پرداختند. در این مطالعه مشتریان بانک از لحاظ اعتبار دستهبندی شدند. الگوریتمهای بکار رفته در این مقاله شبکههای عصبی احتمالی و چند لایه و رگرسیون لاجیت و ورودیهای این الگوریتمها اطلاعات شخصی مشتری شامل سن، درآمد ماهانه، جنسیت، وضعیت تأهل، وضعیت مسکن، مقدار وام، مدت بازپرداخت و… بوده است. در این تحقیق عملکرد شبکههای عصبی احتمالی و چند لایه با روشهای مرسوم مانند آنالیز تفکیکی، رگرسیون منطقی و آنالیز بر اساس حداقل انحراف از میزان متوسط مقایسه شده است. نتایج حاصل بیانگر این مسئله است که رگرسیون لاجیت با ۸۸% پیش بینی صحیح عملکرد بهتری نسبت به روشهای مرسومی که نام برده شد، داشته است؛ و در مقایسه کلی شبکه عصبی با ۹۶% دقت بهترین عملکرد را داشته است.
لی و همکاران در [۲۲] یک روش ترکیبی جدید برای انتخاب دادههای ورودی دستهبندی مشتریان بانک جهت ارزیابی اعتبار آنان معرفی کرده اند. در این مقاله رویکردی ترکیبی که حاصل ترکیب رویکردهای انتخاب ویژگی موجود (آنالیز ترکیبی خطی، تئوری مجموعههای ناهموار، درخت تصمیم و روش Fscore) با روش ماشین بردار پشتیبان[۱۱۶] است برای انتخاب متغیرها معرفی شده و در ادامه مقایسه ای بین رویکردهای ترکیبی بر پایه SVM به منظور انتخاب ویژگیها صورت گرفته است. در این تحقیق از دادههای معروف مربوط به کارتهای اعتباری UCI مربوط به کشور آلمان و استرالیا استفاده شد. تمرکز مقاله بر یافتن مرتبطترین ویژگیها با اهداف منظور است و بیان می شود که مسئله مهم نه فقط کاهش حجم متغیرهای ورودی بلکه حذف نویزهای ورودی نیز میباشد. نتایج حاصل نشان می دهند که عملکرد روشها به صورت ترکیبی در انتخاب ویژگیهای ورودی بسیار بهتر از عملکرد هر یک از این روشها به طور منفرد است.