Abstract
In this paper, we solve the customer credit card churn prediction via data mining. We developed an ensemble system incorporating majority voting and involving Multilayer Perceptron (MLP), Logistic Regression (LR), decision trees (J48), Random Forest (RF), Radial Basis Function (RBF) network and Support Vector Machine (SVM) as the constituents. The dataset was taken from the Business Intelligence Cup organised by the University of Chile in 2004. Since it is a highly unbalanced dataset with 93% loyal and 7% churned customers, we employed (1) undersampling, (2) oversampling, (3) a combination of undersampling and oversampling and (4) the Synthetic Minority Oversampling Technique (SMOTE) for balancing it. Furthermore, tenfold cross-validation was employed. The results indicated that SMOTE achieved good overall accuracy. Also, SMOTE and a combination of undersampling and oversampling improved the sensitivity and overall accuracy in majority voting. In addition, the Classification and Regression Tree (CART) was used for the purpose of feature selection. The reduced feature set was fed to the classifiers mentioned above. Thus, this paper outlines the most important predictor variables in solving the credit card churn prediction problem. Moreover, the rules generated by decision tree J48 act as an early warning expert system
چکیده
در این مقاله، با استفاده ازروش های داده کاوی مشکل پیش بینی آشفتگی (تداخل)کارت اعتباری مشتری را حل می کنیم. ما یک سیستم بهم پیوسته(ترکیبی)را توسعه داده ایم که پرسپترون چند لایه (mlp)، رگرسیون منطقی (LR)، درخت های تصمیم، جنگل تصادفی (RF)، توابع پایه ای شعاعی (RBF)، ماشین برداری شبکه و پشتیبان (SVM) ، به عنوان اجزا اصلی تشکیل دهنده آن محسوب می شوند. مجموعه داده مورد استفاده، از مسابقات هوش تجاری که توسط دانشگاه شیلی در سال 2004 برگزار شده بود، گرفته شده است. از آنجاییکه این مجموعه یک مجموعه داده بسیار نامتوازنی بود ( با 93 درصد مشتری ثابت و 7 درصد مشتری متغیر) ، ما مجبور به استفاده از نمونه بردای و نمونه گذاری ، همچنین ترکیبی از نمونه برداری و نمونه گذاری و تکنیک نمونه گذاری اقلیت مصنوعی (SMOTE)برای متوازن کردن آن شدیم. بعلاوه اینکه اعتبار سنجی چندین برابر به کار گفته شد. نتایج نشان داد که این تکنیک (SMOTE) دقت کلی خوبی به دست آورده است. همچنین این تکنیک و ترکیبی از نمونه برداری و نمونه گذاری حساسیت و دقت کلی را در اکثر موارد بهبود داده است. به علاوه درخت طبقه بندی و رگرسیون (CART) برای هدف انتخاب ویژگی به کار رفته بود. یک مجموعه ویژگی کاهش یافته برای طبقه بندی ذکر شده استفاده شده بود. به این ترتیب این مقاله مهمترین متغیرهای پیش بینی کننده در حل مسائل پیشگیری از تداخل کارت های اعتباری را مطرح می کند. به علاوه قوانین ایجاد شده به وسیله درخت تعصمیم J48 به عنوان یک سیستم خبره هشدار دهنده سریع عمل می کند.