Abstract
In parallel to the increase in the number of credit card transactions, the financial losses due to fraud have also increased. Thus, the popularity of credit card fraud detection has been increased both for academicians and banks. Many supervised learning methods were introduced in credit card fraud literature some of which bears quite complex algorithms. As compared to complex algorithms which somehow over-fit the dataset they are built on, one can expect simpler algorithms may show a more robust performance on a range of datasets. Although, linear discriminant functions are less complex classifiers and can work on high-dimensional problems like credit card fraud detection, they did not receive considerable attention so far. This study investigates a linear discriminant, called Fisher Discriminant Function for the first time in credit card fraud detection problem. On the other hand, in this and some other domains, cost of false negatives is very higher than false positives and is different for each transaction. Thus, it is necessary to develop classification methods which are biased toward the most important instances. To cope for this, a Modified Fisher Discriminant Function is proposed in this study which makes the traditional function more sensitive to the important instances. This way, the profit that can be obtained from a fraud/legitimate classifier is maximized. Experimental results confirm that Modified Fisher Discriminant could eventuate more profit
چکیده
در راستای افزایش تعداد تراکنش های کارت های اعتباری، زیان های مالی ناشی از جعل این تراکنش ها نیز افزایش پیدا کرده است. بنابراین محبوبیت تشخیص کلاه برداری از کارت های اعتباری، هم برای حوزه های علمی و هم بانکی افزایش پیدا کرده است. متدهای یادگیری نظارت یافته ی زیادی در حوزه ی تشخیص کلاه برداری از کارت های اعتباری معرفی گردیده است که بعضی از آن ها از الگوریتم های کاملاً پیچیده ای استفاده می کنند. در مقایسه با الگوریتم های پیچیده که به نوعی بر اساس مجموعه های داده ای خاصی ایجاد شده اند، می توان انتظار داشت که الگوریتم های ساده تر بتوانند کارائی بهتری را بر روی محدوده ای از مجموعه های داده ای به همراه داشته باشند. اگرچه توابع تفکیک خطی را می توان به عنوان دسته بند هایی با پیچیدگی کمتر در نظر گرفت که می توانند بر روی مسائلی با تعداد بالایی از بعد، مانند تشخیص کلاه برداری از کارت اعتباری بکار گرفته شوند ولی این روش ها تا به امروز مورد توجه زیادی قرار نگرفته است. در این مقاله به بررسی یک تابع تفکیک خطی تحت عنوان تفکیک فیشر برای حل مسئله ی تشخیص کلاه برداری از کارت های اعتباری می پردازیم. از سوی دیگر، در این دامنه و سایر دامنه ها، هزینه ی منفی کاذب بسیار بالاتر از هزینه ی مثبت کاذب بوده که این میزان به ازای هر تراکنش متفاوت می باشد. بنابراین ضروری است تا روش های دسته بندی را توسعه دهیم که به سمت مهم ترین نمونه ها سوق داشته باشند. برای غلبه بر این مسئله، یک نمونه ی جدیدی از تابع تفکیک فیشر را پیشنهاد می دهیم که به حساسیت این تابع نسبت به نمونه های مهم افزوده است. در همین راستا، مزیتی که می توان از یک دسته بند قانونی/جعلی برد افزایش پیدا می کند. نتایج حاصله از آزمایش ها نشان می دهد که این تفکیک فیشر می تواند سود بیشتری را به همراه داشته باشد.
1-مقدمه
امروزه، با افزایش تراکنش های کارت های اعتباری در نه تنها خرید های آنلاین بلکه در خرید های معمول، کلاه برداری از کارت اعتباری به یک امری شایع مبدل گشته است. امروزه، هم فروشندگان و هم خریداران، بر حسب خسارت های مالی ناشی از این جعل و کلاهبرداری ها، هر دو متأثر از این مسئله قرار می گیرند. بعضی از رفرنس ها، گزارش دادهاند که سالانه به دلیل جعل کارت های اعتباری، میلیارد ها دلار خسارت به صاحبان این کارت ها وارد می شود...