Abstract
In this paper, we present a new rule induction algorithm for machine learning in medical diagnosis. Medical datasets, as many other real–world datasets, exhibit an imbalanced class distribution. However, this is not the only problem to solve for this kind of datasets, we must also consider other problems besides the poor classification accuracy caused by the classes distribution. Therefore, we propose a different strategy based on the maximization of the classification accuracy of the minority class as opposed to the usually used sampling and cost techniques. Our experimental results were conducted using an original dataset for cardiovascular diseases diagnostic and three public datasets. The experiments are performed using standard classifiers (Naïve Bayes, C4.5 and k–Nearest Neighbor), emergent classifiers (Neural Networks and Support Vector Machines) and other classifiers used for imbalanced datasets (Ripper and Random Forest). In all the tests, our algorithm showed competitive results in terms of accuracy and area under the ROC curve, but overcomes the other classifiers in terms of comprehensibility and validity
چکیده
در این مقاله ما قاعده جدید الگوریتم قیاسی را برای یادگیری ماشینی در تشخیص طبی ارائه می کنیم. دیتابیس های طبی، مانند بسیاری از دیتابیس های جهان واقعی، توزیع نامتوازن طبقاتی را نشان می دهند. هر چند این تنها مشکل در این نوع از دیتابیس ها که باید حل شود، نیست، همچنین ما باید به مشکلات دیگری در کنار درستی طبقه بندی ضعیف ناشی از توزیع طبقاتی، توجه کنیم. بنابراین هدف ما استراتژی متفاوتی بر اساس حداکثرسازی صحت طبقه بندی، گروه اقلیت است که برعکس با نمونه گیری مورد استفاده معمول و تکنیک های ارزشی است. نتایج تجربی ما با استفاده از یک مجموعه داده اصلی، برای تشخیص بیماری های قلبی عروقی و دیتابیس های عمومی سه گانه اجراشد. آزمایشات با استفاده از گروه بندی استاندارد (Naïve Bayes، C4.5 و k-Nearest Neighbor) طبقه بندی اورژانسی (شبکه های عصبی و ماشین های مسیر پشتیبانی) و دیگر دسته بندی های استفاده شده برای دیتابیس های نامتوازن (Ripper و Random Forest جنگلی تصادفی و شکاف دهنده) انجام شدند. در تمامی آزمایش ها، الگوریتم ما نتایج قابل رقابتی را از نظر درستی و منطقه زیر منحنی ROC، نشان دادند. اما از نظر قابلیت درک و اعتبار بر دیگرطبقه بندی ها غلبه کردند.
1-مقدمه
بسیاری از دیتابیس های دنیای واقعی یک توزیع دسته بندی نامتوازن را نشان می دهند، جاییکه انبوه دسته بندی هایی با دیتای نرمال و دسته بندی حداقلی با دیتایی مهم و ناهنجار، وجود دارد. Fraud فهمید، ورود بی اجازه شبکه و تشخیص های طبی، نمونه هایی از این نوع دیتابیس ها هستند. هرچند که، برخلاف دیگر نرم افزارهای یادگیری ماشینی، مشکل تشخیص طبی، یکباره پایان نمی یابد...