Abstract
An ensemble is a collective decision-making system which applies a strategy to combine the predictions of learned classifiers to generate its prediction of new instances. Early research has proved that ensemble classifiers in most cases can be more accurate than any single component classifier both empirically and theoretically. Though many ensemble approaches are proposed, it is still not an easy task to find a suitable ensemble configuration for a specific dataset. In some early works, the ensemble is selected manually according to the experience of the specialists. Metaheuristic methods can be alternative solutions to find configurations. Ant Colony Optimization (ACO) is one popular approach among metaheuristics. In this work, we propose a new ensemble construction method which applies ACO to the stacking ensemble construction process to generate domain-specific configurations. A number of experiments are performed to compare the proposed approach with some well-known ensemble methods on 18 benchmark data mining datasets. The approach is also applied to learning ensembles for a real-world cost-sensitive data mining problem. The experiment results show that the new approach can generate better stacking ensembles
چکیده
یک مجموعه ، سیستم تصمیم گیری جامعی است که استراتژیی برای ترکیب پیش بینی های دسته بندی کننده های یادگرفته شده به کار می برد تا پیش بینی خود از موارد جدید را ایجاد کند. تحقیقات اولیه ثابت کرده اند که دسته بندی کننده های مجموعه در بیشتر موارد هم به صورت تجربی و هم نظری می توانند دقیق تر از هر دسته بندی کننده تک مولفه ای باشند. اگرچه شیوه های مجموعه سازی زیادی پیشنهاد شده اند، اما هنوز یافتن پیکربندی مجموعه مناسبی برای یک مجموعه داده خاص آسان نیست. در برخی کارهای اولیه، مجموعه به صورت دستی طبق تجربه متخصصان انتخاب می شود. شیوه های فراذهنی می توانند راه حل جایگزینی برای یافتن پیکربندی ها باشند. بهینه سازی کلونی مورچگان (ACO) روشی محبوب در میان روش های فراذهنی است. در این تحقیق ، ما یک شیوه ساخت مجموعه جدید را پیشنهاد می کنیم که ACO را برای فرآیند ساخت مجموعه پشته سازی به منظور ایجاد پیکربندی های مختص زمینه به کار می گیرد. تعدادی آزمایش به منظور مقایسه روش پیشنهادی با برخی شیوه های مجموعه شناخته شده در 18 مجموعه داده داده کاوی معیار انجام می شوند. همچنین ، این روش به مجموعه های یادگیری برای یک مسئله داده کاوی حساس به هزینه واقعی به اِعمال می شود. نتایج تجربی نشان می دهند که شیوه جدید می تواند مجموعه های پشته سازی بهتری تولید کند.
1-مقدمه
در طی سالهای پیشرفت، بهبود قابل توجه عملکرد یک دسته بندی کننده منفرد دشوار و دشوارتر شده است. اخیرا، علاقه تحقیقاتی زیادی به روش ترکیب دسته بندی کننده های مختلف با هم برای دستیابی به عملکرد بهتر معطوف شده است. شیوه ترکیب ، «مجموعه» نامیده می شود. در تحقیقات اولیه، اثبات شد که مجموعه ها در بسیاری از موارد به صورت تجربی و نظری عملکرد دقیق تری از هر دسته بندی تک مولفه ای دارند. اگر یک مجموعه توسط مجموعه ای از دسته بندی کننده ها تولید شود که از الگوریتم یادگیری یکسانی آموزش داده می شوند، این مجموعه یک مجموعه همگن است. اگر یک مجموعه توسط مجموعه ای از دسته بندی کننده ها تولید شود که از الگوریتم های یادگیری متفاوت آموزش داده می شوند ، این مجموعه یک مجموعه ناهمگن است..