Abstract
The data preparation phase is a critical step in the KDD (Knowledge Discovery in Databases) process. This phase is crucial for a good data mining result because if data is not correctly prepared, all the next phases of the process are compromised. DMPML is a framework that stores preprocessed data for different data mining algorithms in an XML document and retrieves the correct codification by the use of an XSLT document according to the needs of the data mining algorithm. This paper presents a comparison between DMPML and three data mining applications (Weka, Rapid Miner, and KNIME) that implement the directed graph approach, concerning the time spent to create and execute the data preparation tasks for two data mining algorithms. The tests were executed using different types of data sets: numerical, categorical, and mixed. We observed that the scheme used by DMPML can simplify the usage of different data mining algorithms and significantly reduce the time spent creating the data preparation tasks
چکیده
فاز انتشار دادهها یک مرحله حیاتی در فرآیند KDD (کشف دانش در پایگاه دادهها) است. این فاز برای نتیجه یک داده کاوی خوب حیاتی است زیرا اگر دادهها به طور صحیح آماده نشده باشند، تمام فازهای بعدی فرآیند به خطر میافتد. DMPML چهارچوبی است که دادههای از پیش پردازش شده را برای الگوریتمهای مختلف داده کاوی در یک سند XML ذخیره میکند و کدگذاری صحیح را با استفاده از یک سند XSLT مطابق با نیازهای الگوریتم داده کاوی بازیابی مینماید. این مقاله مقایسهای بین DMPML و سه برنامه کاربردی داده کاوی (Weka، RapidMiner، KNIME) را ارائه میدهد که رویکرد گراف جهت دار را با در نظر گرفتن زمان صرف شده جهت ایجاد و اجرای وظایف انتشار دادهها برای دو الگوریتم داده کاوی بکار میگیرد. آزمایشات با استفاده از انواع مختلف مجموعههای دادهای: عددی، قطعی و ترکیبی اجرا میشوند. ما مشاهده کردیم که طرح بکار رفته توسط DMPML میتواند استفاده از الگوریتمهای مختلف داده کاوی را ساده کند و به طور قابل ملاحظهای زمان صرف شده جهت ایجاد وظایف انتشار دادهها را کاهش دهد.
1-مقدمه
فاز انتشار دادهها در فرآیند KDD مسئول پاک کردن، یکپارچه کردن، انتخاب و تبدیل دادهها است، به طوری که برای یک الگوریتم داده کاوی مناسب باشد. بر اساس Pyle [2]، آماده سازی دادهها 60 تا 80 درصد از زمان مورد نیاز جهت کاوش دادهها را مصرف می کند و 75 تا 90 درصد از دادهها جهت موفقیت کاوش همکاری مینمایند. امروزه بسیاری از ابزارها میتوانند جهت انجام این فاز مورد استفاده قرار گیرند. رایجترین رویکردی که علاوه بر توصیف فاز انتشار دادهها میتواند کل فرآیند را توصیف نماید.، بکارگیری گرافهای جهت دار است...