Abstract
Practical usage of machine learning is gaining strategic importance in enterprises looking for business intelligence. However, most enterprise data is distributed in multiple relational databases with expert-designed schema. Using traditional single-table machine learning techniques over such data not only incur a computational penalty for converting to a flat form (mega-join), even the human-specified semantic information present in the relations is lost. In this paper, we present a practical, two-phase hierarchical meta-classification algorithm for relational databases with a semantic divide and conquer approach. We propose a recursive, prediction aggregation technique over heterogeneous classifiers applied on individual database tables. The proposed algorithm was evaluated on three diverse datasets, namely TPCH, PKDD and UCI benchmarks and showed considerable reduction in classification time without any loss of prediction accuracy
چکیده
استفاده عملی از یادگیری ماشین، اهمیت راهبردی در سازمانهایی دارد که به دنبال هوش تجاری هستند. هرچند بیشتر دادههای سازمانی در چندین پایگاه داده رابطهای با طراحی تخصصی توزیع شدهاند. استفاده از تکنیکهای یادگیری ماشین تک جدوله سنتی بر روی چنین دادههایی نه تنها موجب یک تاوان محاسباتی جهت تبدیل به یک شکل مسطح (مگا پیوند) میشود، بلکه حتی اطلاعات معنایی ویژه انسان که در قالب روابط ارائه شدهاند از دست میرود. در این مقاله، یک الگوریتم اَبر دستهبندی سلسله مراتبی دو فازی برای پایگاه دادههای رابطهای را با یک رویکرد تقسیم و غلبه معنایی ارائه میکنیم. ما یک تکنیک تجمع پیشگویی بازگشتی را برای دستهکنندههای ناهمگن پیشنهاد میکنیم که بر روی جداول پایگاه داده مجزا بکار گرفته شدهاند. الگوریتم پیشنهادی بر روی سه مجموعه داده گوناگون یعنی معیارهای TPCH، PKDD و UCI ارزیابی میشود و کاهش قابل ملاحظهای در زمان دسته بندی را بدون از دست دادن دقت پیشگویی نشان میدهد.
1-مقدمه
یکی از حوزههای کاربردی تکنیکهای تشخیص الگو و یادگیری ماشین، حوزه هوش تجاری (BI) برای سازمانها است. تکنیکهای BI جهت فراهم نمودن دیدهای تاریخی و پیشگویانه عملیات تجاری مورد استفاده قرار میگیرند که شرکتها را قادر به تحلیل و تصمیمات به موقع هوشمند میسازد. بنابراین کاوش دانش بر روی دادههای سازمانی واقعی با استفاده از یادگیری ماشین برای یک سازمان هوشمند ارزشمند است. هرچند کاربرد تکنیکهای نوین تشخیص الگو در مسیر BI به دلیل کمبود تجزیه و تحلیل درون حافظهای و سایر دلایل هنوز جهش نداشته است. مانع کلیدی که موجب این امر میشود، ناسازگاری بین قالبهای دادهای ورودی مورد استفاده توسط بیشتر تکنیکهای یادگیری ماشین و قالبهای مورد استفاده توسط سازمانهای واقعی است...