Abstract
Clustering is a very powerful tool for automatic detection of relevant sub-groups in unlabeled data sets. In this paper we focus on interval data: i.e., where the objects are defined as hyper-rectangles. We propose here a new clustering algorithm for interval data, based on the learning of a Self-Organizing Map. The major advantage of our approach is that the number of clusters tofind is determined automatically; no a priori hypothesis for the number of clusters is required. Experimental results confirm the effectiveness of the proposed algorithm when applied to interval data
چکیده
خوشه بندی یک ابزار بسیار قوی برای تشخیص خودکار زیرگروه های مربوط در مجموعه داده های بدون برچسب است. در این مقاله ما بر روی داده های بازه ای تمرکز می کنیم یعنی جایی که اشیاء به عنوان ابرمکعب مستطیل ها تعریف شده اند. در اینجا ما یک الگوریتم خوشه بندی جدید برای داده های بازه ای معرفی می کنیم که مبتنی بر یادگیری یک نگاشت خود سازمان ده است. مزیت عمده ی رویکرد ما این است که تعداد خوشه هایی که باید پیدا شود، به صورت خودکار مشخص می شود؛ احتیاجی به یک فرضیه ی قبلی برای تعداد خوشه ها نیست. نتایج تجربی تاثیرگذاری الگوریتم پیشنهادی اعمال شده را بر روی داده های بازه ای تایید می کنند.
کلمات کلیدی: داده های بازه ای، خوشه بندی، نگاشت خود سازمان ده
1. مقدمه
وقتی که دانش قبلی راجع به ساختار زیرین داده های بدون برچسب نداریم، طبقه بندی بدون نظارت یا خوشه بندی یک ابزار بسیار قوی برای تشخیص خودکار زیرگروه های مربوط (یا خوشه ها) در این مجموعه داده ها است. الگوهای موجود در یک خوشه باید به یکدیگر شبیه باشند در حالی که الگوهای خوشه های مختلف باید شبیه نباشند (هم جنسی داخلی و جدایی خارجی). خوشه بندی نقش ناگزیری در درک پدیده های مختلف توصیف شده توسط مجموعه داده ها دارد و به عنوان یکی از چالش برانگیزترین کارها در یادگیری بدون نظارت پنداشته می شود. رویکردهای متنوعی برای حل مساله پیشنهاد شده است..