Abstract
Consensus clustering has emerged as an important extension of the classical clustering problem. We propose weighted consensus clustering, where each input clustering is weighted and the weights are determined in such a way that the final consensus clustering provides a better quality solution, in which clusters are better separated comparing to standard consensus clustering. Theoretically, we show that a reformulation of the wellknown L1 regularization LASSO problem is equivalent to the weight optimization of our weighted consensus clustering, and thus our approach provides sparse solutions which may resolve the difficult situation when the input clusterings diverge significantly. We also show that the weighted consensus clustering resolves the redundancy problem when many input clusterings correlate highly. Detailed algorithms are given. Experiments are carried out to demonstrate the effectiveness of the weighted consensus clustering
چکیده
خوشه بندی توافقی به عنوان یکی از شکل های مهم مسئله ی خوشه بندی کلاسیک پدیدار شده است. ما خوشه بندی توافقی وزن دار را پیشنهاد می کنیم که هر خوشه بندی ورودی، وزن دار است و وزن ها به گونه ای تعیین شده اند که خوشه بندی توافقی نهایی، راه حل با کیفیت بهتری را تولید می کند که در آن خوشه ها در مقایسه با خوشه بندی توافقی استاندارد، بهتر جدا شده اند. از نظر تئوری، ما روند ساخت مجدد فرمول از مسئله یLASSO تنظیم L1 را نشان میدهیم که معادل با بهینه سازی وزن خوشه بندی توافقی وزن دار ما است و بنابراین روش ما، راه حلهای پراکنده را ارائه میدهد که وضعیتهای دشوار را نیز حل می کند که خوشه بندی ورودی به طور قابل توجهی در نوسان است. ما همچنین نشان میدهیم که خوشه بندی توافقی وزن دار، مشکل افزونگی را برطرف می کند به خصوص هنگامی که بسیاری از خوشه بندی های ورودی با هم در ارتباطند. الگوریتم های مفصلی نیز شرح داده شده اند. آزمایشهایی نیز به کار گرفته شده اند که اثربخشی خوشه بندی توافقی وزن دار را نشان میدهد.
1-مقدمه
خوشه بندی توافقی به عنوان بسطی مهم از مسائل خوشه بندی کلاسیک پدیدار شده است. خوشه بندی توافقی همچنین تجمع و یا خوشه بندی ( یا پارتیشن بندی ) نیز نامیده می شود که به موقعیتی اشاره دارد که در آن تعدادی از خوشه بندی های مختلف (ورودی) برای یک مجموعه داده ی خاص به دست آمده است و برای پیدا کردن خوشه بندی (توافقی ) منحصر به فرد در نظر گرفته شده است که از برخی جنبه ها از نظر خوشه بندی موجود، بهتر عمل می کند. بسیاری از مسائل اضافی نیز می توانند مشکل خوشه بندی را کاهش دهند به خصوص آنهایی که شامل خوشه بندی مجموعه، خوشه بندی منبع داده های ناهمگن، خوشه بندی با معیارهای چندگانه و خوشه بندی توزیع شده، خوشه بندی سه روشه و استفاده ی مجدد از دانش است...