Abstract
The Particle Swarm Optimization (PSO) clustering algorithm can generate more compact clustering results than the traditional K-means clustering algorithm. However, when clustering high dimensional datasets, the PSO clustering algorithm is notoriously slow because its computation cost increases exponentially with the size of the dataset dimension. Dimensionality reduction techniques offer solutions that both significantly improve the computation time, and yield reasonably accurate clustering results in high dimensional data analysis. In this paper, we introduce research that combines different dimensionality reduction techniques with the PSO clustering algorithm in order to reduce the complexity of high dimensional datasets and speed up the PSO clustering process. We report significant improvements in total runtime. Moreover, the clustering accuracy of the dimensionality reduction PSO clustering algorithm is comparable to the one that uses full dimension space
چکیده
الگوریتم خوشه بندی بهینه سازی جمعی ذره PSO می تواند نتایج دسته یا خوشه بندی فشرده تری را نسبت به الگوریتم خوشه بندی میانگین Kسنتی تولید می کند. در عین حال، زمان خوشه بندی مجموعه داده های بعد بالا، الگوریتم خوشه بندی PSO به شدت کند عمل می کند زیرا هزینه محاسبات آن به طور نمایی با اندازه بعد مجموعه داده ها افزایش می یابد. روش های کاهش بعد، جواب و راه حل هایی را پیشنهاد می دهد که هم زمان محاسبات را به طور چشم گیری بهبود می بخشد و هم نتایج خوشه بندی دقیق و صحیح منطقی را در انالیز داده های ابعاد بالا در بر دارد. در این مقاله، تحقیقی را معرفی می کنیم که رو شهای کاهش بعد متفاوتی را با الگوریتم خوشه بندی PSO تلفیق و ترکیب می کند تا پیچیدگی مجموعه داده های با ابعاد بالا را کاهش دهد و فرایند خوشه بندی PSO را سرعت بخشد. ما پیشرفت های چشم گیری را در زمان کلی اجرای انالیز گزار می کنیم. به علاوه، صحت خوشه بندی الگوریتم خوشه بندی PSO کاهش بعد با موردی که از کل فضای ابعاد استفاده می کند قابل مقایسه است.
1-مقدمه
خوشه بندی مجموعه داده های بعد بالا، فرایندی است که در بسیاری از حوزه های کاربردی مورد نیاز است. به دلیل این که الگوریتم های سنتی خوشه بندی داده ها در زمان استفاده از مجموعه داده های ابعاد بالا، بیشتر تمایل به بیاس یا سوگرایی در مقابل مقدار بهینه محلی دارند، بهینه سازی ازدحامی ذره PSO برای حل مسائل خوشه بندی داده در سال های اخیر استفاده شده است. بسیاری از محققان، مشخص کرده اند که در زمان به کار گیری توانایی بهینه الگوریتم PSO، و زمان کافی داده شده، PSO نتیجه خوشه بندی فشرده تری را از داده های ابعادی نسبت به الگوریتم خوشه بندی میانگین – K ایجاد می کند...