چکیده
به منظور ایجاد یک دید علمی در نجوم و زمین شناسی، مجموعه دادههای بزرگ اغلب نیازمند خوشهبندی و تصویرسازی پدیده ها در مقیاسها و تراکمهای مختلف می باشند. ما در این مقاله مسئلهی بیشینه سازی توان عملیاتی خوشهبندی را جهت خوشه بندی همزمان مجموعه داده ها در ابعاد فضایی بررسی می کنیم. در این مقاله یک رویکرد ترکیبی جدید معرفی میکنیم که در آن برای بهینهسازی توان عملیاتی الگوریتمی، از پردازنده های گرافیکی (GPU) متصل به پردازندههای مرکزی چندهستهای استفاده میشود. ایدهی اصلی این است که باید از حافظهی سریع GPU برای جستجوی اندیس استفاده کرد و انتقالات I/O را به گونهای بهینهسازی کرد تا گلوگاه GPU-هاست با پهنای باند کم، تأثیر منفی قابل توجهی بر روی عملکرد نداشته باشد. برای دستیابی به این هدف، دو کرنل GPU کاملا متفاوت را بکار می گیریم که به منظور بهبود عملکرد خوشه بندی، از طرحهای اندیس گذاری شبکه ای استفاده میکنند. روش مطرح شده به منظور غلبه بر حافظهی محدود GPU و خوشهبندی مجموعه دادههای بزرگ، از یک طرح دستهبندی کارآمد برای انجام انتقالات میان هاست و شتاب دهنده GPU استفاده میکند. این طرح در برابر توزیع دادهای متراکم و پراکنده از قدرت کافی برخوردار است و به طور هوشمند از سرریزی بافر که موجب تضعیف کارایی میشود جلوگیری میکند. همهی این موارد در حالی انجام می شوند که تعداد انتقالات دادهای میان هاست و GPU به حداقل رسانده شوند. ما رویکرد پیشنهادی خود را بر روی مجموعه دادههای مربوط به محتوای کل الکترون (TEC) یونوسفر و همچنین دادههای مربوط به کهکشانهای intermediate-redshift برگرفته شده از تصاویر Sloan Digital Sky Survey ارزیابی میکنیم. در یکی از سناریوهای آزمایشی، این رویکرد ترکیبی سرعت پردازش را برای پیاده سازی های متوالی، تا 50 برابر افزایش میدهد. این افزایش سرعت برای خوشه بندی متمرکز I/O قابل توجه است.
-1مقدمه
بسیاری از برنامههای کاربردی در بسیاری از حوزهها، از الگوریتمهای خوشهبندی همچون الگوریتم «خوشه بندی فضایی مبتنی بر چگالی در کاربردهای دارای نویز» (DBSCAN) استفاده میکنند [1]. روشهای بهینهسازی مختلفی همچون پیاده سازی موازی برای معماریها با حافظه توزیع شده و مشترک چند هستهای مطرح شدهاند، که از روشهای مختلف اندیسگذاری مانند اندیس گذاری Rtree [2] و اندیس گذاری شبکهای [3] استفاده می کنند.
DBSCAN دارای دو پارامتر ورودی است: 1) فاصله ϵ که بر اساس آن در همسایگی یک شی نقطهای عملیات جستجو انجام میشود و 2) تعداد نقاط همسایه با فاصله ϵ، (minpt) که برای هر نقطه باید عضوی از خوشه باشند. برای خوشهبندی یک مجموعه داده، لازم است هر نقطه اطراف خود را جستجو کند، به طوری که جستجوی اندیس قسمت زیادی از محاسبهی کل را به خود اختصاص دهد. جدول 1 کسری از زمان را نشان میدهد که برای جستجوی یک R-tree صرف میشود. مقادیر نشان داده شده مربوط به پیادهسازی متوالی DBSCAN [4] برای پارامترها و مجموعه دادههای مختلف هوافضا (SW-) در زمین شناسی وSloan Digital Sky Survey (SDSS-) در نجوم می باشند (به منظور کسب اطلاعات بیشتر به بخش 7 مراجعه کنید). این مقادیر در بازه 48% تا 72.2% از کل زمان پاسخ قرار دارند. در این مقاله بررسی میکنیم که چگونه GPU میتواند زمان جستجوی اندیس را کاهش داده و در نتیجه عملکرد نشان داده شده در جدول 1 را بهبود بخشد…
Abstract
Large datasets in astronomy and geoscience often require clustering and visualizations of phenomena at different densities and scales in order to generate scientific insight. We examine the problem of maximizing clustering throughput for concurrent dataset clustering in spatial dimensions. We introduce a novel hybrid approach that uses GPUs in conjunction with multicore CPUs for algorithmic throughput optimizations. The key idea is to exploit the fast memory on the GPU for index searches and optimize I/O transfers in such a way that the low-bandwidth host-GPU bottleneck does not have a significant negative performance impact. To achieve this, we derive two distinct GPU kernels that exploit grid-based indexing schemes to improve clustering performance. To obviate limited GPU memory and enable large dataset clustering, our method is complemented by an efficient batching scheme for transfers between the host and GPU accelerator. This scheme is robust with respect to both sparse and dense data distributions and intelligently avoids buffer overflows that would otherwise degrade performance, all while minimizing the number of data transfers between the host and GPU. We evaluate our approaches on ionospheric total electron content datasets as well as intermediate-redshift galaxies from the Sloan Digital Sky Survey. Our hybrid approach yields a speedup of up to 50× over the sequential implementation on one of the experimental scenarios, which is respectable for I/O intensive clustering