Abstract
Bioinformatics applications are widely used in life science and medicine industry where the demand on high performance computing system is increasing rapidly. It is very important to understand the characteristics of bioinformatics applications for both end-users and computer system designers. With the advent of mutlticore processors, it is also critical to know how well can multicore processors speedup bioinformatics applications. Although some bioinformatics benchmarks have been proposed, they cover limited application domains and most of them are serial codes. As a result, the analysis based on these benchmarks needs further examination with broader range of bioinformatics applications and it is indispensable to have a parallel bioinformatics benchmark set for shared memory multi-processors. This paper presents PBB, a Parallel Bioinformatics Benchmark suite for shared memory processors. The benchmark suite is a collection of seven bioinformatics applications, which covers seven most important bioinformatics domains, such as sequence alignment, phylogenetic analysis, gene regulatory network learning, single nucleotide polymorphisms study and protein structure prediction. All of the applications have been parallelized with OpenMP except the NCBI BLAST, which was parallelized with the Pthread library. We characterize the PBB on a real system and compare it with SPEC CPU2000 INT and FP. The results confirm and disprove some previous conclusion on bioinformatics workloads. Especially we disprove the claim in previous literature that ”floating point operations are negligible”. Performance results on several shared memory multiprocessors with PBB are also presented and analyzed. Six out of seven PBB applications show satisfactory speedup up to 16 threads. HyperThreading techniques could provide modest speed up on PBB. Overall, the results of characterization and analysis of PBB suggest that multi-core processors could be used to support parallel bioinformatics workloads effectively
چکیده
کاربردهای بیوانفورماتیک به طور گسترده ای در علوم زیستی و صنعت پزشکی که در آنها تقاضا برای سیستم محاسبه با عملکرد بالا به سرعت در حال افزایش است، مورد استفاده قرار می گیرد. درک مشخصات موارد استفاده بیوانفورماتیک هم برای مصرف کننده نهایی و هم برای طراحان سیستم کامپیوتری بسیار حائز اهمیت می باشد. با ظهور پردازنده های چند هسته ای، فهم این موضوع که چگونه پردازنده های چند هسته ای می توانند به خوبی سرعت کاربردهای بیوانفورماتیک را افزایش دهند نیز بسیار ضروری می باشد. البته برخی از معیارهای کاربرد ارائه شده، دامنه های کاربرد محدود آنها را پوشش داده و اکثر آنها کد های پشت سر هم هستند. در نتیجه، تحلیل بر اساس این معیارها به آزمودن بیشتر و با محدوده گسترده تری از کاربردهای بیوانفورماتیک نیاز داشته و داشتن مجموعه معیارهای بیوانفورماتیک موازی برای پردازند های چندگانه با حافظه اشتراکی اجتناب ناپذیر می باشد. این مقاله PBB را تحت عنوان یک مجموعه معیار بیوانفورماتیک موازی برای پردازنده های با حافظه اشتراکی ارائه می دهد. این مجموعه معیار، گروهی از هفت کاربرد بیوانفورماتیک است که هفت کاربرد مهم در حوزه بیوانفورماتیک از قبیل تنظیم توالی، تحلیل موضوعات وابسته به تکامل نژادی، شناخت شبکه نظم دهنده ژن، مطالعه چند ریختی های نوکلئوتید واحد و پیش بینی ساختار پروتئین را پوشش می دهد. تمام این کاربردها به جز NCBI BLAST با OpenMP موازی شده اند که با کتابخانه Pthread موازی شده بود. ما PBB را بر روی یک سیستم واقعی توصیف کرده و آن را باSPEC CPU2000 INT و FP مقایسه می کنیم. نتایج حاصل برخی از نتایج قبلی بر روی حجم کارهای بیوانفورماتیک را تایید و برخی را رد می کند. مخصوصاً ما این ادعا در مقاله قبلی که "عملکردهای ممیز شناور قابل چشم پوشی هستند" را رد می کنیم. نتایج عملکرد در تعداد زیادی از چند پردازنده های دارای حافظه اشتراکی با PBB نیز ارائه و بررسی می شود. شش مورد کاربرد خارج از کاربردهای PBB، برای 16 نخ افزایش سرعت رضای بخشی را نشان دادند. تکنیک های HyperThreading (فراریسمانی) می توانند افزایش سرعت نسبتاً کمی با استفاده از PBB ارائه دهند. در مجموع، نتایج توصیف و تحلیل PBB نشان می دهد که پردازنده های چند هسته ای برای پشتیبانی از حجم کارهای بیوانفورماتیک موازی به شکل موثری قابل استفاده هستند.
1-مقدمه
کاربردهای بیوانفورماتیک در علوم زیستی و صنعت پزشکی که در آنها تقاضا برای داشتن سیستم محاسبه با عملکرد بالا به سرعت در حال افزایش است، به طور گسترده ای مورد استفاده قرار می گیرد. البته برخی از معیارهای همه منظوره مانند SPEC CPU2000 FP و INT[5] برای ارزیابی عملکرد سیستم وجود دارد که ممکن است مشخصات حجم کارهای بیوانفورماتیک را به خوبی تطبیق ندهند...