Abstract
The exponential growth of databases that contains biological information (such as protein and DNA data) demands great efforts to improve the performance of computational platforms. In this work we investigate how bioinformatics applications benefit from parallel architectures that combine different alternatives to exploit coarse- and fine-grain parallelism. As a case of analysis we study the performance behavior of the search application that implements the Smith-Waterman algorithm, which is a dynamic programing approach that explores the similarity between a pair of sequences. The inherent large parallelism of the algorithm makes it ideal for architectures supporting multiple dimensions of parallelism (TLP, DLP and ILP). We study how this algorithm can take advantage of different parallel machines like the SGI Altix, IBM Power6, Cell BE machines and MareNostrum. Our results show that a share memory architecture like the PowerPC 970MP of Marenostrum can surpass a heterogeneous machine like the current Cell BE. Our quantitative analysis includes not only a study of scalability of the performance in terms of speedup, but also includes the analysis of bottlenecks in the execution of the application. This analysis is carried out through the study of the execution phases that the application presents
چکیده
رشد تصاعدی پایگاه داده هایی که محتوی مقادیر اطلاعات زیستی (مانند اطلاعات پروتئین و DNA) هستند، نقش بسزایی در بهبود عملکرد پلتفرم های محاسباتی دارند. در این تحقیق بررسی می کنیم که چگونگی کاربردهای بیوانفورماتیک از معماری موازی که روش های متفاوتی را برای موازی سازی ضخیم و با بافت خوب به کار می بندد، بهره مند می شود. به عنوان یک مورد تحلیلی ما وضعیت عملکرد روش جستجوی S را مورد مطالعه قرار می دهیم که الگوریتم Smith – Waterman که خود یک روش برنامه نویسی دینامیک تعیین کننده شباهت های بین یک جفت توالی است را اجرا می کند. موازی سازی ذاتی گسترده این الگوریتم، آن را برای معماری های پشتیبانی کننده از انواع چندگانه موازی سازی (TLP، DLP و ILP) ایده آل می سازد. ما بررسی می کنیم که چگونه این الگوریتم می تواند از ماشین های موازی مختلف مانند SGI Altix، IBM Power6، ماشین های BE و MareNostrum سوء استفاده کند. نتایج ما نشان می دهد که یک معماری اشتراک حافظه مانند PowerPC 970MP مربوط به Marenostrum می تواند بهتر از ماشین غیر همگن نظیر Cell BE اخیر باشد. تحلیل کمی نه تنها شامل مطالعه در مورد مقیاس پذیری عملکرد برحسب افزایش سرعت می باشد، بلکه همچنین شامل بررسی مشکل در اجرای برنامه کاربردی می شود. این تحلیل از طریق مطالعه مراحل اجرایی که برنامه کاربردی ارائه می دهد، انجام می شود.
1-مقدمه
توسعه روزافزون علم بیوانفورماتیک به عنوان یک تکنولوژی نوظهور، توجه حوزه های مختلف علوم (زیست شناسی، ریاضیات، طراحی سخت افزار، علوم کامپیوتر و غیره) را به خود جلب کرده است. در این شرایط، رشد تصاعدی اطلاعات زیستی به تحقیق و توسعه بررسی چندین روش الگوریتمی برای پردازش موثر آن داده ها نیازمند می باشد...