Abstract
We propose a parallel algorithm that solves the best k-mismatches alignment problem against a genomic reference using the “one sequence/multiple processes” paradigm and distributed memory. Our proposal is designed to take advantage of a computing cluster using MPI (Message Passing Interface) for communication. Our solution distributes the reference among different nodes and each sequence is processed concurrently by different nodes. When a (putative) best solution is found, the successful process propagates the information to other nodes, reducing search space and saving computation time
The distributed algorithm was developed in C++ and optimized for the PLX and FERMI supercomputers, but it is compatible with every OpenMPI-based cluster. It was included in the ERNE (Extended Randomized Numerical alignEr) package, whose aim is to provide an all-inclusive set of tools for short reads alignment and cleaning. ERNE is free software, distributed under the Open Source License (GPL V3) and can be downloaded at: http://erne.sourceforge.net. The algorithm described in this work is implemented in the ERNE-PMAP and ERNE-PBS5 programs, the former designed to align DNA and RNA sequences, while the latter is optimized for bisulphite-treated sequences
چکیده
ما الگوریتمی موازی را مورد پیشنهاد قرار میدهیم که بهترین مسئلهی میزان سازی نابرابریهای k را با استفاده از الگوی "یک دنباله/فرآیندهای چندگانه" و حافظهی گسترده در برابر یک ارجاع ژنومی حل مینماید. پیشنهاد ما با این هدف طراحی گردیده است که بتواند با استفاده از MPI (واسط گذردهی پیام) برای ارتباطات از یک خوشهی پردازش بهره برد. راهکار ما این ارجاع را در میان گرههای مختلف توزیع مینماید و هر دنباله به طور همزمان به وسیلهی گرههایی مختلف مورد پردازش قرار میگیرد. هنگامی که بهترین راهکار (فرضی) یافت شد، این فرآیند موفقیت آمیز اطلاعات را به دیگر گرهها انتشار میدهد و فضای جستجو را کاهش داده و در نتیجه باعث صرف جویی در زمان محاسبه میشود.
الگوریتم توزیعی در ++C ساخته شد و در جهت استفاده به وسیلهی ابر رایانههای PLX و FERMI ارتقاء داده شد، اما این الگوریتم با هر خوشهی OpenMPI مبنا سازگار است. این الگوریتم در بستهی Er) ERNE همتراز عددی تصادفی گسترش یافته) جای داده شده بود، که هدف آن فراهم آوردن مجموعهای جامع و کامل از ابزارها در جهت همتراز سازی و پاک سازی نمودن خواندنهای کوتاه است. ERNE یک نرم افزار رایگان است که با مجوز منبع آزاد (GPL V3) توزیع گردیده است و میتوان آن را از وب سایت: http://erne.sourceforge.net دانلود نمود. الگوریتم توضیح داده شده در این کار در برنامههای ERNE-PMAP و ERNE-PBS5 مورد استفاده قرار میگیرند که برنامهی اول برای همتراز ساختن دنبالههای DNA وRNA طراحی شده است، در حالی که برنامهی دوم برای دنبالههای عمل شده با بی سولفیت ارتقاء داده شده است.
1- مقدمه
پیدایش NGS (ترتیب گذاری نسل بعدی)، که برای اولین بار در سال 2005 پدیدار گردید، حوزهی زیست اطلاعات را دچار تغییر و تحول نموده و چشم اندازهایی جدید و غیر قابل تصور را در تحقیقات باز کرده است. ترتیب دهندههای اصلی قادر به تولید مقادیر عظیمی از اطلاعات و با هزینهای بسیار پایین و در ظرف چند روز هستند. ترتیب دهندهها مجموعهای از دنبالههای کوتاه (به نام "خواندنها") را به ترتیب الفبایی {A, C, G, T, N} به وجود میآورند. چهار حرف ابتدا نمایانگر بنهای نوکلئوتید هستند که امکان دارد تا در یک ژنوم وجود داشته باشند..