چکیده
در سالهای 2001 و 2002 ما دو مقاله در ارتباط با برنامهای فوق سریع به نام cd-hit را ارائه دادیم. این برنامه میتواند به شکلی کارآمد، مجموعه دادههای بزرگ حاوی میلیونها توالی پروتئینی را دسته بندی نماید. بهرحال، کاربردهای الگوریتم پایه تنها به گروه بندی توالیهای پروتئینی محدود نمیشود، در اینجا ما برنامههای جدیدی را با استفاده از الگوریتمهای جدید که شامل cd-hit-2d و cd-hit-est. cd-hit-2d میشوند، برای طبقه بندی دو مجموعه توالی پروتئینی و گزارشهای مربوط به میزان تطابق در توالیهای آنها، ارائه نمودهایم. cd-hit-es یک مجموعه دادهی DNA/RNA را طبقه بندی مینماید و cd-hit-est-2d دو مجموعه توالی نوکلئوتیدی را طبقه بندی مینماید. تمام این برنامهها میتوانند، برای مجموعه دادههای بزرگ با میلیونها توالی مورد استعمال قرار بگیرند و قادر هستند صدها بار سریعتر از روشهای برنامههای عمومی مقایسهی توالی و ابزار جستجوی توالیها مثل BLAST عمل کنند.
1-مقدمه
طی سالهای اخیر، میزان دادههای توالیهای زیستی به سرعت در حال رشد هستند، که پیچیدگیهای رشد، در آنالیز آنها نیز تحمیل میگردد. پیچیدگی آنالیز بسیاری از دادهها از ردهی n2 است، در اینجا n تعداد توالیهای مورد توجه است. یکی از مثالهای این، گروه بندی توالیهای پروتئین میباشد، که گروههای پروتئینی مشابه بر اساس میزان تشابه در شاخههای یکسان قرار میگیرند. برای نشانی دادن این مسئلهی بحث برانگیز محاسباتی، ما روشی جدید را ایجاد کرده و برنامهی cd-hit را انتشار نمودیم که قابلیت انجام دادن این کار را به شکلی کارآمد برای مجموعه دادههای بزرگ دارا میباشد. برای مثال، این کار فقط 2 ساعت را برای طبقه بندی NCBI-nr با حدود 3 میلیون پروتئین در یک پایگاه کامپیوتری گرانترین مدل می گیرد.
براساس اطلاعات بدست آمده از آن، cd-hit با تعداد زیادی از گروهها، مثل Uniprot و PDB در زمینههای مختلف جستجو مورد استفاده قرار میگیرد. در گروه ما، این برنامه را برای مجموعه دادههایی از توالیهای پروتئینی غیر تکراری و کاهش تلاشها برای جستجوی مجموعه دادهها و همچنین بهبود بخشیدن به حساسیت در تشخیص به کار بردیم. الگوریتم پشیبان cd-hit، غربالگری عبارات کوچک است، که میتواند مشخص نماید که شباهتهای میان دو توالی بدون انجام دادن مقایسه توالیهای دقیق پایینتر از یک مقدار اطمینان است....
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید.