Abstract
Since the completion of the Human Genome project at the turn of the Century, there has been an unprecedented proliferation of genomic sequence data. A consequence of this is that the medical discoveries of the future will largely depend on our ability to process and analyse large genomic data sets, which continue to expand as the cost of sequencing decreases. Herein, we provide an overview of cloud computing and big data technologies, and discuss how such expertise can be used to deal with biology’s big data sets. In particular, big data technologies such as the Apache Hadoop project, which provides distributed and parallelised data processing and analysis of petabyte (PB) scale data sets will be discussed, together with an overview of the current usage of Hadoop within the bioinformatics community
چکیده
از زمان اتمام پروژه ژنوم انسانی در آغاز قرن، با افزایش بیسابقهای از اطلاعات توالی ژنی روبرو گشتهایم. نتیجه این امر این است که اکتشافات پزشکی در آینده تا حد زیادی بستگی به توانایی ما در پردازش و تجزیه و تحلیل مجموعه داده های بزرگ ژنومی داشته که درحال حاضر به قیمت کاهش تعیین توالی در حال گسترش است. در این مقاله، یک نقد و بررسی از فناوریهای داده عظیم و محاسبات ابری ارائه دادهایم و درمورد این که چگونه چنین روشهای تخصصی میتوانند در تقابل با مجموعه دادههای عظیم زیستی به کار ما بیایند، بحث میکنیم. در اینجا تکنولوژیهای داده عظیم از قبیل پروژه آپاچی هادوپ که امکان توزیع و پردازش داده های موازی و تحلیل مجموعه داده های در مقیاس پتابایت (PB) را فراهم میآورد، به بحث گذاشته شده و علاوه بر آن یک بررسی مقدماتی از کاربرد فعلی هادوپ در مجموعه بیوانفورماتیک خواهیم داشت.
1-مقدمه
پیشرفت در فناوریهای تعیین توالی نسل بعد [1] منجر به سطوح بیسابقهای از دادههای توالی در نسل شده است. بنابراین، زیست شناسی مدرن در حال حاضر با چالشهای جدیدی در زمینه مدیریت داده، جستجو و تجزیه تحلیل روبروست. DNA انسانی از تقریبا 3 میلیارد جفت باز به همراه ژنوم شخصی تشکیل شده است که تقریبا 100 گیگابایت داده به ما ارائه میدهد که این میزان معادل حجم 102400 عکس است...