Abstract
Background and Objective: Digital signal processing techniques commonly employ fixed length window filters to process the signal contents. DNA signals differ in characteristics from common digital signals since they carry nucleotides as contents. The nucleotides own genetic code context and fuzzy behaviors due to their special structure and order in DNA strand. Employing conventional fixed length window filters for DNA signal processing produce spectral leakage and hence results in signal noise. A biological context aware adaptive window filter is required to process the DNA signals
Methods: This paper introduces a biological inspired fuzzy adaptive window median filter (FAWMF) which computes the fuzzy membership strength of nucleotides in each slide of window and filters nucleotides based on median filtering with a combination of s-shaped and z-shaped filters. Since coding regions cause 3-base periodicity by an unbalanced nucleotides' distribution producing a relatively high bias for nucleotides' usage, such fundamental characteristic of nucleotides has been exploited in FAWMF to suppress the signal noise
Results: Along with adaptive response of FAWMF, a strong correlation between median nucleotides and the Π shaped filter was observed which produced enhanced discrimination between coding and non-coding regions contrary to fixed length conventional window filters. The proposed FAWMF attains a significant enhancement in coding regions identification i.e. 40% to 125% as compared to other conventional window filters tested over more than 250 benchmarked and randomly taken DNA datasets of different organisms
Conclusion: This study proves that conventional fixed length window filters applied to DNA signals do not achieve significant results since the nucleotides carry genetic code context. The proposed FAWMF algorithm is adaptive and outperforms significantly to process DNA signal contents. The algorithm applied to variety of DNA datasets produced noteworthy discrimination between coding and non-coding regions contrary to fixed window length conventional filters
چکیده
پیش زمینه و هدف : تکنیک های پردازش سیگنال دیجیتال عمدتا از فیلترهای پنجره با طول ثابت جهت پردازش محتوای سیگنال استفاده می کنند. سیگنال های DNA از نظر مشخصات با سیگنال های دیجیتال رایج متفاوت هستند زیرا نوکلئوتيدها را به عنوان محتوا حمل می کنند. نوکلئوتيدها به دلیل ساختار و ترتیب خاصی که در رشته DNA دارند دارای زمینه کد ژنتیک و رفتارهای فازی هستند. اعمال فیلترهای پنجره سنتی با طول ثابت برای پردازش سیگنال dna موجب نشت طیفی و در نتیجه نویز سیگنال می شود. برای پردازش سیگنال های DNA به یک فیلتر پنجره تطبیقیِ بیولوژیکی آگاه از زمینه نیاز است.
روش ها : این مقاله یک فیلتر میانه پنجره طبیقی فازی (FAWMF) ارائه داده است که قدرت عضویت فازی نوکلئوتيدها را در هر طرفِ پنجره محاسبه کرده و نوکلئوتيدها را براساس فیلترینگ میانه با ترکیبی از فیلترهای s شکل و z شکل فیلتر می کند. از آنجایی که نواحی کدینگ بوسیله توزیع نامتوازن نوکلئوتيدها موجب تناوبب مبنای 3 می شوند و یک جهت گیری نسبتا بالا برای استفاده از نوکلئوتيدها تولید میکنند، لذا در روش پیشنهادی از این ویژگی اساسی نوکلئوتيدها برای خنثی کردن نویز سیگنال استفاده شده است.
نتایج : همراه با پاسخ تطبیقی FAWMF، یک تصحیح قوی بین نوکلئوتيدهای میانه و فیلترهای Π شکل ملاحظه شده است که برخلاف فیلترهای پنجرهای متعارف با طول ثابت، موجب بهبود تفکیک پذیری بین نواحی کدینگ و غیرکدینگ شده است. روش پیشنهادی در مقایسه با فیلترهای پنجرهای متعارف که با بیش از 250 دیتاست DNS که به صورت تصادفی از ارگانیزم های مختلف انتخاب شدهاند تست میشوند، در شناسایی نواحی کدینگ به بهبود قابل توجهی یعنی 40% الی 125% رسیده است.
نتیجه گیری : این مطالعه ثابت کرده است که فیلترهای پنجرهای متعارف با طول ثابت که در سیگنال های DNA اعمال می شوند به نتایج قابل توجهی دست نمی یابند زیرا نوکلئوتيدها زمینه کد ژنتیک را حمل می کنند. الگوریتم FAWMF تطبیقی بوده و برای پردازش محتوای سیگنال DNA (برروش های دیگر) بهتر عمل می کند. این الگوریتم برروی انواع دیتاست های DNA اعمال شده و تفکیک پذیری قابل توجهی بین نواحی کدینگ و غیرکدینگ ایجاد کرده است (برخلاف فیلترهای سنتی با طول پنجره ثابت).
1-مقدمه
DNA به عنوان انباری برای حمل اطلاعات ارثی ارگانیزم ها تلقی می شود [1، 2]. این اطلاعات ژنتیکی در رشته DNA به شکل چهار مبنای شیمیایی به نام آدنین، تیمین، گوانین، و سیتوزین هستند (که به ترتیب مختصرا با A، T، G و C نشان داده می شوند و به آنها مبناهای نوکلئوتيد هم گفته می شود) [3،4]. رشته DNA متشکل از چهار حرف است که به ترتیب خاصی در رشته مرتب شده اند [5،6]. معمولا سیگنال های دیجیتال بهم تابیده اند و برای تحلیل سیگنال دارای فیلترهای با طول پنجره ثابت هستند اما سیگنال های DNA بخاطر محتوای نوکلئوتيدشان از نظر طبیعت و مشخصات با سیگنال های دیگر تفاوت دارند. سیگنال های A روی رشته های DNA تشکیل می شوند که شامل ترتیب خاصی از نوکلئوتيدها با فرکانس های مشخصی هستند و عمدتا توزیع نوکلئوتيدشان نامتوازن است. جالب است که نوکلئوتيدهای رشته DNA موجب تناوب مبنای 3 می شوند و در عین حال رشته پروتئینی را تشکیل می دهند که آن نیز شاهدی برای زمینه بیولوژیکی سیگنال های DNA از نظر شناسایی نواحی کدینگ است....