Abstract
As fault tolerance is the ability of a system to perform its function correctly even in the presence of faults. Therefore, different fault tolerance techniques (FTTs) are critical for improving the efficient utilization of expensive resources in high performance grid computing systems, and an important component of grid workflow management system. This paper presents a performance evaluation of most commonly used FTTs in grid computing system. In this study, we considered different system centric parameters, such as throughput, turnaround time, waiting time and network delay for the evaluation of these FTTs. For comprehensive evaluation we setup various conditions in which we vary the average percentage of faults in a system, along with different workloads in order to find out the behavior of FTTs under these conditions. The empirical evaluation shows that the workflow level alternative task techniques have performance priority on task level checkpointing techniques. This comparative study will help to grid computing researchers in order to understand the behavior and performance of different FTTs in detail
چکیده
تولرانس عیب به معنی توانایی سیستم برای به اجرا در آوردن فعالیت هایش به صورت دقیق حتی در حضور عیب ها می باشد. بنابراین تکنیک های تولرانس عیب مختلف (FTTs)، برای بهبود کاربرد موثر منابع پرهزینه در سیستم های محاسبه شبکه سطح بالا، مهم می باشند.
این مقاله، ارزیابی عملکرد اکثر تکنیک های تولرانس عیب (FTT) مورد استفاده در سیستم محاسبه شبکه را نشان می دهد. در این بررسی، ما پارامترهای مرکزی سیستم های مختلف همانند خروجی ها، زمان برگشت، زمان انتظار و وقفه شبکه را برای ارزیابی تکنیک های تولرانس عیب (FTT) مد نظر قرار می دهیم. به منظور ارزیابی جامع، شرایط مختلفی را ایجاد می کنیم که درصد متوسط عیوب را در سیستم به همراه حجم کار متفاوت به منظور درک رفتار تکنیک های تولرانس عیب (FTT) تحت این شرایط، دگرگون می کنیم. ارزیابی تجربی نشان می دهد که تکنیک های عملکردی دیگر سطح حجم کار، دارای اولویت عملیاتی بر روی تکنیک های بررسی سطح فعالیت می باشند. این بررسی تطبیقی؛ کمکی به متخصصان محاسبه شبکه به منظور درک رفتار و عملکرد تکنیک های تولرانس عیب (FTT) مختلف با جزییات کامل، می کند.
1- مقدمه
محاسبه شبکه کاربرانش را قادر می سازد تا از شبکه برای محاسبات سطح بالا و کاربردهای فشرده مرتبط به داده در علوم، مهندسی و تجارت استفاده کنند. چنین کاربردهایی شامل، مدل سازی ملکولی برای طراحی دارو، تحلیل فعالیت های مغزی، فیزیک با انرژی بالا، مدل سازی پروتئین، مسیریابی تشعشعات، و پیش بینی هوا و غیره می باشد. محاسبه شبکه این امکان را برای کاربردهای گسترده محاسباتی ایجاد می کند تا به ادغام مقیاس بالا، توزیع جغرافیایی، و منابع ناهمگن در دامین های اجرایی مختلف با کاربرد منابع متفاوت و سیاست های امنیتی به منظور محاسبه فعالیت ها بپردازند.
تولرانس عیب یا تنزل مطبوع به عنوان ویژگی سیستم محاسباتی توزیع شده بوده که آن را از محاسبات ترتیبی تفکیک می کند. این ویزگی این امکان را برای محاسبه توزیع شده ایجاد می کند تا به اجرای محاسبه در ارتباط با عیب های مولفه های مجزا بدون پایان دادن محاسبه کل بپردازند. به دلیل ماهیت متفاوت شبکه و کاربردهای مقیاس گسترده بر روی شبکه، تولرانس عیب به عنوان چالشی برای بهبود، بکارگیری و اجرای کاربردها بر روی محیط شبکه می باشد. بنابراین مد نظر قرار دادن تولرانس عیب در سیستم محاسباتی شبکه به عنوان گزینه اختیاری مکمل نبوده و به عنوان یک پیش نیاز می باشد.
به دلیل مقیاس پیچیده و ماهیت ناهمگن شبکه در مقایسه با سیستم محاسبه سنتی، تکنیک تولرانس عیب از سیستم های سنتی به اندازه ای نمی باشد که به مدیریت عیوب در محاسبات شبکه پرداخته شود. بنابراین، ما نیازمند تکنیک تولرانس عیوب دیگری می باشیم که به خوبی در ماهیت شبکه پیچیده و ناهمگن کار می کند.
در نتیجه با گذشت سال ها، محققان مجموعه قابل توجهی از دانش های عملی و نظری ظهور عیب، مدیریت و تکنیک بازیابی را ارائه کرده اند. راجکومار بایا، در این رده بندی از سیستم های مدیریتی گردش کار برای محاسبه شبکه، تکنیک تولرانس عیب را به دو سطح اصلی تقسیم کرده اند که عبارتست از: a) سطح فعالیت و b) تولرانس عیب سطح گردش کار. او همچنین به طبقه بندی تکنیک های تولرانس عیب مختلف تحت دو سطح بالا پرداخته است…