چکیده
رایانش ابری در حال تبدیل شدن به راه کار مهمی جهت ارائه منابع مقیاس پذیر رایانش به کمک اینترنت می باشد. از آنجایی که ده ها هزار گره در دیتا سنترها (مراکز دادهای) وجود دارند، احتمال خطای سرور غیر بدیهی است. بنابراین ضمانت قابلیت اطمینان سرویس امری بسیار چالش برانگیز است. استراتژی های تحمل پذیری خطا، از جمله استفاده از نقاط بازرسی به صورت رایج مورد استفاده قرار می گیرند. به علت شکست در سوییچ های لبه، تصویر نقطه بازرسی ممکن است غیرقابل قبول شود. بنابراین روش تحمل پذیری خطا مبتنی بر نقطه بازرسی که تا کنون استفاده می شود نمی تواند بهترین تاثیر را از خود نشان دهد. ما در این مقاله یک روش بازرسی بهینه آگاه از خطای سوییچ لبه مطرح میکنیم. روش بازرسی آگاه از خطای سوییچ لبه شامل دو الگوریتم میباشد. در الگوریتم اول برای انتخاب سرور ذخیره سازی تصویر بازرسی، از توپولوژی دیتا سنتر و مشخصات ارتباطی استفاده می شود. در الگوریتم دوم برای انتخاب سرور بازیابی، از مشخصات ذخیره سازی تصویر بازرسی و همچنین توپولوژی دیتا سنتر استفاده می شود. آزمایشاتی مربوط به شبیه سازی صورت گرفتند تا اثربخشی روش پیشنهادی نشان داده شود.
1-مقدمه
اشتراک گذاری و مالتی پلکس شدن منابع برای چندین اجاره کننده (منظور اشخاص یا سازمان های اجاره کننده سرورها)، موجب نگرانی گستردهای در رایانش ابری شده است [1]. برنامه های بسیاری بر روی محیط رایانش ابری قرار گرفته اند [2, 3]. تعداد زیادی از سرورهای هاست در سیستم رایانش ابری وجود دارند. بنابراین بر اساس تحلیل های آماری، احتمال خطا در این سیستم ها غیر بدیهی است [4]. ضمانت کردن قابلیت اطمینان چالش بزرگی محسوب می شود [5, 6]. جهت تحمل خطای گره، تکنیک تکثیر و تکنیک بازرسی در بسیاری از سیستم های رایانش ابری بکار گرفته شده اند تا قابلیت اطمینان سرویس بهبود داده شود [7, 8]. مراجع [9, 10] روشهای مبتنی بر تکثیر را برای تحمل پذیر خطا مطرح کردند. در [9] برای هر ماشین مجازی اولیه یک تکثیر وجود دارد. ماشین مجازی اولیه و تکثیر آن با یکدیگر تشکیل یک گروه نجات را می دهند. این روش توانمندی سرویس را در زمانی که حداقل یک ماشین مجازی در گروه نجات به درستی کار می کند، تضمین می کند. یک الگوریتم بهینه سازی هیوریستیک مطرح شده است تا مسئله جایگیری ماشین مجازی را حل کند. در [10] روش تکثیر داده جهت تحمل فاسد شدن داده بکار گرفته شده است. این مسئله به صورت یک مسئله برنامه ریزی خطی عدد صحیح فرمول بندی شده است. برای حل مسئله در زمان چند جملهای، مسئله به یک مسئله کمترین هزینه، بیشترین جریان تبدیل میشود.
Abstract
Cloud computing is becoming an important solution for providing scalable computing resources via Internet. Because there are tens of thousands of nodes in data center, the probability of server failures is nontrivial. Therefore, it is a critical challenge to guarantee the service reliability. Fault-tolerance strategies, such as checkpoint, are commonly employed. Because of the failure of the edge switches, the checkpoint image may become inaccessible. Therefore, current checkpoint-based fault tolerance method cannot achieve the best effect. In this paper, we propose an optimal checkpoint method with edge switch failure-aware. The edge switch failure-aware checkpoint method includes two algorithms. The first algorithm employs the data center topology and communication characteristic for checkpoint image storage server selection. The second algorithm employs the checkpoint image storage characteristic as well as the data center topology to select the recovery server. Simulation experiments are performed to demonstrate the effectiveness of the proposed method