Abstract
System failures will become more frequent for future large scale systems and issues of fault-tolerance will be tremendously important. Checkpoint-restart techniques are very important fault-tolerance approaches for these systems. As we know, the overhead of checkpoint will influence the system performance seriously. Recently, the emerging Phase Change Memory technology is becoming available and can replace disks with the fast accesses and byte-address features. However, previous research has demonstrated that using conventional incremental checkpointing techniques directly on PCM doesn't perform well. In this paper, we propose and implement a new incremental checkpoint scheme named FCKPT, which can detect exact modified bytes of a dirty page. Our experiment results on several well-known benchmarks show that FCKPT can reduce checkpoint file size from 20%-50% without other overhead when compared to conventional page-level incremental checkpoint on PCM
چکیده
خرابی های سیستم برای سیستم های با مقیاس بزرگ آینده پی در پی بیشتر خواهد شد و مسائل مربوط به تحمل خرابی فوق العاده مهم خواهد شد. تکنیک های نقطه بررسی-راه اندازی مجدد رویکردهای تحمل خرابیِ بسیار مهمی برای این سیستم ها می باشند. همانطور که می دانیم، سربار نقطه بررسی ها به طور جدی عملکرد سیستم را تحت تاثیر قرار می دهد. به تازگی، تغییر فاز تکنولوژی حافظه که در حال پدیدار شدن است دسترس پذیر شده و می تواند دیسک ها را با دسترسی سریع و ویژگی های بایت-آدرس جایگزین کند. با این حال، تحقیقات گذشته نشان داده است که استفاده از تکنیک های نقطه بررسی افزایشی متداول مستقیما روی PCM به خوبی اجرا نمی شوند. در این مقاله، ما یک طرح جدید نقطه بررسی افزایشی را که FCKPT نامیده می شود را پیشنهاد می دهیم و اجرا می کنیم که می تواند دقیق بایت های اصلاح شده از صفحات آلوده را تشخیص دهد. نتایج آزمایشات ما بر روی چمدین بنچمارک شناخته شده نشان می دهد که FCKPT می تواند سایز نقطه بررسی رابدون سربار دیگر هنگامی که با نقطه بررسی های افزایشی متداول سطح صفحه در PCM مقایسه می شود از 20% تا 50% کاهش دهد.
1-مقدمه
سیستم های محاسباتی با عملکرد بالا برای حل مشکلات علمی پیچیده که معمولا برای روزها یا حتی ماهها اجرا می شوند طراحی شده اند. به منظور اجتناب از محاسبات مجدد از ابتدا که ناشی از خرابی سیستم می باشد، پی آمد تحمل خرابی به یک امر خیلی مهم تبدیل می شود. اگرچه، گره های منحصر بفرد سیستم های بزرک که برای داشتن میانگین زمان خرابی بالا (MTTF) طراح یده اند، قابلیت اطمینان تمام سیستم مانند تعداد گره های افزایشی به شدت تنزل می یابد. امروزه، تعداد زیادی از سیستم های بزرگ تکنیک نقطه بررسی- راه اندازی مجدد را برای بهبود قابلیت اطمینان بکار می برند. اما سربار ناشی از رویکرد تکنولوژی جدید ( State-of-the- art) یک مشکل جدی می باشد...