Abstract
Software redundant arrays of independent disks (RAID) suffer from several hours of resynchronization time after a sudden power-off. Data blocks and a parity block in a stripe must be updated in a consistent manner. However, a data block may be updated without a parity update if power goes off. Such a partially modified stripe must be updated with a correct parity block after a reboot. It is difficult, however, to find which stripe is partially updated. The widely used traditional parity resynchronization approach entails a very long process that scans the entire volume to find and fix partially updated stripes. As a remedy to this problem, this paper presents a parity resynchronization scheme that exhibits a small overhead for a wide range of workloads, finishes parity resynchronization within several minutes, and is transparent to file systems, thanks to a new seamless block-level journaling. The proposed scheme is integrated into a software RAID driver in a Linux system. A performance evaluation demonstrates that the proposed scheme shortens the resynchronization process from 200 min to 30 s with 1% overhead, compared to 51% overhead for the prior scheme
چکیده
مشکل آرایه های افزونه ی دیسک های مستقلِ (RAID) نرم افزاری این است که پس از خاموشی ناگهانی، برای همگام سازی مجدد به ساعت ها زمان نیاز دارند. بلوک های داده و بلوک توازن روی یک نوار باید به صورتی به روزرسانی شوند که با هم سازگار باشند. اما اگر برق قطع شود ممکن است بلوک داده بدون به روزرسانی بلوک توازن به روزرسانی شود. پس از راه اندازی مجدد، این نوار که به صورت ناقص اصلاح شده، باید با یک بلوک توازنِ صحیح به روزرسانی شود. اما پیدا کردن نوارهایی که به صورت ناقص به روزرسانی شده اند مشکل است. روش سنتیِ همگام سازی مجدد که کاربرد گسترده ای نیز دارد شامل یک فرایند طولانی است که کل داده ها را پویش (اسکن) میکند تا نوارهایی را که به صورت ناقص به روز رسانی شده اند اصلاح کند. این مقاله برای رفع این مشکل یک روش همگام سازی توازن ارائه میکند که برای بسیاری از کارها سربار کمی دارد و همگام سازی مجدد توازن را در چند دقیقه انجام میدهد و به لطف یادداشت برداری پیوسته در سطح بلوک، برای سیستم های فایل شفاف است. ارزیابی کارایی نشان میدهد که روش پیشنهادی، طول فرایند همگام سازی را از 200 دقیقه به 30 ثانیه میرساند و سربار آن در مقایسه با روش قبلی که 51 درصد بود، تنها 1 درصد است.
1-مقدمه
انواع مختلفی از آرایه های افزونه دیسک های مستقل (RAID) [1] برای دادههایی با حجم و توان عملیاتی بالا، و در عین حال حفاظت از داده ها در برابر نقص یک یا چند دیسک، ارائه شده است. موضوعات تحقیقاتی در زمینه RAID عبارتند از روش دسترسی [2،3]، بازسازی [4-7]، سایش [8-10]، مقیاس گذاری [11-15]، طرح داده [16-21]، کدِ پاک کردن [22-26]، و همگام سازی مجدد [27-29]. موضوع این مقاله، همگام سازی مجدد در سیستم های RAID نرم افزاری است...