Abstract
Organizations of all sizes are shifting their IT infrastructures to the cloud because of its cost efficiency and convenience. Because of the on-demand nature of the Infrastructure as a Service (IaaS) clouds, hundreds of thousands of virtual machines (VMs) may be deployed and terminated in a single large cloud data center each day. In this paper, we propose a content-based scheduling algorithm for the placement of VMs in data centers. We take advantage of the fact that it is possible to find identical disk blocks in different VM disk images with similar operating systems by scheduling VMs with high content similarity on the same hosts. That allows us to reduce the amount of data transferred when deploying a VM on a destination host. In this paper, we first present our study of content similarity between different VMs, based on a large set of VMs with different operating systems that represent the majority of popular operating systems in use today. Our analysis shows that content similarity between VMs with the same operating system and close version numbers (e.g., Ubuntu 12.04 vs. Ubuntu 11.10) can be as high as 60%. We also show that there is close to zero content similarity between VMs with different operating systems. Second, based on the above results, we designed a content-based scheduling algorithm that lowers the network traffic associated with transfer of VM disk images inside data centers. Our experimental results show that the amount of data transfer associated with deployment of VMs and transfer of virtual disk images can be lowered by more than 70%, resulting in significant savings in data center network utilization and congestion
چکیده
سازمانهای با تمام اندازهها، در حال انتقال زیرساخت ITشان بر روی ابر هستند که بخاطر بهرهوری هزینه و راحتی آن است. بخاطر ماهیت برحسب تقاضا بودن این زیرساختها بعنوان ابرهایخدمات (IaaS)، ممکن است صدها هزار ماشین مجازی (VMها) در هر روز، در یک مرکز داده ابر بزرگ مجزا قرار گیرند و خاتمه یابند. در این مقاله، ما یک الگوریتم زمانبندی بر اساس محتوی را برای قرار دادن VMها در مراکز داده پیشنهاد میدهیم. از این واقعیت استفاده میکنیم که این امکان وجود دارد تا با زمانبندی VMهای با تشابه محتوای بالا بر روی میزبانهای یکسان، بلوکهای دیسک یکسانی را در تصاویر دیسک VM مختلف با سیستم عاملهای مشابه بیابیم. این امر به ما اجازه میدهد تا در هنگام قرار دادن یک VM بر روی یک میزبان مقصد، مقدار دادههای انتقال داده شده را کاهش دهیم. در این مقاله، ابتدا بررسیمان در مورد تشابه محتوای میان VMهای مختلف را ارائه میکنیم که بر اساس مجموعه بزرگی از VMها با سیستمعاملهای مختلف است که اکثر سیستم عاملهای محبوبی که امروزه استفاده میشوند را نشان میدهند. تحلیل ما نشان میدهد که تشابه محتوی میان VMهای دارای یک نوع سیستم عامل و شماره نسخههای نزدیک به هم (مثلا ابونتو 12.04 در مقایسه به ابونتو 11.10) میتواند به بزرگی 60% باشد. همچنین نشان میدهیم که تشابه محتوای نزدیک به صفر میان VMهای دارای سیستم عاملهای متفاوت وجود دارد. دوم اینکه، بر اساس نتایج بالا، یک الگوریتم زمانبندی بر اساس محتوی طراحی کردیم که ترافیک شبکه مربوط به انتقال از تصاویر دیسک VM به درون مراکز داده را کمتر میکند. نتایج تجربی ما نشان میدهد که مقدار انتقال داده مربوط به قرار دادن VMها و انتقال تصاویر دیسک مجازی میتواند به اندازه بیش از 70% کمتر شود، که منجر به رهایی چشمگیری در تراکم و استفاده از شبکه مرکز داده میشود.
1-مقدمه
امروزه خدمات دهندگان بزرگ ابر همچون خدمات وب آمازون (AWS)، راک اسپیس و مایکروسافت آزور این امر را برای شرکتها بسیار مقرون به صرفه کردهاند که خدماتشان را بر روی ابر میزبانی کنند. قرارگیری سریع و ماهیت ابر در پرداخت- فقط- برای- آنچه که- شما- استفاده میکنید، انتقال کاربردها و خدمات را بر روی ابر بجای خود شرکت و حفظ زیرساختهای IT شرکت را ساده و راحت میکند. رشد سریع خدماتدهندگان ابر را میتوان در اندازه مراکز دادهشان ملاحظه نمود. بطور مثال، مطابق با [1]، هفت محل مرکز داده AWS در اطراف دنیا (4 تا در آمریکا) وجود دارد، و تعداد کل سرورهای تیغهای در تمام محلها، در حدود نیم میلیون برآورد میشود....