Abstract
The problem of big data analytics is gaining increasing research interest because of the rapid growth in the volume of data to be analyzed in various areas of science and technology. In this paper, we investigate the characteristics of the cloud computing requests received by the cloud infrastructure operators. The cluster usage dataset released by Google is thoroughly studied. To address the self-similarity and non-stationarity characteristics of the workload profile in a cloud computing system, fractal modeling techniques similar to some cyber-physical system (CPS) applications are exploited. A trace-based prediction of the job inter-arrival time and aggregated resource request sent to server cluster in the near future is effectively performed by solving fractional-order differential equations. The distributions of important parameters including job/task duration time and resource request per task in terms of CPU, memory, and storage are extracted from the cluster dataset are fitted using the alpha-stable distribution
چکیده
امروزه به دلیل رشد سریع حجم دادههایی که باید در حوزههای مختلف علمی و تکنولوژی پردازش شود، مسئلهی تحلیل کلان دادهها موردتوجه پژوهشهای زیادی قرارگرفته است. در این مقاله قصد داریم به بررسی مشخصههای درخواستهای رایانش ابری که توسط اپراتورهای زیر ساختار ابری دریافت میشود بپردازیم. همچنین، مجموعه دادهای کلاستری که توسط گوگل منتشر شده است را موردمطالعه قرار میدهیم. بهمنظور حل مسئلهی مربوط به مشخصههای غیر ثابت و خود تشابهی پروفایل بارکاری در سیستم رایانش ابری، از تکنیکهای مدلسازی فراکتال مشابه با بعضی از اپلیکیشن های سیستم فیزیکی-سایبری (CPS) استفادهشده است. یک پیشبینی مبتنی بر ردیابی در خصوص زمان بین ورود یک کار و درخواست منبعی که در آیندهای نزدیک به کلاستر سرور ارسال میشود نیز بهصورت کارآمد و بهوسیلهی حل معادلات دیفرانسیلی مرتبه فراکتال انجامشده است. توزیع پارامترهای مهمی مانند زمان کار/وظیفه و زمان درخواست منبع به ازای هر وظیفه برحسب پردازنده، حافظه و فضای ذخیرهسازی، که از مجموعه دادهای کلاستر استخراجشده است، با استفاده از یک توزیع پایدار-آلفا بهدستآمده است
1- مقدمه
در سالهای اخیر، بخشهای خاصی شاهد رشد سریع حجم دادههایی بوده است که ذخیره، تحلیل و پردازششده است [1],[2].با توجه به [3] ایالاتمتحدهی آمریکا بهمنظور روبرو شدن با این حجم زیاد دادهها، نیاز به 140 تا 190 هزار نیروی کاری بیشتر با مهارت تحلیلی عمیق و 1.5 میلیون مدیر اطلاعاتی دارد. یکی از این حوزههایی که با انفجار دادهها روبرو بوده است، اینترنت میباشد. هرروزه برحسب افزایش جمعیت کاربران و تعداد اپلیکیشن ها و سرویسهایی هایی که در اینترنت ظاهر میشوند، بر پیچیدگی این سیستم افزوده میشود. بهطور اجتنابناپذیر، حجم زیادی از دادههای ارتباطی، از طریق پروسهی تعامل بین گرههای مختلف شبکه ایجاد میشود...