Abstract
Demands on capacity of distributed systems (e.g., Grid and Cloud) play a crucial role in today’s information era due to the growing scale of the systems. While the distributed systems provide a vast amount of computing power their reliability is often hard to be guaranteed. This paper presents effective resource management using adaptive reinforcement learning (RL) that focuses on improving successful execution with low computational complexity. The approach uses an emerging methodology of RL in conjunction with neural network to help a scheduler that effectively observes and adapts to dynamic changes in execution environments. The observation of environment at various learning stages that normalize by resource-aware availability and feedback-based scheduling significantly brings the environments closer to the optimal solutions. Our approach also solves a high computational complexity in RL system through on-demand information sharing. Results from our extensive simulations demonstrate the effectiveness of adaptive RL for improving system reliability
چکیده
مطالبات در سیستم های توزیع شده (از جمله گرید و کلود) نقش بسیار مهمی در عصر اطلاعات امروز ایفا می کند و علت آن مقیاس رو به رشد این سیستم است. سیستم های توزیع شده حجم عظیمی از توان محاسباتی را ارائه می کنند و این در حالی است که این سیستم ها قابلیت اطمینان خود را اغلب به سختی تضمین می کنند. این مقاله مدیریت منابع موثر را با استفاده از یادگیری تقویتی تطبیقی (RL) ارائه می کند که بر بهبود اجرای موفق کارهای محاسباتی با پیچیدگی کم تمرکز می کند. این روش از یک متد نو ظهور RL در رابطه با شبکه های عصبی برای کمک به زمانبند استفاده می کند که به طور موثر تغییرات پویا در محیطهای اجرایی را مشاهده می کند و خود را سازگار می نماید. مشاهده محیط در مراحل مختلف یادگیری توسط دسترس پذیری منابع و زمان بندی مبتنی بر بازخورد قاعده مند می شود و این امر به طرز چشمگیری محیط را به راه حل بهینه نزدیک می کند. راهکار ما پیچیدگی محاسباتی بالا در سیستم RL را نیز از طریق به اشتراک گذاری اطلاعات مبتنی بر تقاضا حل می کند. نتایج شبیه سازی های گسترده، اثربخشی RL تطبیقی را برای بهبود قابلیت اطمینان سیستم نشان می دهد.
1-مقدمه
در سیستم های توزیع شده با مقیاس بزرگ از جمله گرید و کلود، با توسعه اینترنت قادر می شوند تا اطلاعات گسترده و خدمات کامپیوتری را بصورت پویا ارائه کنند. ناهمگونی و پویایی منابع و برنامه های کاربردی در این سیستم شایع است و باید به طور موثر به آن [11] پرداخته شود. تخصیص منابع با توجه به این ویژگی ها( ناهمگن و پویا) طور فزاینده با توسعه سیستم های توزیعی مهم تر شده است...