چکیده
امروزه سازمانها با حجم زیادی از دادههای نشأت گرفته از منابع مختلف سر و کار دارند و با استفاده از ابزارهایی همچون تجزیهوتحلیل دادهها از این اطلاعات بهرهبرداری کرده تا بتوانند از آن در فرآیند تصمیمگیری کارآمد استفاده نموده و سرویسها و توابع جدیدی را ارائه دهند. یکی از نیازمندیهای کلیدی در تجزیهوتحلیل دادهها، مسئلهی مقیاسپذیری میباشد؛ و دلیل آن نیز نیاز برای استخراج، پردازش و تجزیهوتحلیل حجم گستردهای از دادهها به صورت به موقع و بهنگام میباشد. بدیهی است که بسیاری از چارچوبهای رایج برای تجزیهوتحلیل دادههای بزرگ مقیاس امروزی، چارچوب MapReduce یا کاهش نگاشت میباشد که دلیل رواج آن نیز ناشی از ویژگیهای قابل ملاحظهای همچون مقیاسپذیری، تحملپذیری در برابر خطا، برنامهنویسی آسان و انعطافپذیری میباشد. اگرچه علیرغم این مشخصات، این چارچوب از محدودیتهای کارائی در تجزیهوتحلیلهای مختلف رنج برده و این امر باعث شده تا پژوهشهای زیادی به منظور بهبود بهرهوری این چارچوب و در عین حال حفظ مشخصههای آن صورت گیرد. در این پژوهش، هدف این بوده که به بازبینی وضعیت پژوهشهای صورت گرفته در حوزهی بهبود کارائی پردازش موازی پرس و جو با استفاده از MapReduce بپردازیم. مجموعهای از نقاط ضعف و محدودیتهای این چارچوب نیز در سطح بالایی تشریح شده و تکنیکهایی برای حل آنها نیز ارائه گردیده است. پژوهشهای موجود در حوزهی بهبود MapReduce را بر اساس مسائل خاصی که مورد هدف این چارچوب میباشد دستهبندی نمودهایم. بر مبنای طبقهبندی پیشنهادی، یک دستهبندی از پژوهشهای موجود پیشنهاد گردیده است که هدف آن تمرکز بر روی هدف بهینهسازی میباشد. در نهایت اشارهای به جهتگیریهای جالب و کاربردی برای سیستمهای پردازش موازی دادههای آینده خواهیم داشت.
1-مقدمه
در حوزهی کلان دادهها (دادههای انبوه) که به عنوان حجم بی سابقهای از دادهها شناخته میشود، سرعت تولید دادهها و تنوع ساختار دادهای، پشتیبانی برای تجزیهوتحلیل دادههای بزرگ مقیاس به یک چالش خاص مبدل گردیده است. به منظور پاسخ به نیازمندیهای مقیاسپذیری در تجزیهوتحلیل دادههای امروزی، معماریهای غیر اشتراکی موازی بر روی ماشینها (که معمولاً متشکل از هزاران گره میباشند) به عنوان یک راهکار بالفعل ارائه گردیده است. سیستمهای مختلف به وسیلهی صنعت پیشنهاد شدهاند که به منظور پشتیبانی از تجزیهوتحلیل کلان دادهها کاربرد دارند که در این راستا میتوان به چارچوبهای MapReduce گوگل [32,33]، PNUTS یاهو [31]، SCOPE مایکروسافت [112]، Storm توئیتر [70]، Kafa از شبکهی LinkedIn[46] و Muppet آزمایشگاههای Walmart اشاره کرد [66]. همچنین چندین شرکت، شامل فیسبوک [13] نیز از چارچوب هادوپ آپاچی (یک پیادهسازی متنباز از MapReduce) استفاده کرده و در اکوسیستم آن نقش داشتهاند…
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید