چکیده
کلان دادهها به یک فناوری فراگیر برای مدیریت حجم همیشه رو به افزایش دادهها شده است. در میان راهحلهای کلان دادهها، ذخیرهسازی دادههای مقیاسپذیر به خصوص ذخیرهسازی دادههای مقادیر کلیدی به دلیل مقیاسپذیری بزرگ آنها (که متشکل از هزاران گره هستند) نقشی مهم را ایفا میکند. جریانکاری رایج برای برنامههای کاربردی کلاندادهها شامل دو مرحله است. مرحله نخست بارگذاری دادهها درون مخزن دادهها به عنوان بخشی از یک فرآیند ETL (استخراج-تبدیل- بارگذاری) است. دومین مرحله پردازش خود دادهها است. بیگتیبل و اچبیس راهحلهای مقادیر کلیدی ایدهآل مبتنی بر مخازن دادههایی هستند که به شکل محدودهای قسمتبندی شدهاند. با این حال، مرحله بارگذاری ناکارآمد است و یک تنگنای گره تکی را ایجاد میکند. در این مقاله ما این تنگنا را شناسایی و کمیت سنجی میکنیم و ابزاری برای بارگذاری دادههای حجیم موازی را پیشنهاد میدهیم که این ابزار هم به شکل رضایت بخشی قادر به حل تنگنا است و هم تمامی موازیسازی و بهره وری از مخزن دادهها مقادیر کلیدی زیرلایهای را در طی مرحله بارگذاری فراهم میکند. راهحل پیشنهادی به عنوان ابزاری برای بارگذاری دادههای حجیم موازی روی اچبیس پیادهسازی شده است که مخزن داده مقادیر کلیدی از اکوسیستم هادوپ است.
1-مقدمه
هر روز میلیونها پتابایت دادهها از منابع مختلف تولید میشوند. زیرساختهای کلاندادهها، مانند دریاچه دادههای هادوپ به منظور ارائه یک زیرساخت مقیاسپذیر برای مقابله با حجم زیاد دادههای غیرقابل مدیریت با تکنولوژیهای پایگاهدادههای سنتی ایجاد شده است. بسیاری از مخزن دادههای توزیعشده مقیاسپذیر در دهه گذشته ایجاد شدهاند تا قادر به پردازش مقادیر زیادی از دادهها باشند که اکثر آنها در حقیقت گسترشیافته مخزن دادههای مقادیر کلیدی مانند بیگتیبل [3]، اچبیس [1]، داینامو [6] و سایر موارد بودهاند. مخزن دادههای مقدار کلیدی اکوسیستم هادوپ، اچبیس نام دارد…
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید.