چکیده
در پایگاه داده هایی که به پردازش موازی داده های انبوه یا به اختصار MPP میپردازند، معمولاً پرس و جو با عملکرد بالا و پرس و جوی اَدهاک به عنوان هدف های دو به دو ناسازگار در نظر گرفته میشوند. همچنین در این نوع از پایگاه دادده ها، میان سهولت توسعه ی مدل داده و سهولت تجزیه و تحلیل نیز تضاد وجود دارد. رویکرد جدیدی که "دریاچه داده" نام دارد، اینگونه وعده میدهد که با افزودن داده های جدید به مدل، توسعه ی مدل داده ساده تر خواهد شد، در حالیکه این دریاچه بسیار مستعد است که در نهایت تبدیل به باتلاقی بدون ساختار از داده ها شود؛ با توجه به عدم رعایت موازین و استانداردها، دریاچه ی داده از کنترل خارج میشود، یافتن داده ها و همچنین استفاده از داده ها، دشوار خواهد شد و بدین ترتیب دیگر داده ها قابل استفاده نخواهند بود. در این مقاله، تکنیک جدیدی معرفی میشود که با استفاده از مدلسازی لنگر داده های بزرگ را بسیار نرمال میکند؛ با استفاده از این تکنیک برای ذخیره ی اطلاعات و استفاده از منابع، روش بسیار مؤثری ارائه میشود، در نتیجه برای اولین بار در پایگاه داده هایی که به پردازش موازی داده های انبوه میپردازند، پرس و جوی اَدهاک با کارایی بالا ارائه میشود (در این متن، منظور از پرس و جو، کوئری میباشد). این تکنیک برای توسعه ی مدل داده و تبدیل آن به دریاچه ی داده، روش تقریباً مناسبی است، این در حالی است که مدل، به صورت داخلی در برابر تبدیل شدن به دریاچه داده محافظت میشود. در اینجا یک مطالعه ی موردی نیز انجام شده است، این مطالعه به این مسأله میپردازد که چگونه این روش به مدت بیش از سه سال از انباردادهای موجود در آویتو استفاده کرده است (آویتو یک وبسایت روسی است)؛ همچنین نتایج آزمایشاتی که با استفاده از داده های واقعی در HP Vertica انجام شده اند، نیز ارائه میشود. این مقاله براساس نتایج بدست آمده از یک پایان نامه گردآوری شده و در 34 اُمین کنفرانس بین المللی مدلسازی مفهومی در سال 2015 ارائه شده است ]1[؛ این مقاله با استفاده از نتایج عددی که در طی چندین سال (1 تا 3 سال) از نرمال سازی داده های بزرگ موجود در نواحی کلیدی انبار داده، بدست آمده است، تکمیل میشود. همچنین در اینجا به توصیف محدودیتها نیز پرداخته می شود؛ این محدودیتها به علت استفاده از تنها یک خوشه از پایگاه داده ی MPP ایجاد میشوند.
1-مقدمه
تحلیل داده های بزرگ در بسیاری از شرکتها، به سرعت، به یک امر عادی تبدیل شده است. برای مثال بانکها، شرکت های مخابراتی، شرکت های بزرگ تحت وب مانند گوگل، فیسبوک و توئیتر، داده ها بسیار زیادی را تولید میکنند. حتی امروزه کاربران تجاری نیز میدانند که چگونه از طریق این داده ها کسب درآمد نمایند. برای مثال، تکنیک های بازاریابی با پیشبینی های مختلف، میتوانند اطلاعاتی که درباره رفتار مشتری کسب نموده اند را به ارزش های مالی بزرگی تبدیل نمایند....
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید.