Abstract
Data integration system (DIS) is becoming paramount when Cloud/Grid applications need to integrate and analyze data from geographically distributed data sources. DIS gathers data from multiple remote sources, integrates and analyzes the data to obtain a query result. As Clouds/Grids are distributed over wide-area networks, communication cost usually dominates overall query response time. Therefore we can expect that query performance can be improved by minimizing communication cost. In our method, DIS uses a data flow style query execution model. Each query plan is mapped to a group of mEngines, each of which is a program corresponding to a particular operator. Thus, multiple sub-queries from concurrent queries are able to share mEngines. We reconstruct these sub-queries to exploit overlapping data among them. As a result, all the sub-queries can obtain their results, and overall communication overhead can be reduced. Experimental results show that, when DIS runs a group of parameterized queries, our reconstructing algorithm can reduce the average query completion time by 32–48%; when DIS runs a group of non-parameterized queries, the average query completion time of queries can be reduced by 25–35%
چکیده
سیستم یکپارچه سازی داده ها (DIS) زمانی که برنامه های کاربردی ابر/گرید نیاز به ادغام و تجزیه و تحلیل داده ها از منابع داده های توزیع شده جغرافیایی دارند برتری میبابد . DIS اطلاعات را از منابع راه دور مختلف جمع آوری میکند و داده ها را برای به دست آوردن یک نتیجه query ادغام و تجزیه و تحلیل میکند. همانطور که ابرها/گریدها بر روی شبکه های گسترده توزیع شده اند، معمولا هزینه های ارتباطی به طور کلی بر زمان پاسخ query غالب میشوند. بنابراین ما می توانیم انتظار داشته باشیم که عملکرد query می تواند با به حداقل رساندن هزینه های ارتباطات بهبود یابد. در روش ما، DIS از یک مدل اجرای query به سبک جریان داده ها استفاده میکند. هر طرح query به یک گروه از µEngines، که هر کدام یک برنامه مربوط به اپراتور خاصی است نگاشت میشود. بنابراین، چندین sub-queries از queries همزمان قادر به اشتراک گذاشتن µEngines هستند. ما این sub-queries را برای بهره برداری تداخل داده ها با هم بازسازی میکنیم. در نتیجه، تمام sub-queries می توانند نتایج خود را بدست آورند و به طور کلی سربار ارتباطات می تواند کاهش یابد. نتایج تجربی نشان می دهد که، زمانی که DIS یک گروه از queries پارامتری را اجرا می کند ، الگوریتم بازسازی ما می تواند میانگین زمان اتمام query را به 32-48٪ کاهش دهد؛ هنگامی که DIS یک گروه از queries غیر پارامتری را اجرا می کند، میانگین زمان اتمام query از queries می تواند به 25-35٪ کاهش یابد.
1-مقدمه
همانطور که محاسبه ابر و گرید بیشتر و بیشتر رایج میشود، تعداد فزاینده ای از برنامه های کاربردی نیاز به دسترسی و پردازش داده ها از منابع مختلف توزیع شده پیدا میکنند. به عنوان مثال، نرم افزار بیوانفورماتیک نیاز به query پایگاه داده های مستقل در سراسر جهان برای دسترسی به انواع مختلف پروتئین و اطلاعات تعامل پروتئین-پروتئین واقع در ابرهای ذخیره سازی متفاوت پیدا میکنند. یکپارچه سازی داده ها در ابرها / گریدها یک راه حل امیدوار کننده برای ترکیب و تجزیه و تحلیل داده ها از مخازن مختلف است. چندین پروژه (به عنوان مثال، OGSA-DQP Lynden et al., 2009; CoDImS-G Fontes et al., 2004; and GridDB-Lite Narayanan et al., 2003) برای بررسی یکپارچه سازی داده ها در محیط های توزیع شده توسعه داده شده اند. به عنوان مثال،OGSA-DQP (Lynden et al., 2009) ، یک پردازشگر query توزیع شده، سرویس گرا است، که پشتیبانی اعلانی موثر را برای ارکستراسیون خدمات فراهم می کند...