Abstract
Data grid is a distributed collection of storage and computational resources that are not bounded within a geophysical location. It is a fast growing area of research and providing efficient data access and maximum data availability is a challenging task. To achieve this task, data is replicated to different sites. A number of data replication techniques have been presented for data grids. All replication techniques address some attributes like fault tolerance, scalability, improved bandwidth consumption, performance, storage consumption, data access time etc. In this paper, different issues involved in data replication are identified and different replication techniques are studied to find out which attributes are addressed in a given technique and which are ignored. A tabular representation of all those parameters is presented to facilitate the future comparison of dynamic replication techniques. The paper also includes some discussion about future work in this direction by identifying some open research problems
چکیده
گرید داده مجموعه ای از منابع ذخیره و محاسباتی است که در یک محل فیزیکی محدود نمی شود. این مسأله، موضوع مورد تحقیق در حال رشدی است که در آن دسترسی به اطلاعات و در دسترس بودن حداکثری اطلاعات کاری دشوار است. برای دستیابی به این مهم، داده ها تکثیر شده و به سایت های مختلف فرستاده می شود. چندین تکنیک برای تکثیر دیتا (data replication) وجود دارد که گرید های داده ارائه شده است .تمام این تکنیک های تکثیر (replications) شامل ویژگی های خاصی (attributes) از جمله: تولرانس خطا(fault tolerance) ، مقیاس پذیری(Scalability)، مصرف بهینه پهنای باند، کارایی (Performance)، استفاده از فضای ذخیره سازی (Storage Cosumption)و زمان دسترسی به داده (Data Acces Time) و ... می باشد. در این مقاله، مشکلات مختلف مربوط به تکثیر داده ها مورد مطالعه قرار گرفته و تکنیک های مختلف تکثیر موردتوجه قرار می گیرند تا بفهمیم در کدام تکنیک کدام ویژگی خاصه اهمیت داده شده و در کدام خیر. تمام این پارامترها به صورت جدول نمایش داده می شوند تا در آینده تکثیر دینامیک (Dynamic Replication) آنها راحت تر قابل مقایسه باشد. این مقاله همچنین شامل مباحثی در راستای آینده کاری این موضوع از طریق تشخیص برخی مشکلات تحقیقاتی مربوطه می باشد.
1-مقدمه
امروزه در بسیاری از موضوعات علمی مجموعه داده های عظیم بخش مهمی از داده های مشترک را تشکیل می دهند. در بسیاری از زمینه ها مانند فیزیک انرژی، بیوانفورماتیک، مشاهدات زمینی، تغییرات اقلیمی پردازش تصاویر و داده کاوی که از لحاظ ماهیتی متفاوت هستند این مسأله صادق است که در آنها حجم داده ها به صورت ترا بایت و پتا بایت بیان می شود. یک حجم داده عظیم باید در دسترس جوامع محققین و دانشمندان با استفاده از دیوایس های محاسباتی پیچیده قرار گیرد که در واقع هم این جوامع محققین و هم دیوایس های ذخیره سازی و محاسباتی هرکدام از نظر جغرافیایی در سرتاسر زمین پراکنده اند...