Abstract
Big Data is a term defining data that has three main characteristics. First, it involves a great volume of data. Second, the data cannot be structured into regular database tables and third, the data is produced with great velocity and must be captured and processed rapidly. Oracle adds a fourth characteristic for this kind of data and that is low value density, meaning that sometimes there is a very big volume of data to process before finding valuable needed information. Big Data is a relatively new term that came from the need of big companies like Yahoo, Google, Facebook to analyze big amounts of unstructured data, but this need could be identified in a number of other big enterprises as well in the research and development field. The framework for processing Big Data consists of a number of software tools that will be presented in the paper, and briefly listed here. There is Hadoop, an open source platform that consists of the Hadoop kernel, Hadoop Distributed File System (HDFS), MapReduce and several related instruments. Two of the main problems that occur when studying Big Data are the storage capacity and the processing power. That is the area where using Grid Technologies can provide help. Grid Computing refers to a special kind of distributed computing. A Grid computing system must contain a Computing Element (CE), and a number of Storage Elements (SE) and Worker Nodes (WN). The CE provides the connection with other GRID networks and uses a Workload Management System to dispatch jobs on the Worker Nodes. The Storage Element is in charge with the storage of the input and the output of the data needed for the job execution. The main purpose of this article is to present a way of processing Big Data using Grid Technologies. For that, the framework for managing Big Data will be presented along with the way to implement it around a grid architecture
چکیده
داده بزرگ اصطلاحی برای تعریف دادههایی با سه ویژگی اصلی است. اول، شامل حجم زیادی از دادهها است. دوم، داده نمیتواند در جداول پایگاهدادهی منظم سازماندهی شود و سوم، داده با سرعت زیادی تولید شدهاست و باید به سرعت گرفته و پردازش شود. اوراکل ویژگی چهارم چگالی کم مقدار را برای این نوع از دادهها میافزاید، به این معنی که گاهی اوقات حجم بسیار بزرگی از دادهها برای پردازش، قبل از پیدا کردن اطلاعات مورد نیاز با ارزش وجود دارد. داده بزرگ اصطلاح نسبتاً جدیدی است که از نیاز شرکتهای بزرگ مانند یاهو، گوگل، فیس بوک به تحلیل مقادیر بزرگی از دادههای بدون ساختار آمد است، ولی این نیاز میتواند در تعدادی از شرکتهای بزرگ دیگر در زمینه تحقیق و توسعه شناسایی شود. چارچوب پردازش داده بزرگ شامل تعدادی از ابزارهای نرمافزاری است که در این مقاله ارائه و به طور خلاصه ذکر شدهاند. هادوپ، بستر منبع باز است که شامل هسته هادوپ، سیستم فایل توزیع شده هادوپ (HDFS)، نگاشت-کاهش و چندین ابزار مرتبط، وجود دارد. دو مورد از مشکلات اصلی که در هنگام مطالعه داده بزرگ رخ میدهد، ظرفیت ذخیرهسازی و قدرت پردازش هستند. و این جایی است که استفاده از فنآوری گرید میتواند کمک کند. محاسبات گرید اشاره به نوع خاصی از محاسبات توزیع شده دارد. سیستم محاسبات گرید، باید شامل عنصر محاسباتی (CE)، و تعدادی از عناصر دخیرهسازی (SE) و گرههای کارگر (WN) باشد. CE ارتباط با دیگر شبکههای گرید را فراهم میکند و از یک سیستم مدیریت بار کاری برای اعزام کارها به گرههای کارگر استفاده میکند. عنصر ذخیرهسازی مسئول ذخیرهسازی ورودی و خروجی دادههای مورد نیاز برای اجرای کار است. هدف اصلی این مقاله ارائه یک روش پردازش داده بزرگ با استفاده از تکنولوژی گرید است. برای این منظور، چارچوب مدیریت داده بزرگ به همراه روش پیادهسازی آن در معماری گرید ارائه خواهد شد.