Abstract
The massive growth in the scale of data has been observed in recent years being a key factor of the Big Data scenario. Big Data can be defined as high volume, velocity and variety of data that require a new high-performance processing. Addressing big data is a challenging and time-demanding task that requires a large computational infrastructure to ensure successful data processing and analysis. The presence of data preprocessing methods for data mining in big data is reviewed in this paper. The definition, characteristics, and categorization of data preprocessing approaches in big data are introduced. The connection between big data and data preprocessing throughout all families of methods and big data technologies are also examined, including a review of the state-of-the-art. In addition, research challenges are discussed, with focus on developments on different big data framework, such as Hadoop, Spark and Flink and the encouragement in devoting substantial research efforts in some families of data preprocessing methods and applications on new big data learning paradigms
چکیده
رشد بسیار زیاد در مقیاس دادهها در سالهای اخیر یک فاکتور کلیدی در سناریوهای کلان داده میباشد. کلان داده میتواند به عنوان داده هایی یا حجم، سرعت و تنوع بالا که به پردازشهای نوین و با کارایی بالایی نیاز دارند. مورد بحث قرار دادن کلان داده یک مسئله چالش برانگیز و زمان بر است که برای اطمینان از پردازش و تحلیل دادهای به زیرساختهای محاسباتی بزرگی نیاز دارد. در این مقاله روشهای پردازش دادهای برای داده کاوی در کلان دادهها مورد بررسی قرار گرفته است. تعریف، خصوصیات و طبقه بندی رویکردهای پردازش داده در کلان دادهها نیز معرفی شدهاند. ارتباط میان کلان داده و پیش پردازش داده در سرتاسر تمامی روشها و تکنولوژیهای کلان دادهها از جمله مروری بر آخرین پیشرفتها نیز در اینجا مورد بررسی قرار گرفتهاند. علاوه بر این ها چالش های پژوهشی با تمرکز بر پیشرفت های چارچوب های مختلف کلان داده مانند هادوپ، اسپارک و فلینک و وقف مطالعات بسیاری در برخی از خانواده های روش های پیش پردازش و موارد کاربردی الگوهای یادگیر کلان داده مورد بحث قرار گرفته اند.
1-مقدمه
مقدار عظیم داده های خام ما را در این جهان احاطه کرده اند، داده هایی که نمی توانند به طور مستیم توسط انسان ها یا کاربرد های دستی مورد استفاده قرار بگیرند. تکنولوزی هایی همچون، شبکه گسترده جهانی، شبکه ها و کاربرد های مهندسی و علمی، خدمات تجارتی و بسیاری موارد دیگر به لطف پیشرفت های ایجاد شده در ابزار های ارتباطی و ذخیره سازی به صورت رشد توانی داده تولید می کنند. دانش واطلاعات سازمان یافته به دلیل این رشد عظیم داده ها نمی تواند به اسانی به دست اید و همچنین نمی توان آن را به آسانی درک و یا استخراج کرد. این فرض های منطقی به توسعه یک مینه شناخته شده به نام علم داده یا داده کاوی منجر شده است که در جهان معاصر و عصر اطلاعات حضور بسیار پر رنگ تری دارد...