Abstract
In big data applications, data privacy is one of the most concerned issues because processing large-scale privacy-sensitive data sets often requires computation resources provisioned by public cloud services. Sub-tree data anonymization is a widely adopted scheme to anonymize data sets for privacy preservation. Top–Down Specialization (TDS) and Bottom–Up Generalization (BUG) are two ways to fulfill sub-tree anonymization. However, existing approaches for sub-tree anonymization fall short of parallelization capability, thereby lacking scalability in handling big data in cloud. Still, either TDS or BUG individually suffers from poor performance for certain valuing of k-anonymity parameter. In this paper, we propose a hybrid approach that combines TDS and BUG together for efficient sub-tree anonymization over big data. Further, we design MapReduce algorithms for the two components (TDS and BUG) to gain high scalability. Experiment evaluation demonstrates that the hybrid approach significantly improves the scalability and efficiency of sub-tree anonymization scheme over existing approaches
چکیده
در برنامه های داده عظیم، حریم خصوصی داده، یکی از مسائل نگران کننده است، زیرا پردازش مجموعه داده های حساس به مسائل امنیتی و با مقیاس بزرگ، اغلب نیاز به منابع رایانشی ارائه شده توسط سرویسهای ابر عمومی دارد. تخصیص بالا به پایین (TDS) و تعمیم پایین به بالا (BUG) دوراه برای انجام گمنام سازی زیر شاخه هستند. در عین حال، روشهای موجود برای گمنام سازی زیر شاخه بدلیل فقدان مقیاس پذیری در دستکاری داده های عظیم در ابر، فاقد قابلیت موازی سازی هستند. در حال حاضر، حتی TDS یا BUG خودشان هم برای یک حجم مشخص از گمنامی مرتبه نقص عملکرد دارند. در این مقاله، ما یک روش ترکیبی را پیشنهاد می کنیم که TDS و BUG را با یکدیگر ترکیب می کند تا گمنام سازی موثری در زیرشاخه در داده های عظیم داشته باشد. علاوه براین، ما جهت دستیابی به مقیاس پذیری بالا، الگوریتمهای نگاشت کاهش را برای دو جزء این روش (BUG و TDS) طراحی می کنیم. ارزیابی های آزمایشی نشان می دهد که روش ترکیبی به صورت معنی داری مقیاس پذیری و کارآیی طرح گمنام سازی زیرشاخه را نسبت به روشهای موجود افزایش داده است.
1-مقدمه
رایانش ابری و داده عظیم، در حال حاضر دو روند چالش برانگیز هستند که اثرات قابل توجهی را بر صنعت IT در جوامع تحقیقاتی فعلی اعمال می کنند[1 و 2]. رایانش ابری نیروی محاسباتی و ظرفیت ذخیره ای کلانی را با استفاده از تعداد زیادی کامپیوترهای شبکه شده، به صورت ارتجاعی ارائه می کند، که کاربران راقادر می سازد تا برنامه های داده عظیم گران قیمت را بدون سرمایه گذاری زیرساختی سنگینی گسترش دهند...