Abstract
In recent years, wide available personal data has made privacy preserving data mining issue an important one. An overview of new and rapidly emerging research field of privacy preserving data mining and some exist problems provided in this paper. We also make a classification for the privacy preserving data mining, and analyze some works in this field. Data distortion method for achieving privacy protection association rule mining and privacy protection data release were focused on discussion. Detailed evaluation criteria of privacy preserving algorithm was illustrated, which include algorithm performance, data utility, privacy protection degree, and data mining difficulty. Finally, the development of privacy preserving data mining for further directions is prospected
چکیده
در طی سالیان اخیر، وجود حجم زیادی از داده های شخصی موجب شده است تا مسئله ی داده کاوی مبتنی بر حفظ حریم به یکی از مسائل مهم و چالش برانگیز در دنیای امروزی مبدل گردد. در این مقاله قصد داریم بازبینی جامعی را بر روی حوزه ی پژوهشی داده کاوی مبتنی بر حفظ حریم صورت داده و برخی از مسائل و مشکلات مرتبط با آنرا نیز بررسی و حل و فصل کنیم. همچنین در ادامه قصد داریم داده کاوی مبتنی بر حفظ حریم را دسته بندی کرده و بعضی از فعالیت های صورت گرفته شده در این زمینه را نیز مورد تحلیل قرار دهیم. همچنین قصد داریم تمرکز خود را بر روی متد های توزیع داده به منظور رسیدن به یک سطح مناسبی قانون کاوی مرتبط با حفظ حریم و داده های حفاظت از حریم قرار دهیم. معیار های ارزیابی کاملی(اعم از کارائی الگوریتم، نرخ بکار گیری داده ها ، سطح حفاظت از حریم، پیچیدگی داده کاوی )از الگوریتم های حفظ حریم نیز تشریح خواهد شد و در پایان نیز سیر توسعه ی داده کاوی مبتنی بر حفظ حریم به منظور جهت گیری های آینده مطرح خواهد شد.
کلید واژه: داده کاوی، حفظ حریم، الگوریتم های داده کاوی
1-مقدمه
ظهور قابلیت های ذخیره سازی عظیم بر روی سیستم های کامپیوتری باعث شده است تا الگوریتم های داده کاوی مختلفی در این زمینه پیشنهاد شد. از هر نوع سازمان اجتماعی میتوان اطلاعات انبوه و بی پایانی را بدست آورد. متد های رایجی که در زمینه ی حفاظت از حریم وجود دارند نمیتوانند چنین اطلاعاتی را به درستی استخراج کنند، چرای که در پروسه ی داده کاوی نیاز به حفاظت از حریم دارند، چرا که در زمان حفاظت از اطلاعات حساس، دانش موجود در داده ها به گونه ای است که اجازه ی دسترسی به آنرا به شما نمیدهند. داده کاوی مبتنی بر حفظ حریم دو جنبه ی مهم را در نظر میگیرد. اول اینکه چطور میتوان این تضمین را ایجاد کرد که اطلاعاتی مانند شماره شناسایی کارت، نام، آدرس و غیره در پروسه های کاربرد داده ای فاش نمیشوند. داده های اصلی حساس یا از پایگاه داده حذف شده و یا مورد بازخوانی قرار میگیرند. هدف اینکار این بوده که جلوی دریافت مهاجمین اطلاعاتی به این داده ها گرفته شود. جنبه ی بعدی نیز این بوده که چطور میتوان کاربرد داده ها را به بهترین شکل مورد بهره برداری قرار داد. الگوریتم استخراج داده های سرویس، باید بتوانند قوانین حساسی که باعث استخراج اطلاعاتی حساس از پایگاه داده میشود را از بین ببرد. کاوش مفید اطلاعات حساس از داخل پایگاه داده و با استفاده از تکنولوژی داده کاوی ممکن است باعث از بین رفتن حریم بعضی از داده ها گردد، و از این رو باید قوانین حساس را از بین برد. هدف اصلی داده کاوی مبتنی بر حفاظت حریم این بوده که داده های اصلی را به نوعی استخراج کرده و الگوریتم های داده کاوی متناظر با آنرا توسعه دهد..