Abstract
Association rules are among important techniques in data mining which are used for extracting hidden patterns and knowledge in large volumes of data. Association rules help individuals and organizations take strategic decisions and improve their business processes. Extracted association rules from a database contain important and confidential information that if published, the privacy of individuals may be threatened. Therefore, the process of hiding sensitive association rules should be performed prior to sharing the database. This is done through changing the database transactions. These changes must be made in such a way that all sensitive association rules are hidden and a maximum number of non-sensitive association rules are extractable from the sanitized database. In fact, a balance is to be established between hiding the sensitive rules and extracting the non-sensitive rules. A new algorithm is presented in this paper to create a balance between preserving privacy and extracting knowledge. The items of sensitive rules are clustered in the proposed algorithm, in order to reduce changes. In fact, reduction of changes and clustering of rules are applied in order to reduce the side effects of the hiding process on non-sensitive rules
چکیده
قواعد وابستگی از جمله مهمترین تکنیک ها در داده کاوی می باشد که برای استخراج الگوهای پنهان و اطلاعات در داده هایی با حجم زیاد مورد استفاده قرار می گیرد. قواعد وابستگی به افراد و سازمانها کمک می کنند تا تصمیمات راهبردی خود را اتخاذ کنند و فرایند های کسب و کار خود را بهبود بخشند. قواعد وابستگیِ استخراج شده از یک پایگاه داده، حاوی اطلاعات مهم و محرمانه ای است که اگر منتشر شود، حریم شخصیِ افراد شاید به خطر بیافتد. بنابراین، فرایند پنهان سازی قواعد وابستگیِ حساس باید قبل از اشتراک پایگاه داده صورت گیرد. این امر بواسطۀ تغییر تراکنش های اخیر در پایگاه داده صورت می گیرد. این تغییرات باید طوری انجام شوند تا تمامی قواعد وابستگی حساس پنهان شوند و بیشترین تعداد قواعد وابستگی غیرحساس از پایگاه دادۀ - که محتویات آن حفظ شده ولی نام و ظاهر آن تغییر یافته - قابل استخراج باشند. درحقیقت، بایستی تعادل و موازنه ای میان پنهان سازی قواعد حساس و استخراجِ قواعد غیرحساس ایجاد نمود. یک الگوریتم جدید در این مقاله برای ایجاد تعادل بین حفظ حریم شخصی و استخراج معلومات ارائه خواهد شد. آیتم های قواعد حساس در الگوریتم های پیشنهادی خوشه بندی می شوند تا تغییرات به حداقل رسانده شود. درواقع، کاهش تغییرات و خوشه بندیِ قواعد جهت کاهش تاثیرات جانبیِ فرایند پنهان سازی قواعد غیرحساس بکار برده می شوند.
1-مقدمه
داده کاوی ابزاری قدرتمند برای آنالیز و خلاصه سازی داده می باشد. داده کاوی، برای استخراج اطلاعات و معلومات پنهان در حجم عظیمی از داده ها قابل استفاده است. امروزه از داده کاوی بطور گسترده در بازاریابی، تحلیل های پزشکی و تجاری استفاده می شود. اطلاعات استخراج شده با استفاده از ابزار داده کای حاوی اطلاعات حساس و مهمی است که اگر منتشر گردد، حریم شخصی افراد و موسسات بخطر می افتد. حفظ حریم شخصی در داده کاوی (PPDM)، از اطلاعات حساس دربرابر الگوریتم های داده کاوی محافظت می کند...