Abstract
Data obfuscation is a well-known technique for protecting user privacy against inference attacks, and it was studied in diverse settings, including search queries, recommender systems, location-based services and Online Social Networks (OSNs). However, these studies typically take the point of view of a single user who applies obfuscation, and focus on protection of a single target attribute. Unfortunately, while narrowing the scope simplifies the problem, it overlooks some significant challenges that effective obfuscation would need to address in a more realistic setting. First, correlations between attributes imply that obfuscation conducted to protect a certain attribute, may influence inference attacks targeted at other attributes. In addition, when multiple users conduct obfuscation simultaneously, the combined effect of their obfuscations may be significant enough to affect the inference mechanism to their detriment. In this work we focus on the OSN setting and use a dataset of 1.9 million Facebook profiles to demonstrate the severity of these problems and explore possible solutions. For example, we show that an obfuscation policy that would limit the accuracy of inference to 45% when applied by a single user, would result in an inference accuracy of 75% when applied by 10% of the users. We show that a dynamic policy, which is continuously adjusted to the most recent data in the OSN, may mitigate this problem. Finally, we report the results of a user study, which indicates that users are more willing to obfuscate their profiles using popular and high quality items. Accordingly, we propose and evaluate an obfuscation strategy that satisfies both user needs and privacy protectio
چکیده
مبهم سازی داده ها یک روش شناخته شده برای محافظت از حریم خصوصی کاربران در برابر حملات استنباطی است و در محیط های متنوع، از جمله پرسش های جستجو، سیستم های پیشنهاد دهنده، خدمات مبتنی بر مکان و شبکههای اجتماعی آنلاین (OSNs) مورد مطالعه قرار گرفت. با این حال، این مطالعات معمولا دیدگاه کاربری را در نظر میگیرند که مبهم سازی را اعمال می کند، و بر حفاظت از ویژگی یک هدف تمرکز دارد. متاسفانه، حین محدود کردن دامنه مسئله و ساده سازی آن، از برخی چالش های مهم جلوگیری میکند که موانع موثر در یک محیط واقعی تر باید مورد توجه قرار گیرند. اولا، هم بستگی بین ویژگیها به این معنی است که مبهم سازی انجام شده برای محافظت از ویژگی خاص، ممکن است بر حملات استنباطی که به ویژگیهای دیگر اهتمام دارند تأثیر بگذارد. علاوه بر این، هنگامی که چندین کاربر به طور همزمان مبهم سازی را انجام میدهند، اثر ترکیبی مبهم سازی آنها ممکن است به اندازه کافی قابل ملاحظه باشد که بر مکانیسم استنباط آنها تأثیر بگذارد. در این مقاله ما بر روی محیط OSN تمرکز میکنیم و از یک مجموعه داده با 1.9 میلیون پروفایل فیس بوک استفاده میکنیم تا شدت این مسائل را نشان دهیم و راه حل های ممکن را بررسی نماییم. به عنوان مثال، نشان می دهیم که یک سیاست مبهم سازی که میتواند دقت استنباط را تا 45 درصد در صورت استفاده توسط یک کاربر محدود کند، در صورتی که 10 درصد از کاربران آن را اعمال کنند، دقت استنباطی 75 درصد را به ارمغان می آورد. ما نشان می دهیم که یک سیاست پویا، که به طور مداوم با جدیدترین دادهها در OSN تنظیم میشود، میتواند این مشکل را کاهش دهد. در نهایت، نتایج مطالعه یک کاربر را گزارش می دهیم، که نشان میدهد که کاربران مایل هستند پروفایلهای خود را با استفاده از آیتم های محبوب و با کیفیت بالا، مبهم و تاریک کنند. بر این اساس، ما یک استراتژی مبهم سازی را پیشنهاد و ارزیابی میکنیم که نیاز کاربر و حفاظت از حریم خصوصی را برآورده میکند.
-1مقدمه
با افزایش روزافزون شبکه های اجتماعی آنلاین (OSNs) در دهه گذشته، کاربران تعداد روزافزونی از اطلاعات شخصی، اعم از جزئیات و منافع شخصیشان، تا عادتها و نظراتشان را به اشتراک میگذارند. دسترسی به برخی از این اطلاعات شخصی را میتوان با تنظیم محیط های حریم خصوصی داخلی OSNها محدود کرد، اما با وجود اطمینان در مورد حفظ حریم خصوصی کاربران OSN، بسیاری از این دادهها هنوز بی ضرر و قابل دسترس هستند. این و سایر دادههای تولید شده توسط کاربر، توسط شرکت هایی که خدمات شخصی، از جمله توصیه ها و تبلیغات هدفمند را ارائه میکنند، جمع آوری و استخراج می شوند. حریم خصوصی کاربران زمانی میتواند در خطر قرار گیرد که اطلاعات عمومی در پروفایل های آنها برای استخراج اطلاعاتی که مایل نیستند آشکار شوند استفاده گردد. مطالعات قبلی نشان داده است که ویژگی های خصوصی به راحتی میتوانند بر اساس اطلاعات دیگران که آن ویژگیها را نشان دادهاند، خواه با استفاده از مشخصه گراف اجتماعی مانند اتصالات اجتماعی کاربر هدف (اصل هم رنگی) [8،11،13]، یا مبتنی بر موارد مشترک با دیگر کاربران با استفاده از روش های استنتاج آماری / حداکثر احتمال، استنباط شوند [3]…