Abstract
OLAP cubes enable aggregation-centric analysis of transactional data by shaping data records into measurable facts with dimensional characteristics. A multidimensional view is obtained from the available data fields and explicit relationships between them. This classical modeling approach is not feasible for scenarios dealing with semi-structured or poorly structured data. We propose to the data warehouse design methodology with a content-driven discovery of measures and dimensions in the original dataset. Our approach is based on introducing a data enrichment layer responsible for detecting new structural elements in the data using data mining and other techniques. Discovered elements can be of type measure, dimension, or hierarchy level and may represent static or even dynamic properties of the data. This paper focuses on the challenge of generating, maintaining, and querying discovered elements in OLAP cubes. We demonstrate the power of our approach by providing OLAP to the public stream of user-generated content on the Twitter platform. We have been able to enrich the original set with dynamic characteristics, such as user activity, popularity, messaging behavior, as well as to classify messages by topic, impact, origin, method of generation, etc. Knowledge discovery techniques coupled with human expertise enable structural enrichment of the original data beyond the scope of the existing methods for obtaining multidimensional models from relational or semi-structured data
چکیده
مکعب های OLAP تحلیل متمرکز یکپارچگی داده ی تراکنشی را با تبدیل داده های ثبت شده به واقعیت های قابل اندازه گیری با ویژگی های ابعادی ممکن می کنند. یک دیدگاه چند بعدی از فیلدهای داده ی موجود و روابط صریح بین آن ها به دست می آید. این رویه ی مدل سازی کلاسیک برای سناریو های درگیر با داده های نیمه ساخت یافته و یا با ساختار ضعیف ممکن نیست. ما روش شناسی طراحی انبار داده با کشف مبتنی بر محتوای اندازه ها و ابعاد در مجموعه داده ی جدید را پیشنهاد می دهیم. رویه ی ما بر مبنای معرفی یک لایهی غنی سازی داده ی مسئول برای کشف المان های ساختاری در داده با استفاده از داده کاوی و دیگر تکنیک ها می باشد. المان های کشف شده می توانند از نوع اندازه، بعد و یا سطح سلسله مراتب بوده و یا اینکه ویژگی های ایستا و پویای داده را به نمایش بگذارند. این مقاله به چالش تولید، نگهداری و پرس و جوی المان های کشف شده در مکعب های OLAP تمرکز نموده است. ما توانایی رویه مان را با فراهم آوردن OLAP برای جریان محتوای تولیدی کاربر روی پلت فرم توییتر اثبات می کنیم. توانستیم مجموعه ی اصلی را با ویژگی های پویا، همانند فعالیت کاربر، محبوبیت، رفتار پیام دهی، همانند طبقه بندی پیام ها بر اساس موضوع، تاثیر، منشا، روش تولید و ... غنی کنیم. تکنیک های کشف دانش همراه با تخصص انسانی غنی سازی ساختاری داده ی اصلی را ورای روش های موجود برای به دست آوردن مدل های چند بعدی از داده های نیمهساخت یافته یا رابطه ای امکان پذیر می کند.
1-مقدمه
انفجار فعالیت شبکه های اجتماعی در سال های اخیر منجر به تولید حجم بسیار زیاد داده های مربوط به کاربران، مانند به هنگام سازی های وضعیت، پیام رسانی، پست های وبلاگ و ورودیه ها به انجمن، توصیه نامه ها، درخواست های اتصال و پیشنهادات شده و باعث متولد شدن حوزه های آنالیز جدیدی از قبیل تحلیل رسانه های اجتماعی و تحلیل شبکه ی اجتماعی شده است. این پدیده می تواند به عنوان بخشی از چالش "داده ی بزرگ" دیده شود که از پس جریان فزاینده ی داده ی دیجیتال از چندین منبع از قبیل تلفن های همراه، اینترنت، فیلم ها، پست های الکترونیکی و ارتباطات شبکه ی اجتماعی برآیند...