Abstract
Social networks such as Facebook, LinkedIn, and Twitter have been a crucial source of information for a wide spectrum of users. In Twitter, popular information that is deemed important by the com-munity propagates through the network. Studying the character-istics of content in the messages becomes important for a number of tasks, such as breaking news detection, personalized message recommendation, friends recommendation, sentiment analysis and others. While many researchers wish to use standard text mining tools to understand messages on Twitter, the restricted length of those messages prevents them from being employed to their full potential. We address the problem of using standard topic models in micro-blogging environments by studying how the models can be trained on the dataset. We propose several schemes to train a standard topic model and compare their quality and effectiveness through a set of carefully designed experiments from both qualitative and quantitative perspectives. We show that by training a topic model on aggregated messages we can obtain a higher quality of learned model which results in significantly better performance in two real-world classification problems. We also discuss how the state-of-the-art Author-Topic model fails to model hierarchical relationships between entities in Social Media
چکیده
شبکه های اجتماعی مانند فیسبوک، LinkedIn، توییتر برای طیف گسترده ای از کاربران به منبع بسیار مهم اطلاعات تبدیل شده اند. در توییتر، اطلاعات عمومی که توسط جامعه مهم تلقی می شوند از طریق شبکه انتقال می یابند. مطالعه ی مشخصات محتوا در پیام برای تعدادی از وظایف بسیار اهمیت دارد مانند شکستن تشخیص اخبار، توصیه ی پیام شخصی، توصیه ی دوستان و تحلیل احساسات و سایر. در حالیکه بسیاری از محققان مایل هستند برای درک پیام های توییتر از ابزارهای استاندارد متن کاوی استفاده کنند، طول محدود این پیام ها مانع از این می شود که بتوان از تمام پتانسیل آنها استفاده کرد. ما با استفاده از مدل های عنوان استاندارد در محیط های میکرولاکینگ و با مطالعه ی نحوه ی آموزش مدل ها در مجموعه داده به مسئله ی مدل های عنوان استاندارد می پردازیم. ما چندین طرح پیشنهاد می کنیم تا مدل عنوان استاندارد را آموزش داده و کیفیت و اثربخشی آنها را از طریق یک مجموعه آزمایش ها با دقت طراحی شده از دیدگاه کمی و کیفی مقایسه کنیم. ما نشان می دهیم که از طریق آموزش یک مدل عنوان روی پیام های جمع آوری شده می توانیم به کیفیت بالایی از مدل های یادگرفته شده دست یابیم که به کارایی بهتر دو مسئله ی طبقه بندی شده ی دنیای واقعی منجر می شوند. همچنین این موضوع را مورد بحث قرار می دهیم که مدل های author-Topicجدید نمی توانند روابط سلسله مراتبی مدل بین اشخاص در رسانه های اجتماعی را توضیح دهند.
1-مقدمه
در سال های اخیر، شبکه های اجتماعی مانند فیسبوک، مای اسپیس و توییتربه ابزارهای مهم ارتباطی برای مردم سراسر دنیا تبدیل شده اند. این وب سایت ها به طور فزاینده ای برای برقراری ارتباط اخبارها، شاهدات عینی و سازماندهی گروه بزرگی از مردم به کار می روند. کاربران این سایت ها به دریافت به روز رسانی های رویدادهای مهم هم از نظر ارزش شخصی و هم جهانی عادت کرده اند...