Skip Navigation Linksلیست مقالات ترجمه شده / خرید و دانلود
1,281,500

پیش از اقدام به خرید ترجمه فارسی می توایند نسخه انگلیسی را به صورت رایگان دانلود و بررسی نمایید. متن چکیده و ترجمه آن در پایین همین صفحه قابل مشاهده است.
دانلود رایگان مقاله انگلیسی
موسسه ترجمه البرز اقدام به ترجمه مقاله " مهندسی فناوری اطلاعات " با موضوع " یک مدل موضوعی Biterm برای متون کوتاه " نموده است که شما کاربر عزیز می توانید پس از دانلود رایگان مقاله انگلیسی و مطالعه ترجمه چکیده و بخشی از مقدمه مقاله، ترجمه کامل مقاله را خریداری نمایید.
عنوان ترجمه فارسی
یک مدل موضوعی Biterm برای متون کوتاه
نویسنده/ناشر/نام مجله :
Proceedings of the 22nd international conference on World Wide Web
سال انتشار
2013
کد محصول
1009120
تعداد صفحات انگليسی
11
تعداد صفحات فارسی
29
قیمت بر حسب ریال
1,281,500
نوع فایل های ضمیمه
Pdf+Word
حجم فایل
1 مگا بایت
تصویر پیش فرض



Abstract

Uncovering the topics within short texts, such as tweets and instant messages, has become an important task for many content analysis applications. However, directly applying conventional topic models (e.g. LDA and PLSA) on such short texts may not work well. The fundamental reason lies in that conventional topic models implicitly capture the document-level word co-occurrence patterns to reveal topics, and thus suffer from the severe data sparsity in short documents. In this paper, we propose a novel way for modeling topics in short texts, referred as biterm topic model (BTM). Specifically, in BTM we learn the topics by directly modeling the generation of word co-occurrence patterns (i.e. biterms) in the whole corpus. The major advantages of BTM are that 1) BTM explicitly models the word co-occurrence patterns to enhance the topic learning; and 2) BTM uses the aggregated patterns in the whole corpus for learning topics to solve the problem of sparse word co-occurrence patterns at document-level. We carry out extensive experiments on real-world short text collections. The results demonstrate that our approach can discover more prominent and coherent topics, and significantly outperform baseline methods on several evaluation metrics. Furthermore, we find that BTM can outperform LDA even on normal texts, showing the potential generality and wider usage of the new topic model

چکیده

کشف موضوعات در متن های کوتاه، مانند توییت ها و پیام های فوری، برای بسیاری از برنامه های کاربردی تحلیل محتوا به وظیفه مهمی تبدیل شده است. به هر حال، اعمال مستقیم مدل‌ های موضوعی معمولی (برای مثال LDA و PLSA) ممکن است خیلی خوب کار نکند. دلیل اصلی این است که مدل‌ های موضوعی معمولی به صورت ضمنی الگوهای هم رخدادی کلمه را در سطح سند، برای نشان دادن موضوع اتخاذ می کنند، و بنابراین از پراکندگی شدید داده در سند کوتاه رنج می برند. در این مقاله، راه جدیدی را برای مدلسازی موضوعی در متن های کوتاه پیشنهاد می کنیم، که به آن مدل موضوعی Biterm (BTM) می گوییم. به صورت ویژه، در BTM با مدلسازی مستقیم تولید الگو هم رخدادی کلمه (برای مثال، Biterm) در کل مجموعه، موضوعات را یاد می‌گیریم. مزیت اصلی BTM است که 1) BTM به صورت صریح الگوی هم رخدادی کلمات را برای ارتقای یادگیری موضوع مدل می کند، و 2) BTM از الگوی تجمعی در کل مجموعه برای یادگیری موضوعات برای حل مسئله الگوی هم رخدادی کلمات پراکنده در سطح سند استفاده می کند. ما آزمایشات گسترده ای را بر روی مجموعه متن های کوتاه جهان واقعی انجام دادیم. نتایج تشریح می کنند که رویکرد ما می تواند موضوعات برجسته تر و منسجم تری را کشف کند، و به طور قابل توجهی از روش‌ های مبنا در چندین متریک ارزیابی بهتر اجرا می شود. علاوه بر این، دریافتیم که BTM می تواند حتی در متن های معمولی بهتر از LDA اجرا شود، که نشان دهنده عمومیت بالقوه و استفاده گسترده تر از مدل موضوعی جدید است.

1-مقدمه

متن های کوتاه در وب، هم در وب سایت‌ های سنتی، برای مثال عناوین صفحه وب، آگهی‌ های متنی، یک عنوان تصویر، هم در رسانه اجتماعی در حال ظهور، برای مثال توییت ها، پیام های استاتوس (status)، و سوالات وب سایت Q&A، شایع هستند. کشف موضوعات در متن های کوتاه برای طیف وسیعی از وظایف تحلیل محتوا، مانند تعیین مشخصات محتوا [26,35,14]، پروفایل سازی علایق کاربر [32]، و تشخیص موضوعات در حال ظهور [20] و غیره، حیاتی است...



این مقاله ترجمه شده مهندسی فناوری اطلاعات در زمینه کلمات کلیدی زیر است:




Short Text
Topic Model
Biterm

ثبت سفارش جدید