Abstract
This paper presents a probabilistic model for sense disambiguation which chooses the best sense based on the conditional probability of sense paraphrases given a context. We use a topic model to decompose this conditional probability into two conditional probabilities with latent variables. We propose three different instantiations of the model for solving sense disambiguation problems with different degrees of resource availability. The proposed models are tested on three different tasks: coarse-grained word sense disambiguation, fine-grained word sense disambiguation, and detection of literal vs. non-literal usages of potentially idiomatic expressions. In all three cases, we outperform state-of-the-art systems either quantitatively or statistically significantly
چکیده
این مقاله یک مدل احتمالاتی برای ابهام زدایی از مفهوم ارائه می کند که بهترین مفهوم را براساس احتمال شرطیِ تعابیر و الفاظ معنایی موجود در بافت متن انتخاب می کند. ما از یک مدل عنوانی جهت تجزیه این احتمال شرطی به دو احتمال شرطی با متغیرهای پنهان استفاده می کنیم. سه نمونه مختلف از مدل را برای حل مسائل ابهام زدایی مفهوم با درجات مختلف منابع موجود مطرح می کنیم. مدل های ارائه شده، نسبت به انجام سه کار مختلف سنجیده شده اند: ابهام زدایی مفهوم کلمه با ساختار بزرگ (دانه درشت)، ابهام زدایی مفهوم کلمه ریز دانه (ریز ساختار)، و تشخیص استفاده ازعبارات تحت اللفظی و کنایه ای. در تمامی این سه مورد، بطور برجسته از جدید ترین سیستم ها چه از لحاظ آماری یا چه از لحاظ کمی بهره می گیریم.
1-مقدمه
ابهام زدایی مفهومِ کلمه (WSD) عبارتست از تعیین خودکارِ مفهوم برای یک کلمه مورد نظر در یک متن معین که در آن ظاهر می شود. WSD یک مسئله مهم در NLP و یک مرحله پیش پردازش برای بسیاری از موارد کاربردی، ازجمله ترجمه ماشینی، پرسش و پاسخ استخراج اطلاعات می باشد. هرچند، WSD کاری دشوار است و علیرغمِ این که در طی این سال ها مورد توجه بسیاری از پژوهش ها بوده، جدیدترین و پیشرفته ترین سیستم ها هنوز هم اغلب اوقات برای کابردهای جهان واقعی مناسب و مطلوب نیستند. یک عامل اصلی که انجام WSD را سخت می گرداند، فقدان نسبیِ مجموعه هایی است که بطور دستی شرح و تفسیر داده شده اند که این عملکرد سیستم های تحت نظارت را مختل می کند...