Abstract
Automatic text classification in text mining is a critical technique to manage huge collections of documents. However, most existing document classification algorithms are easily affected by ambiguous terms. The ability to disambiguate for a classifier is thus as important as the ability to classify accurately. In this paper, we propose a novel classification framework based on fuzzy formal concept analysis to conceptualize documents into a more abstract form of concepts, and use these as the training examples to alleviate the arbitrary outcomes caused by ambiguous terms. The proposed model is evaluated on a benchmark testbed and two opinion polarity datasets. The experimental results indicate superior performance in all datasets. Applying concept analysis to opinion polarity classification is a leading endeavor in the disambiguation of Web 2.0 contents, and the approach presented in this paper offers significant improvements on current methods. The results of the proposed model reveal its ability to decrease the sensitivity to noise, as well as its adaptability in cross domain applications
چکیده
دسته بندی متن خودکار در متن کاوی روشی مهم برای مدیریت مجموعههای حجیمی از مستندات است. با این وجود، اکثر الگوریتمهای دسته بندی مستند موجود به سادگی تحت تاثیر کلمههای مبهم قرار میگیرند. درنتیجه قابلیت ابهام زدایی یک دسته بند به اندازه قابلیت آن در دسته بندی دقیق اهمیت مییابد. در این مقاله، چارچوب دسته بندی جدیدی براساس تحلیل مفهوم رسمی فازی برای مفهوم سازی مستندات در قالب انتزاعی تری از مفاهیم پیشنهاد میکند و از آنها به عنوان نمونههای آموزشی برای بهبود نتایج به دست آمده از کلمات مبهم استفاده مینماید. مدل پیشنهادی در بستری معتبر و دو پایگاه داده قطب نظر ارزیابی شده است. نتایج آزمایشات کارآیی برتری در همه پایگاهدادهها نشان داده اند. استفاده از تحلیل مفهوم در دسته بندی قطب نظر پژوهش پیشرو در ابهام زدایی محتوی وب 2.0 میباشد و روش ارائه شده در این مقاله روشهای موجود را به طور قابل توجهی بهبود میبخشد. نتایج قابلیت مدل پیشنهادی را در کاهش حساسیت به نویز و تطبیق پذیری آن در کاربردهای بین دامنههای مختلف را نشان میدهد.
1-مقدمه
پیدایش اینترنت نقش بزرگی در تکثیر نمایی میزان متن موجود در پایگاهدادهها ایفا کرده است. به منظور سازمان دهی، مشاهده، بازیابی و انتشار موثرتر چنین دادههایی، روشهای دسته بندی متن خودکار طراحی شده اند تا مستندات را براساس محتوی آنها به مجموعه دستههای از پیش تعریف شده ای تقسیم کنند. یک مجموعه به خوبی دسته بندی شده میتواند فیلتر کردن، جستجو و پیمایش را هم برای کاربران و هم ابزار بازیابی اطلاعات تسهیل بخشد [29]. در حال حاضر، دسته بندی متن در شاخههای متنوعی از جمله خدمات پزشکی، فیلتربندی اسپم، تشخیص موضوع و دسته بندی کتابخانه ای به کار گرفته شده است [21]. مشابه با دیگر روشهای دسته بندی، دسته بند متن با استفاده از یادگیری نظارت شده و ایجاد توابع استنتاجی از مجموعه ای از مستندات آموزشی با دستههای مطلوب توسعه مییابد...