Abstract
Opinion mining deals with an analysis of user reviews for extracting their opinions, sentiments and demands in a specific area, which can play an important role in making major decisions in such area. In general, opinion mining extracts user reviews at three levels of document, sentence and feature. Opinion mining at the feature level is taken into consideration more than the other two levels due to orientation analysis of different aspects of an area. In this paper, two methods are introduced for feature extraction. The recommended methods consist of four main stages. At the first stage, opinion-mining lexicon for Persian is created. This lexicon is used to determine the orientation of users’ reviews. The second one is the preprocessing stage including unification of writing, tokenization, creating parts-of-speech tagging and syntactic dependency parsing for documents. The third stage involves the extraction of features using two methods including frequency-based feature extraction and association rule based feature extraction. In the fourth stage, the features and polarities of the word reviews extracted in the previous stage are modified and the final features' polarity is determined. To assess the suggested techniques, a set of user reviews in both scopes of university and cell phone areas were collected and the results of the two methods were compared
چکیده
اندیشه کاوی به تحلیل اظهارنظرات کاربران جهت استخراج نظرات، احساسات و خواسته های کاربران در یک حوزه ی خاص میپردازد. دانستن نظرات افراد در یک حوزه ی خاص میتواند نقش مهمی در تصمیمگیریهای کلان آن حوزه ایفا کند. بهطورکلی اندیشه کاوی در سه سطح سند، جمله و ویژگی به استخراج نظرات کاربران میپردازد. اندیشه کاوی در سطح ویژگی به دلیل تحلیل جهت گیری جنبه های مختلف یک حوزه از دو سطح دیگر بیشتر موردتوجه قرار دارد. در این مقاله دو روش بهمنظور استخراج ویژگیها ارائه شده است. روش پیشنهادی شامل چهار گام اصلی است. در گام نخست لغتنامهی اندیشه کاوی برای زبان فارسی ایجاد میشود. این لغتنامه بهمنظور تعیین جهت گیری نظرات کاربران مورد استفاده قرار میگیرد. گام دوم مرحله پیش پردازش شامل یکسان سازی نگارشی، تقطیع، ایجاد برچسب های ادات سخن و برچسب وابستگی نحوی اسناد است. گام سوم استخراج ویژگیها با استفاده از دو روش استخراج ویژگی بر مبنای تکرار و استخراج ویژگی بر اساس قوانین وابستگی است و در گام چهارم ویژگیها و قطبیت کلمات حاوی نظر استخراجشده در مرحله ی قبلی اصلاحشده و درنهایت قطبیت ویژگیها تعیین میگردد. برای ارزیابی روشهای پیشنهادی، مجموعه عقاید کاربران در دو حوزه دانشگاه و تلفن همراه جمعآوریشده و نتایج حاصل از دو روش با یکدیگر مقایسه میشوند.