Abstract
In this digital era most of the information is made available in digital form. For many years, people have held the hypothesis that using phrases for a representation of document and topic should perform better than terms. In this paper we are examine and investigate this fact with considering several state of art datamining methods that gives satisfactory results to improve the effectiveness of the pattern. Here we implementing pattern detection method to solve problem of term-based methods and improved result which helpful in information retrieval systems. Our proposal is also evaluated for several well distinguish domain, offering in all cases, reliable taxonomies considering precision and recall along with F-measure. For the experiment, we use Reuters (RCV1) dataset and the results show that we improve the discovering pattern as compared to previous text mining methods. The results of the experiment setup show that the keyword-based methods not give better performance than pattern-based method. The results also indicate that removal of meaningless patterns not only reduces the cost of computation but also improves the effectiveness of the system
چکیده
در عصر دیجیتال، بسیاری از اطلاعات به صورت دیجیتال در دسترس هستند. برای سال های زیادی، مردم این فرضیه را داشتند که استفاده از عبارات برای ارائه سند و موضوع باید بهتر از اصطلاحات انجام دهد. در این مقاله این واقعیت با در نظر گرفتن چندین روش آغازگر داده کاوی بررسی و تحقیق می شود که نتایج رضایت بخشی برای بهبود اثربخشی الگو ارائه می کند. روش تشخیص الگو برای حل مسئله روش های مبتنی بر اصطلاح پیاده سازی می شود و نتایج بهبود یافته در سیستم های بازیابی اطلاعات مفید می باشند. پیشنهاد ما برای چندین دامنه تشخیص خوب، ارائه شده در تمام موارد، طبقه بندی قابل اعتماد با در نظر گرفتن مانعیت و جامعیت همراه با اندازهگیری F ارزیابی شده است. برای آزمایش، از مجموعه داده رویترز (RCV1) استفاده می کنیم و نتایج نشان می دهد که الگوی کشف نسبت به روش های متن کاوی قبلی بهبود یافته است. نتایج راه اندازی آزمایش نشان می دهد که روش های مبتنی بر کلمه کلیدی عملکرد بهتری نسبت به روش مبتنی بر الگو ارائه نمی دهد. همچنین نتایج نشان می دهند که حذف الگوهای بی معنی نه تنها هزینه محاسبات را کاهش می دهد بلکه اثربخشی سیستم را بهبود می بخشد.
1-مقدمه
مشاهده می کنیم که بسیاری از تکنیک های داده کاوی برای انجام کارهای دانش متفاوتی استفاده شدهاند، چرا که 85٪ از اطلاعات کسب و کار در قالب متن [2] هستند. متن کاوی تغییری در زمینه داده کاوی است [2] که تلاش می کند الگوهای جالبی پایگاه داده های بزرگ پیدا کند. متن کاوی، که به عنوان تحلیل هوشمند متن، داده کاوی متن یا کشف دانش در متن (KDT) شناخته شده است، به طور کلی اشاره به فرآیند استخراج اطلاعات جالب و غیر بدیهی و دانش از متن بدون ساختار دارد...