Abstract
The rapid growth of online information services has created the problem of information explosion. Automatic text summarization techniques are essential for dealing with this problem. The process of compacting a source document to reduce its complexity and length while retaining its most important contents is called text summarization. This paper introduces Parsumist-a text summarization system for Persian documents. It exploits a combination of statistical, semantic and heuristic-improved methods. It can generate generic or topic/query-driven extracts summaries for single-or multiple Persian documents. In this paper, we first review the related work in this field, especially for Persian text summarization. We then present the architecture of Parsumist, its components and features. The last section evaluates the system and compares it to other systems that exist
چکیده
رشد سریع سرویس های اطلاعاتی آنلاین منجر به ایجاد مسائلی ناشی از انفجار اطلاعاتی گردیده است. تکنیک های خلاصه سازی متن به صورت خودکار را میتوان تکنیک هایی ضروری برای حل این مسئله دانست. پروسه ی فشرده سازی یک سند منبع در جهت کاهش پیچیدگی و طول آن و در عین حال حفظ و نگهداری مهم ترین محتوای آنرا خلاصه سازی متن مینامند. این مقاله به معرفی سیستم Parsumit که یک سیستم خلاصه سازی برای اسناد فارسی است میپردازد. این سیستم از ترکیبی از روش های استاتیکی، معنایی و هیستوریک استفاده میکند. این روش میتواند خلاصه هایی جنریک و یا مبتنی بر موضوع/پرس و جو را برای اسناد تکی یا چندگانه ی فارسی ایجاد نماید. در این مقاله قصد داریم در ابتدا به بازیابی فعالیت های صورت گرفته در این خصوص و مخصوصا خلاصه سازی متن فارسی بپردازیم. در ادامه، معماری سیستم Parsumit را به همراه مؤلفه ها و ویژگی های آن ارائه میدهیم. در بخش آخر نیز این سیستم را مورد ارزیابی قرار داده و آنرا با سایر سیستم های موجود مقایسه میکنیم.
1-مقدمه
امروزه ما شاهد حجم زیادی از اطلاعات متنی بر روی وب هستیم. از این رو کاربران نمیتوانند در این مخزن عظیمی از اطلاعات به آسانی نیازمندی های اطلاعاتی خود را بدست آورند. بنابراین یک سیستم خلاصه سازی میتواند مفید باشد، به طوری که به کاربران اجازه داده تا 1. منابعی که به آنها نیاز دارند را سریعا پیدا کرده و 2. به مهم ترین بخش های یک متن دسترسی پیدا کنند...