چکیده
ما در این مقاله دو رویکرد برای خلاصه سازی تِرِدهای ایمیل مطرح می کنیم: روش خلاصه سازی تجمعی پیام (CMS) که در آن از رویکرد خلاصه سازی چند-سندی استفاده می شود، و روش خلاصه سازی انفرادی پیام (IMS) که در آن به مسئله خلاصه سازی ترد ایمیل به صورت دنباله ای از عملیات های خلاصه سازی تک-سندی نگریسته می شود. در چارچوب کلی پیشنهاد شده که مبتنی بر فشرده سازی جمله می باشد، هر دو رویکرد پیاده سازی می شوند. ما بجای استفاده از یک رویکرد منحصرا استخراجی، از روش های زبانی و آماری برای تولید چندین فشرده سازی استفاده کرده و سپس از جملات فشرده سازی شده کاندید، مواردی را برای تولید خلاصه نهایی انتخاب می کنیم. ما این ایده ها را بر روی مجموعه داده Enron مورد ارزیابی قرار می دهیم. مجموعه داده Enron به خاطر داشتن زبان تکنیکی بالا، حاوی متون چالش برانگیزی می باشد. نتایج بدست آمده از آزمایشات دو یافته کلی را نشان می دهند: ۱) CMS رویکرد بهتری برای خلاصه سازی تردهای ایمیل است، و ۲) روش های کنونی فشرده سازی جمله قادر به بهبود کارایی خلاصه سازی در این زمینه نمی باشند.
1-مقدمه
در طول چند دهه گذشته، ایمیل به یک واسط ارتباطی محبوب برای بسیاری از افراد و سازمان ها تبدیل شده است. از آنجایی که بخش رو به رشدی از زندگی روزمره ما تحت تاثیر تبادلات ایمیلی قرار گرفته است، پدیده ی بیش از اندازه شلوغ شدن صندوق ورودی (ایمیل) به مشکل بسیار جدی بدل شده است. علاوه بر این، آرشیوهای بسیار بزرگ ایمیل حاوی دانش های ارزشمندی هستند که گاهی اوقات در جاهای دیگر قابل دسترسی نیستند....
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید