چکیده
یک مشکل بزرگ برای هرکاربر ایمیل، ایمیل ناخواسته (اسپم) است. اخیرا، ایمیل های اسپم به گونه ای خاص نوشته و تولید می شود که توسط فیلتر های ضداسپم تشخصی داده نشود، درنتیجه فیلتر ایمیل های اسپم بسیار دشوار شده است. این مقاله، معیارهای کارآیی دسته های خاصی از تکینیک های یادگیری ماشین با نظارت را از جمله، الگوریتم های بیز، الگوریتم های تنبل، الگوریتم های درختی، شبکه های عصبی و ماشین بردارپشتیبانی، برای دسته بندی مجموعه ایمیل های اسپم که توسط پایگاه یادگیری ماشین UCI جمع آوری شده، بررسی و مقایسه می نماییم. هدف این مقاله، درنظر گرفتن محتوی ایمیل ها، یادگیری یک پایگاه محدود در دسترس و طراحی یک مدل دسته بندی است که قادر باشد اسپم بودن ایمیل را پیش بینی نماید.
1-مقدمه
یکی از مشکلات بزرگ برای هر دسته از کاربران ایمیل و اینترنت، دریافت ایمیل اسپم است. شرکت ها و اشخاص از طریق ایمیل، تبلیغاتی از محصولات، اخبار زیان بار نامطلوب و محتوی و پیشنهادات جعلی وغیره ارسال می کنند. این ایمیل های اسپم، کاربران ایمیل را اذیت کرده و وقت باارزش آنها را تلف می کند. برای کاربران غیرجدی و بدون تکنولوژی، از آنجا که این ایمیل ها، آنها را گمراه می کنند، مشکلات بزرگی ایجاد می نمایند. ایمیل های اسپم منجر به مصرف غیرضروی پهنای باند و مسدود کردن سرورهای ایمیل می شود.
بمنظور معرفی مشکل ایمیل اسپم، یک تحقیق قابل توجه درمورد تکنیک های نرم افزاری ضداسپم انجام گرفته و توسط کاربران استفاده می شود. تکنیک های فیلتر اسپم شامل روش های دستی و خودکار هستند. در روش های دستی، لیستی از ارسال کنندگان اسپم، لیستی از ارسال کنندگان واقعی، و لیستی از کلمات انتخاب شده در محتوی ایمیل یا تیتر آن برای درنظرگرفتن در فیلتر اسپم وارد می شود. در سال های اخیر، تکنیک یادگیری ماشین، یک تکنیک بهتر در مقایسه با روش های دستی برای تشخیص و دسته بندی خودکار ایمیل های اسپم استفاده می شود....
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید