Abstract
Parameter optimization and feature selection influence the classification accuracy of support vector machine (SVM) significantly. In order to improve classi- fication accuracy of SVM, this paper hybridizes chaotic search and gravitational search algorithm (GSA) with SVM and presents a new chaos embedded GSA-SVM (CGSASVM) hybrid system. In this system, input feature subsets and the SVM parameters are optimized simultaneously, while GSA is used to optimize the parameters of SVM and chaotic search is embedded in the searching iterations of GSA to optimize the feature subsets. Fourteen UCI datasets are employed to calculate the classification accuracy rate in order to evaluate the developed CGSA-SVM approach. The developed approach is compared with grid search and some other hybrid systems such as GA-SVM, PSO-SVM and GSA-SVM. The results show that the proposed approach achieves high classification accuracy and effi- ciency compared with well-known similar classifier systems
چکیده
مسئله ی بهینه سازی پارامتر و انتخاب ویژگی میتواند در سطح زیادی بر روی میزان صحت دسته بندی در ماشین بردار پشتیبانی (SVM) تأثیر داشته باشد. به منظور بهبود میزان صحت دسته بندی در SVM، در این مقاله قصد داریم الگوریتم جستجوی گرانشی(GSA) و جسنجوی آشفته را با SVM ترکیب نموده و یک الگوریتم ترکیبی GSA-SVM که با روش جستجوی هرج و مرج ادغام شده است را ارائه دهیم. در این سیستم، زیر مجموعه های ویژگی ورودی و پارامتر های SVM به صورت همزمان بهینه شده، در حالی که از GSA به منظور بهینه سازی پارامتر های SVM استفاده شده و جستجوی آشفته یا هرج و مرج نیز در تکرار های جستجو از GSA ادغام شده تا بتواند زیر مجموعه های ویژگی را بهینه سازد. چهارده مجموعه داده ای UCI به منظور محاسبه ی نرخ میزان صحت دسته بندی بکار گرفته شده اند تا بتوان روش CGSA-SVM توسعه یافته را مورد ارزیابی قرار داد. روش توسعه یافته، با جستجوی گرید و سایر سیستم های ترکیبی دیگری مانند GA-SVM، PSO-SVM و GSA-SVM مقایسه گردید. نتایج بدست آمده نشان میدهد که روش پیشنهادی میتواند به میزان صحت بالایی در دسته بندی و کارآمدی بالایی در مقایسه با سیستم های دسته بند مشابه دست پیدا کند.
1-مقدمه
ماشین های بردار پشتیبانی(SVM) در ابتدا توسط واپنیک[1] پیشنهاد شد که اخیراٌ در یک سری از مسائلی مانند تشخیص الگور، بیوانفورماتیک، دسته بندی متن و تشخیص خطا بکار گرفته میشد[2-6]. SVM اقدام به دسته بندی داده هایی با برچسب های کلاس مختلف مینماید بدین صورت که مجموعه ای از بردار های پشتیبانی را که شامل اعضای مجموعه ای از ورودی های آموزشی هستند تعیین کرده و یک فراصفحه ای را در فضای ویژگی ایجاد میکند[7]...
دو مسئله ی عمده ای در زمان استفاده از SVM برای دسته بندی وجود دارد: چگونگی مشخص کردن پارامتر های بهینه برای SVM و چگونگی امتخاب زیر مجموعه ای از ویژگی بهینه از مجموعه داده ای هدف. چگونگی مشخص کردن پارامتر ها، دارای تأثیر مستقیمی بر روی میزان صحت دسته بندی میباشد. پارامتر هایی که باید بهینه شوند، شامل پارامتر جریمه C و پارامتر های تابع هسته مانند گاما برای هسته ی توابع مبنای ریشه ای (RBF) میباشد[8-9]. برای تعیین پارامتر، معمولاٌ از جستجوی گرید استفاده میشود. پروسه ی جستجو، از پارامتر های متغیری تشکیل شده که دارای اندازه مرحله ی ثابتی بود و سپس میتواند کارائی هر نوع ترکیب را مورد ارزیابی قرار دهد. به دلیل پیچیدگی محاسباتی، جستجوی گرید فقط در زمانی برای بهینه سازی مناسب است که تعداد پارامتر ها کم باشد[10]. با توسعه ی متد های بهینه سازی هیروستیک، تکنیک های بنیه سازی خاصی مانند الگوریتم ژنتیک(GA)، بهینه سازی ازدحام ذرات(PSO)، التهاب شبیه سازی شده(SA)[11] و CMA-ES[10] در مسئله ی بهینه سازی پارامتر برای SVM بکار گرفته شده اند…