Abstract
Document image binarization is an important preprocessing technique for document image analysis that segments the text from the document image backgrounds. Many techniques have been proposed and successfully applied in different applications, such as document image retrieval. However, these techniques may perform poorly on degraded document images. In this paper, we propose a learning framework that makes use of the Markov Random Field to improve the performance of the existing document image binarization methods for those degraded document images. Extensive experiments on the recent Document Image Bina-rization Contest datasets demonstrate that significant improvements of the existing binarization methods when applying our proposed framework
چکیده
دودویی سازی تصویر اسنادی یک تکنیک پیش پردازش مهم برای آنالیز کردن تصویر اسنادی که متن را از پیش زمینه تصویر اسنادی جدا میکند. تکنیک های زیادی پیشنهاد شده اند و بطور موفقیت آمیز در کاربردهای مختلف اعمال شده اند ، بعنوان نمونه بازیابی تصویر اسنادی. هرچند ، این تکنیک ها ممکن است روی تصاویر اسنادی معیوب شده بطور ضعیف عمل کنند. در این مقاله ، ما یک چارچوب یادگیری را پیشنهاد میکنیم که از میدان های تصادفی مارکوف برای بهبود دادن کارایی متدهای دودویی سازی تصویر اسنادی موجود برای تصاویر اسنادی معیوب استفاده میکند. آزمایشات گسترده روی دودویی سازی تصویر اسنادی اخیر مجموعه داده ها را مورد مباحثه و جدل قرار داد و پیشرفت های قابل توجه متدهای دودویی سازی موجود را نشان داد ، زمانیکه چارچوب کاری که پیشنهاد داده ایم را اعمال میکنیم.