Abstract
Automatic image annotation, structuring of images, content-based information indexing and retrieval are based on the textual data present in those images. Text extraction from images is an extremely difficult and challenging job due to the variations in the text such as text scripts, style, font, size, color, alignment and orientation; and due to extrinsic factors such as low image contrast (textual) and complex background. However, this is realizable with the integration of the proposed algorithms for each phase of text extraction from images using java libraries and classes. Initially, the pre-processing phase involves gray scaling of the image, removal of noise such as superimposed lines, discontinuities and dots present in the image. Thereafter, the segmentation phase involves the localization of the text in the image and segmentation of each character from the entire word. Lastly, using the neural network pattern matching technique, recognition of the processed and segmented characters is done. Experimental results for a set of static images confirm that the proposed method is effective and robust
چکیده
حاشیه نویسی خودکار تصویر، ساختار بندی تصاویر، شاخص گذاری و بازیابی اطلاعات مبتنی بر محتوی، براساس داده های متنی حاضر در این تصاویر می باشند. استخراج متن از تصاویر کار بسیار دشوار و چالش برانگیزی با توجه به تغییرات در متن مانند اسکریپت، سبک، فونت، اندازه، رنگ، چیدمان و جهت گیری متن؛ و با توجه به فاکتورهای بیرونی مانند کنتراست کم تصویر (متنی) و پس زمینه پیچیده می باشد. با این حال، این مورد با ادغام الگوریتم های پیشنهادی برای هر مرحله استخراج متن از تصاویر با استفاده از کلاس ها و کتابخانه های جاوا، قابل درک است. در ابتدا، مرحله پیش پردازش شامل کاهش درجه خاکستری تصویر، حذف نویز و اختلال مانند خطوط مازاد بر احتیاج، ناپیوستگی و نقاط موجود در تصویر می باشد. پس از آن، مرحله قطعه بندی شامل محلی سازی متن در تصویر و قطعه بندی هر کاراکتر از کل کلمه می باشد. در نهایت، با استفاده از تکنیک تطبیق الگوی شبکه عصبی، شناسایی کاراکترهای قطعه بندی شده و پردازش شده، انجام می شود. نتایج تجربی برای مجموعه ای از تصاویر تأیید می کنند که روش پیشنهادی مؤثر و قوی می باشد.
-1مقدمه
امروزه، کتابخانه های اطلاعاتی که در اصل شامل متن خالص می باشند به طور فزاینده ای توسط اجزای چند رسانه ای مانند تصاویر، فیلم ها و کلیپ های صوتی در حال غنی شدن می باشند. همه آنها نیاز به ابزاری خودکار به شکلی مؤثر در شاخص گذاری و بازیابی اجزای چند رسانه ای دارند. اگر ظهور متن در تصاویر را بتوان به طور خودکار آشکارسازی، قطعه بندی و شناسایی کرد، یک منبع ارزشمند معناشناسی سطح بالا خواهد شد. به عنوان مثال، در پروژه Informedia در دانشگاه کارنگی ملون، ظهور متن در تصاویر و فیلم ها یکی از منابع مهم اطلاعاتی برای ارائه جستجوی های تمام محتوا و کشف کتابخانه دیجیتال ترابایتی اخبار رادیو و تلویزیون و مستنداتشان می باشد [1]. بنابراین، حاشیه نویسی مبتنی بر محتوای تصویر، ساخت و شاخص گذاری تصاویر از اهمیت و توجه زیادی در جهان امروز برخوردار است.
حضور متن در تصاویر را می توان به صورت زیر طبقه بندی کرد: متن ساختگی (همچنین با نام متن عنوان و یا متن فرا نهاده هم در نظر گرفته می شود) و متن صحنه و نمایش (همچنین به عنوان متن گرافیکی نامیده می شود). متن ساختگی بر روی تصویر در مرحله بعدی (به عنوان مثال، ظاهر شدن سرخط خبرها در تلویزیون، و غیره) به صورت ساختگی پوشانده می شود، در حالی که، متن صحنه و نمایش به طور طبیعی در تصویر وجود دارد (به عنوان مثال نام پیراهن ورزشی یک بازیکن در طول یک مسابقه کریکت، و غیره ) [2]. متن نمایشی، با توجه به تراز دلخواه اریبی و یا متفاوت از متن، نور، پس زمینه و اعوجاج پیچیده، برای استخراج مشکل تر می باشد. این مقاله در متن ساختگی و استخراجش از تصاویر تمرکز دارد…