Abstract
Content-based image retrieval (CBIR) with global features is notoriously noisy, especially for image queries with low percentages of relevant images in a collection. Moreover, CBIR typically ranks the whole collection, which is inefficient for large databases. We experiment with a method for image retrieval from multimedia databases, which improves both the effectiveness and efficiency of traditional CBIR by exploring secondary media. We perform retrieval in a two-stage fashion: first rank by a secondary medium, and then perform CBIR only on the top-K items. Thus, effectiveness is improved by performing CBIR on a ‘better’ subset. Using a relatively ‘cheap’ first stage, efficiency is also improved via the fewer CBIR operations performed. Our main novelty is that K is dynamic, i.e. estimated per query to optimize a predefined effectiveness measure. We show that our dynamic two-stage method can be significantly more effective and robust than similar setups with static thresholds previously proposed. In additional experiments using local feature derivatives in the visual stage instead of global, such as the emerging visual codebook approach, we find that two-stage does not work very well. We attribute the weaker performance of the visual codebook to the enhanced visual diversity produced by the textual stage which diminishes codebook’s advantage over global features. Furthermore, we compare dynamic two-stage retrieval to traditional score-based fusion of results retrieved visually and textually. We find that fusion is also significantly more effective than single-medium baselines. Although, there is no clear winner between two-stage and fusion, the methods exhibit different robustness features; nevertheless, two-stage retrieval provides efficiency benefits over fusion
چکیده
بازیابی تصاویر محتوامحور (CBIR) با ویژگی های سراسری، به خصوص برای جستار تصاویر با درصدهای کمی از تصاویر مرتبط در یک مجموعه، به شدت نویزی است. علاوه بر این، CBIR معمولا کل مجموعه را رتبه بندی می کند، که برای پایگاه های داده بزرگ، ناکارآمد است. ما با یک روش برای بازیابی تصویر از پایگاه داده های چند رسانه ای آزمایش انجام می دهیم، که با پیگردی رسانه ی ثانویه باعث بهبود اثر بخشی و راندمان CBIR مرسوم می شود. ما بازیابی را در مد دو مرحله ای انجام می دهیم: ابتدا، رتبه دهی توسط یک رسانه ثانویه، و سپس انجام CBIR تنها بر روی آیتم هایی با K بالا. بنابراین، کارآیی، با اجرای CBIR بر روی یک زیر مجموعه ی «بهتر» بهبود می یابد. با استفاده از یک مرحله ی اول نسبتا 'ارزان'، راندمان نیز از طریق انجام عملیات CBIR کمتر، بهبود می یابد. نوظهوری اصلی ما این است که K دینامیک است، یعنی در هر جستار، برآورد می شود تا یک مقیاس کارآیی از پیش تعریف شده را بهینه کند. نشان می دهیم که روش دو مرحله ای دینامیک ما نسبت به تنظیمات مشابه با آستانه های استاتیک که قبلا ارائه شده است، می تواند به طور قابل توجهی موثرتر و مستحکم تر باشد. در آزمایشات اضافی با استفاده از مشتقات محلی ویژگی ها در مرحله بصری به جای سراسری، مانند رویکرد بصری در حال ظهور کتاب رمز، به این نتیجه می رسیم که دو مرحله ای به خوبی کار نمی کند. ما عملکرد ضعیف تر کتاب رمز بصری را به تنوع بصری پیشرفته ی تولید شده توسط مرحله متنی نسبت می دهیم که از مزیت کتاب رمز بر ویژگی های سراسری می کاهد. علاوه بر این، ما بازیابی دو مرحله ای دینامیک را با ادغام مرسوم مبتنی بر نمره ی نتایج که بصورت بصری و متنی بازیابی شده اند، مقایسه می کنیم. ما در می یابیم که ادغام، به طور قابل توجهی موثرتر از خطوط مبنای تک رسانه ها است. اگر چه، هیچ برنده ی آشکاری بین روش دو مرحله ای و ادغام وجود ندارد، روش ها دارای ویژگی های استحکام مختلفی هستند. با این حال، بازیابی دو مرحله ای، مزایای بهره وری نسبت به روش ادغام (فیوژن) فراهم می آورد.
1-مقدمه
در بازیابی محتوامحور تصاویر (CBIR)، تصاویر توسط ویژگی های سراسری و یا محلی ارائه می شوند. ویژگی های سراسری قادر به تعمیم کل یک تصویر با یک بردار واحد هستند، که رنگ، بافت، و یا شکل را توصیف می کند. ویژگی های محلی در نقاط متعدد بر روی یک تصویر محاسبه می شوند و قادر به تشخیص اشیاء می باشند...