Abstract
Extended Boolean retrieval (EBR) models were proposed nearly three decades ago, but have had little practical impact, despite their significant advantages compared to either ranked keyword or pure Boolean retrieval. In particular, EBR models produce meaningful rankings; their query model allows the representation of complex concepts in an and-or format; and they are scrutable, in that the score assigned to a document depends solely on the content of that document, unaffected by any collection statistics or other external factors. These characteristics make EBR models attractive in domains typified by medical and legal searching, where the emphasis is on iterative development of reproducible complex queries of dozens or even hundreds of terms. However, EBR is much more computationally expensive than the alternatives. We consider the implementation of the p-norm approach to EBR, and demonstrate that ideas used in the max-score and wand exact optimization techniques for ranked keyword retrieval can be adapted to allow selective bypass of documents via a low-cost screening process for this and similar retrieval models. We also propose term-independent bounds that are able to further reduce the number of score calculations for short, simple queries under the extended Boolean retrieval model. Together, these methods yield an overall saving from 50 to 80 percent of the evaluation cost on test queries drawn from biomedical search
چکیده
مدلهای بازیابی بولین تعمیم یافته (EBR) تقریباً سه دهه پیش مطرح شدن، ولی علیرغمِ مزیت های چشمگیر آن در مقایسه با رتبه بندی کلمات کلیدی، یا بازیابی بولینِ کامل تاثیر عملیِ اندکی داشتند. بطور خاص، مدلهای EBR رتبه بندی های هدفمندی تولید می کنند؛ مدل پرس و جو (جستار) آنها اجازۀ نمایش مفاهیم پیچیده در فرمت and-or را می دهد؛ و بخاطر اینکه امتیاز اختصاص یافته به یک فایل نوشتاری، صرفاً به محتوای آن نوشتار وابسته است، و تحت تاثیر هیچ شاخص آماریِ جمع آوری یا دیگر عوامل خارجی نیستند، قابل کشف (فهمیدنی) هستند. این خصوصیات مدلهای EBR را در حوزه های مربوط به جستجوی اطلاعات پزشکی و قانونی، - که در آنها تاکید برروی طراحی مکررِ جستارهای پیچیده و قابل تجدیدِ دهها یا حتی صدها جمله می باشد، جذاب تر می کنند. بااین حال، EBR از لحاظ محاسباتی نسبت به راهکارهای دیگر سنگین تر هستند. ما اجرای روش p-norm را برای EBR درنظر می گیریم و نشان می دهیم که ایده های مورد استفاده در تکنیک های بهینه سازیِ دقیقِ بیشینه امتیاز (max-score) و میله ای (wand)، برای بازیابی کلمه کلیدی رتبه بندی شده، جهت میسر ساختنِ کنارگذریِ انتخابیِ فایل های نوشتاری بواسطۀ فرایند کم هزینۀ غربال گری، برای این مدل ها و دیگر مدلهای بازیابی مشابه، قابل اتخاذ هستند. همچنین کران های مستقل از جمله را مطرح می کنیم که قادر به کاهش بیشترِ مقدار محاسباتِ امتیاز برای جستارهای کوتاه و ساده، با استفاده از مدل بازیابی بولینِ تعمیم یافته، هستند. روی هم رفته، این مدل ها باعث صرفه جویی 50 تا 80 درصدی در هزینه های ارزیابی مربوط به آزمایش جستارهای حاصل از جستجوی زیست پزشکی می شوند.
1-مقدمه
ارائه کنندگان سرویس جستجو، رغبت زیادی به رقابت برسر تامین میزان بازدهیِ بالا با کمترین هزینه ممکن برای منبع دارند. این امر راجع به سرویس های اختصاصیِ جستجو که برای امور پزشکی و حقوقی تخصیص یافته اند نیز صدق می کند، که جهت پشتیبانی از جستارهای پیچیده به واسطۀ جستجوکننده های حرفه ای و شاید با برآمدهای چشمگیر اجتماعی و تجاری حاصل از نتایج جستجو بکار گرفته می شوند...