Abstract
With the exponential growth in web content and due to its sheer volume, the answers provided by traditional search engines by query specific keywords to content has resulted in markedly high recall and low precision. In order to alleviate this problem, the notion of incorporating semantics in content and in Search Engines, i.e., a Semantic Search Engine is increasingly crucial. Several Semantic Search Engines (SSEs) have been proposed and deployed till date and each is inherently different from the other. As such, the objective of this paper is to present a discussion on semantically enhanced search engines for intelligent web content discovery. We also present the architecture of a new SSE based on a bottom up approach that focuses on building a semantic base for Web content first and then carry out the process of querying it for attaining high precision and lower recall
چکیده
با توجه به رشد نمایی محتوای وب و به دلیل حجم خالص این محتوا، متأسفانه پاسخهایی که به وسیله ی موتور های جستجو و از طریق جستار(مورد پرس و جو قرار دادن) محتوا یا کلیدواژههای خاص در اختیار کاربر قرار میگیرد، منجر به ارائه ی نتایجی با سطح دقت پایین و نرخ بازخوانی بالایی گردیده است. ازاینرو بهمنظور تسکین و پاسخ به این مسئله، بکار گیری ایدهی سمانتیک (معناییها) در داخل محتوای وب و موتورهای جستجو- مثلا یک موتور جستجوی معنایی – کاملاً ضرورت پیدا میکند. در حال حاضر و تا به امروز، چندین نمونه موتور جستجوی معنایی (sse)پیشنهاد و توسعه گردیده که هرکدام از این موتورهای جستجو ازنظر ذاتی متفاوت از همدیگر میباشد. ازاینرو در این مقاله قصد داریم تا مباحث و مسائلی را در خصوص موتورهای جستجویی که ازنظر معنایی بهبودیافتهاند و برای بازیابی هوشمندانهی محتوای وب بکار گرفته میشوند ارائه دهیم. همچنین بر مبنای یک روش بالا به پایین ، که بر روی ایجاد پایگاه معنایی برای محتوای وب متمرکز است، یک معماری جدیدی را برای ایجاد یک موتور جستجوی معنایی ارائه خواهیم داد و به دنبال آن نیز با استفاده از این معماری اقدام به انجام پروسهی پرسوجو پرداخته تا بتوانیم نتایجی با سطح دقت بالا و نرخ بازخوانی پایینی را به دست آوریم.
1 -مقدمه
عموماً موتورهای جستجو از نقش مهمی در کمک به جستجوی اطلاعات روی وب برای کاربران برخوردار میباشند. اگر وبی که امروزه شاهد آن هستیم برای موتورهای جستجو مطلوب نباشد، نمیتوان آن را یک دستاورد و موفقیت بزرگ دانست. کاری که یک موتور جستجو انجام میدهد بر مبنای جستجوی واژگان کلیدی موجود در عبارت جستجوی کاربر بوده، که این واژگان کلیدی را با واژگان کلیدی شاخص گذاری شده در صفحات وب تطابق داده تا بتواند یک لیست رتبهبندی شده از نتایج جستجو را برای کاربران فراهم سازد. تمرکز اصلی سر دم داران و مالکین موتورهای جستجو، مانند گوگل و یاهو این بوده که با فراهم کردن نتایج بسیار دقیق به مقصود و نیاز کاربر در کوتاهترین زمان ممکن، به پرسوجوهای کاربران پاسخ دهند. برای این کار، آنها از الگوریتمهای پیشرفته و انحصاری مختص به خودشان استفاده کرده که بهمنظور ارائهی نتایج بهتر برای کاربر، روز به روز این الگوریتمها مورد بهسازی قرار میدهند. اگرچه وقتیکه نوبت به پاسخ به پرسوجوهای هوشمندانهای که نیاز به آگاهی از متن و دانش زمینه دارد میرسد، این روشها با شکست روبرو میشود. درصورتیکه ادغام اطلاعات از سوی موتورهای جستجو به شکلی ضعیف صورت گیرد، نتایج نادرست و نامطلوب در اختیار کاربران قرارگرفته و این کار چیزی جز اتلاف زمان و تأثیر ناخوشایند بر روی تجربهی کاربری برای کاربر به همراه ندارد….