چکیده
وب از وب سطحی و وب مخفی تشکیل میشود. وب سطحی نیز به عنوان وب قابل فهرستگذاری به صورت عمومی شناخته میشود. موتورهای جستوجو با استفاده از ابرپیوندهای موجود در صفحات و همچنین شماهای سادهی تطبیق کلیدواژهها میتوانند به وب سطح دسترسی پیدا کنند. وب مخفی به محتوایی اشاره میکند که در پشت فرمهای HTML پنهان است. وب مخفی شامل مجموعهی بزرگی از دادههایی است که توسط موتورهای جستوجوی مبتنی بر پیوند، غیرقابل دستیابی هستند. مطالعهی انجام شده در دانشگاه برکلی کالیفرنیا تخمین زد که وب مخفی شامل حدود 91,000 ترابایت داده است، در حالی که وب سطحی تنها حدود 167 ترابایت است. خزندههای وب مخفی و وب سطحی برای پرسوجوی کاربر، مجموعه نتیجهی بزرگی را برمیگردانند. اما کاربران معمولا 10 یا 20 نتیجهی بالایی را نگاه میکنند که بدون بالا و پایین رفتن در صفحه (اسکرول کردن) قابل مشاهده هستند. کاربران به ندرت نتایجی را میبینند که بعد از اولین صفحهی پاسخ ظاهر میشوند پس رتبهبندی نتایج لازم است. تا اکنون رتبهبندی دادههای وب چالش بزرگی بوده است. پژوهشگران مختلفی سعی کردند تکنیکهای بهتر و کارآمدی برای رتبهبندی ارائه دهند. در این مقاله، روشهای مختلف رتبهبندی برای وب مخفی و همینطور وب سطح کاوش خواهد شد.
-1مقدمه
وب جهانگستر (WWW) یا وب، سرویس پیشروی بازیابی اطلاعات اینترنت (شبکهی رایانهای جهانگستر) از دو نوع صفحهی وب تشکیل میشود: وب سطحی (یا وب مرئی) و وب عمقی (یا وب مخفی یا وب نامرئی). وب سطحی [3] به بخشی از وب اشاره میکند که موتورهای جستوجوی همهمنظوره و شامل خزنده (crawler) میتوانند در آنها خزیده و فهرستگذاریشان نمایند. این خزنده به صورت یک شمای پایهی تطبیق کلیدواژهها کار میکند. در حالی که وب مخفی [1] به اطلاعات فراوانی اشاره مینماید که پشت رابطهای پرسوجو مخفی بوده و در دسترس مستقیم موتورهای جستوجوی سنتی نیستند. بنابراین برای دسترسی به وب مخفی، موتورهای جستوجو باید مجهز به یک خزندهی وب مخفی خاص گردند...
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید.