چکیده
از آنجایی که وب با سرعت زیادی در حال رشد است، کاربران به راحتی در ساختار بسیار گسترده آن گم می شوند. هدف اصلی موتور های جستجو ارائه اطلاعات مرتبط برای کاربران به منظور تامین نیاز هایشان می باشد. از این رو یافتن محتوا وب و بازیابی علاقه مندی ها و نیاز های کاربران بسیار مهم گشته است. الگوریتم های مختلفی برای تجزیه و تحلیل لینک معرفی شده است نظیر PageRank (PR)، PageRank وزندار (WPR)، جستجوی موضوعی استنتاجی ابر پیوند HITSو الگوریتم های CLEVER که در این مقاله بحث و مورد مقایسه قرار می گیرند. هدف این تحقیق کشف سیستمی کارآمد و بهتر برای کاوش تپولوژی وب به منظور شناسایی صفحات وب معتبر می باشد.
1- مقدمه
1-1- وب کاوی
وب کاوی یعنی کاوش داده های موجود در پایگاه داده وب جهان گستر (WWW) که به صورت صفحات وب ذخیره شده اند. همچنین می تواند داده های مربوط به فعالیت وب را نیز شامل شود. داده های وب می توانند به فرم زیر باشند:
محتوای صفحات وب نظیر متن و تصاویر.
ساختار درون صفحه ای که شامل تگ های HTML یا تگ های XML می شود.
ساختار بین صفحه ای که ساختار ارتباطی بین صفحات وب می باشد.
داده های مصرفی که نحوه دسترسی صفحات وب را از سمت بازدیدکنندگان مختلف در اینترنت نشان می دهند…
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید.