چکیده
عمل یافتن اطلاعات مرتبط با یک موضوع خاص در وب به دلیل گستردگی داده های اینترنت، کاری دشوار است. این سناریو باعث می شود روش های بهینه سازی موتور جستجو از نظر متخصصان، دانشگاهیان، و صنعتگران عملی ضروری باشد. تحلیل تاریخچه ی جستجو، بررسی دقیق داده های وبِ کاربران مختلف به منظور درک و بهینه سازی مدیریت وب می باشد. گزارشات پرس و جو یا تاریخچه ی جستجوی کاربر شامل: پرس و جوهای قبلی کاربر، و اسناد کلیک شده یا URL سایت های مرتبط با آنها می باشد. بنابراین تحلیل گزارشات پرس و جو، به عنوان پرکاربردترین روش برای بهبود تجربه ی جستجوی کاربران در نظر گرفته می شود. روش پیشنهادی، تاریخچه ی جستجوی کاربر را به منظور بهینه سازی موتور جستجو تحلیل و طبقه بندی می نماید. در این رویکرد، مسئله ی سازماندهی کردن پویا و اتوماتیکِ تاریخچه ی پرس و جوهای کاربران به گروه هایی، مورد مطالعه قرار می گیرد. گروه های پرس و جویِ بصورت اتوماتیک طبقه بندی شده، می توانند در روش های متفاوت بهینه سازی موتورهای جستجو مانند پیشنهاد پرس و جو، رتبه بندی مجدد نتایج جستجو، تغییر و تبدیل (اصلاح) پرس و جو و غیره کمک نمایند. این روش پیشنهادی یک گروه پرس و جو را به عنوان مجموعه ای از پرس و جوها به همراه دسته ای از URL های کلیک شده ی مرتبط با آنها در نظر می گیرد که در مورد یک نیاز اطلاعاتی عمومی می باشد. این روش راهکار جدیدی را پیشنهاد می کند که شامل ترکیب معیارهای تشابه کلمات به همراه معیارهای تشابه اسناد برای تشکیل یک معیار تشابه ترکیبی می باشد. در روش پیشنهاد شده سایر معیارهای مرتبط با پرس و جو مانند فرموله سازی مجدد (اصلاح) پرس و جوها و مفاهیم URL کلیک شده نیز در نظر گرفته می شوند. نتایج ارزیابی نشان می دهد که روش پیشنهادی از روش های موجود بهتر عمل می کند.
1-مقدمه
اینترنت یک انبار اطلاعاتی بزرگ است که تقریبا تمام اطلاعاتی که انسان به آن علاقمند است را شامل می شود. همانطور که اندازه و غنای اطلاعات در وب افزایش می یابد، تنوع و پیچیدگی وظایفی که کاربران سعی می نمایند تا اجرا کنند نیز افزایش می یابد. یافتن نتیجه ی مناسب تر برای یک پرس و جو با این حجم اطلاعات در اینترنت دشوار است و این سناریو باعث می شود که راهکارهای بهینه سازی موتور جستجو به روشی ضروری از دیدگاه محققان، دانشگاهیان و صنعتگران تبدیل گردد. به نظر می رسد که تحلیل تاریخچه های جستجو در بهینه سازی جستجو در وب نقش حیاتی دارد، چرا که تاریخ، همه چیز حتی آینده را به انسان می آموزد. کاوش گزارشات پرس وجو یا Query Log Mining به عنوان نوع خاصی از کاربرد وب کاوی در نظر گرفته می شود و شاخه ای از قواعد علمیِ تحلیل وب عمومی می باشد [1]. تحلیل وب به اندازه گیری، جمع آوری، تحلیل و گزارش داده های وب جهت درک و بهینه سازی استفاده از وب می گویند [1] گزارش پرس وجو یا تاریخچه ی جستجوی کاربر شامل پرس و جوهای قبلی کاربران و اسناد کلیک شده ی مرتبط یا URL سایت ها می باشد. در مقاله [2]، Baeza-Yates و همکارانش بیان کردند که چالش اصلی در طراحی سیستم های توزیع شده ی مقیاس بزرگ است که انتظارات کاربر را برآورده می کنند، و در آن ها پرس و جو ها از منابع به طور موثرتری استفاده می کنند، در نتیجه هزینه هر پرس و جو کاهش می یابد. از این رو چالش های موتورهای جستجو شامل، کیفیت نتایج حاصل از پرس وجو و سرعت به دست آمدن نتایج می باشد. از تاریخچه ی جستجوی کاربر، تحلیلگر گزارشات می تواند ترجیحات (اولویت ها و علایق) کاربر، اسناد کلیک شده، پرس و جوهای ارائه شده و غیره را استخراج نماید. کاوش گزارشات سیستم، روشی مهم برای جمع آوری اطلاعات است که ترجیحات کاربر، نیازها، تمایلات اخیر، سایت های بیشتر بازدید شده، پرس و جوهای بیشتر جستجو شده، ترجیحات (اولویت ها و علایق) مکانی در جستجوی اقلام، ترجیحات محتوایی و غیره را نشان می دهد. این کاوش، تحلیل داده های از طریق کلیک به دست آمده (clickthrough data) نیز نامیده می شود...
میتوانید از لینک ابتدای صفحه، مقاله انگلیسی را رایگان دانلود فرموده و چکیده انگلیسی و سایر بخش های مقاله را مشاهده فرمایید.