Abstract
Accurate web log mining results and efficient online navigational pattern prediction are undeniably crucial for tuning up websites and consequently helping in visitors’ retention. Like any other data mining task, web log mining starts with data cleaning and preparation and it ends up discovering some hidden knowledge which cannot be extracted using conventional methods. In order for this process to yield good results it has to rely on some good quality input data. Therefore, more focus in this process should be on data cleaning and pre-processing. On the other hand, one of the challenges facing online prediction is scalability. As a result any improvement in the efficiency of online prediction solutions is more than necessary. As a response to the aforementioned concerns we are proposing an enhancement to the web log mining process and to the online navigational pattern prediction. Our contribution contains three different components. First, we are proposing a refined time-out based heuristic for session identification. Second, we are suggesting the usage of a specific density based algorithm for navigational pattern discovery. Finally, a new approach for efficient online prediction is also suggested. The conducted experiments demonstrate the applicability and effectiveness of the proposed approach
چکیده
نتایج وبلاگ کاوی دقیق و پیش بینی کارآمد الگوی هدایتگر آنلاین برای راه اندازی وب سایت ها و در نتیجه حفظ حیاتی بازدید کنندگان غیر قابل انکار است. مانند هر وظیفه داده کاوی دیگری، وبلاگ کاوی با تمیز کردن داده ها و آماده سازی شروع می شود و با کشف برخی دانش های پنهان که نمی توانند با استفاده از روش های مرسوم استخراج شوند پایان می یابد. برای این فرایند برای بدست آوردن نتایج خوب، باید به برخی از داده های ورودی با کیفیت خوب تکیه کرد. بنابراین، تمرکز بیشتر در این پروسه باید در تمیز کردن داده ها و پیش پردازش باشد. از سوی دیگر، یکی از چالش های پیش بینی آنلاین که با آن مواجه هستیم، مقیاس پذیری است. در نتیجه هر گونه بهبودی در بهره وری راه حل های پیش بینی آنلاین بیش از حد لازم است. در پاسخ به نگرانی های فوق، افزایش فرآیند وبلاگ کاوی و پیش بینی الگوی هدایتگر آنلاین را پیشنهاد کرده ایم. کمک ما شامل سه مولفه متفاوت می باشد. ابتدا، اکتشاف شناسایی نشست براساس زمان توقف پالوده را پیشنهاد می کنیم. دوم، استفاده از الگوریتم مبتنی بر تراکم خاص برای کشف الگوی هدایتگر را پیشنهاد می کنیم. در نهایت، روشی جدید برای پیش بینی آنلاین کارآمد نیز پیشنهاد شده است. آزمایش های انجام شده کاربرد و اثربخشی روش ارائه شده را نشان می دهد.
1-مقدمه
سازمان ها، شرکت ها و موسسات، بیشتر و بیشتر بر وب سایت هایشان برای تعامل با مشتریان متکی هستند. حفظ مشتریان فعلی و جذب مشتریان بالقوه این سازمان ها، شرکت ها و موسسات را برای جستجوی روش های جذاب برای ایجاد مفیدتر و کارآمدتر وب سایتشان به پیش می برد. برای رسیدن به این هدف، تعدادی کار حسابرسی باید انجام شود. این کار حسابرسی را می توان در حداقل دو راه جایگزین انجام داد. نخست، کاربران یک وب سایت خاص می توانند برای ارزیابی تجربه مرورشان درخواست شوند. سپس اقداماتی برای بهبود ساختار و/یا محتوای وب سایت بر اساس بازخورد دریافتی مشتریانی که بازخورد را ارائه می دهند را خواهند گرفت. دوم، تاریخچه ثبت خودکار هدایتگر مشتری تجزیه و تحلیل می شود و وب سایت در نهایت تنظیم می شود. شکی نیست که گزینه دوم بهتر است. این مورد عمدتاً به این دلیل است که بر ورودی دستی داوطلبانه مشتری استناد نمی کند...