Abstract
The dimension of World Wide Web (The Internet) is in billions in terms of web pages and increasing rapidly. With the diversity of web pages available on the web, the high degree relevant information retrieval becomes a major issue. Such huge number of pages not only make the computation complex but also raises the issues of fault tolerance and time complexity. Computing ranking for such large number of web graph on a particular system, makes it prone to system failure and time taking. The present work proposes a distributed ranking system to attain fault tolerance and speedy calculation of Pagerank vector. The computation of rank vector is performed by implementing Pagerank on Mapreduce framework. The pagerank vector is calculated via spectral analysis to make the computation even faster and the results are compared to traditional pagerank scores
چکیده
ابعاد وب جهانی (اینترنت) از لحاظ صفحات وب بیلیون ها بوده و به سرعت در حال افزایش است. با تنوع صفحات وب موجود در وب، بازیابی درجه بالایی از اطلاعات مرتبط به موضوعی مهم و اساسی بدل شده است. چنین میزان بالایی از صفحات نه تنها محاسبات را پیچیده کرده، بلکه مبحث تلرانس عیب و پیچیدگی زمان را مطرح می کند. محاسبه ی رتبه بندی چنین میزان زیادی از گراف وب (نمودار وب) در سیستمی خاص زمینه را برای شکست سیستم فراهم آورده و زمان بر می باشد. تحقیق پیشرو یک سیستم رتبه بندیی توزیعی را جهت نیل به تلرانس عیب و محاسبه سریع بردار پیج رنک پیشنهاد می کند. محاسبه بردار رنک (بردار رتبه) از طریق اجرای پیج رنک در قالب MapReduce انجام می شود. بردار پیج رنک از طریق آنالیز طیفی محاسبه می شود تا سرعت محاسبات را بیش تر کرده و نتایج را با نمرات پیج رنک سنتی مقایسه کند.
1-مقدمه
بازیابی اطلاعات با توجه به هر نوع جستجو در وب چندین پاسخ دارد که چالش هایی را در کاوش اطلاعات مرتبط به وجود می آورد. رایج ترین نوع کاوش اطلاعات به موضوعی حیاتی در بین چندین بیلیون صفحات وب بدل شده است، صفحاتی که در کنار صفحات و برنامه های مخربی قرار دارند که نتایج جستجوی موتورهای جستجو را دستکاری می کنند...