Abstract
Data mining has its origins in various disciplines. Two most important data mining disciplines are statistics and machine learning. Data mining is a process of finding new, useful knowledge from data using different techniques. These techniques provide faster and better search for large amounts of data. Inverted index is structure that can be used in data mining process. That is a sorted list of words, with the list of corresponding documents attached to each word. Authors explored inverted index structure for a big corpus of documents. For that purpose, authors created application that use inverted index structure. Application uses open source library named Lucene
چکیده
داده کاوی در رشته های مختلف علمی ریشه دارد. دو زمینۀبسیار مهم در داده کاوی آمار و یادگیری ماشین می باشد. داده کاوی فرایندِ یافتن اطلاعات جدید و مفید از داده ها، با استفاده از تکنیک های مختلف می باشد. این تکنیک ها جستجوی سریع تر و بهتری را برای مقادیر بزرگ داده ها فراهم می کنند. اندکس وارونه، ساختاری است که در فرایند داده کاوی قابل استفاده است. این ساختار، فهرستی مرتب از کلمات، همراه با فهرستی از پرونده های متناظر است که به هر کلمه ضمیمه شده است. مولفین، ساختارِ اندکس وارونه را برای مجموعه بزرگی از پرونده ها مورد بررسی قرار دادند، برای این منظور، مولفین یک برنامه کاربردی ایجاد کردند که ازساختار اندکس وارونه استفاده می کرد. این برنامه از یک کتابخانۀ اوپن سورس به نامِ Lucene استفاده می کند.
1-مقدمه
داده کاوی فرایندِ کشف مدلهای متنوع، اختصارات و مقادیر حاصل از مجموعه ای معلوم از داده ها می باشد. قابلیت استخراج معلومات مفید که در داده ها پنهان است، و عمل آوریِ آن معلومات در زندگی و کار روزمره بطور فزاینده ای مهم است. داده کاوی یک فرایند است که در آن پیشرفت، بواسطۀ کشف، چه توسط روش های خودکار یا چه دستی، تعریف می شود. داده کاوی در زمینۀ آنالیز اکتشافی که در آن هیچ تصور ازپیش تعیین شده ای دربارۀ اینکه چه چیزی یک نتیجۀ “جالب توجه” را تشکیل می دهد، وجود ندارد...