Abstract
The topic model is a popular probabilistic model for text and document modeling. It can be used for topic indexing, document classification, corpus summarization and information retrieval. In the past, topic models have been applied to corpora containing thousands to hundreds of thousands of documents. Now there is an increasing need to model collections with millions to billions of documents. We present a parallel algorithm for the topic model that has linear speedup and high parallel efficiency for shared-memory symmetric multiprocessors (SMPs). Using this parallel algorithm, topic model computations on an 8-processor system took 1/7 the time of the same computation on a single processor
چکیده
مدل موضوع، یک مدل احتمالی محبوب برای مدل سازی متن و اسناد متنی می باشد. این مدل می تواند برای شاخص گذاری موضوع، طبقه بندی اسناد متنی، خلاصه سازی مجموعه متون و بازیابی اطلاعات مورد استفاده قرار گیرد. در گذشته، مدل های موضوع در شرکت هایی شامل هزاران تا صدها هزار سند متنی مورد استفاده قرار می گرفتند. امروزه، نیاز رو به افزایشی به مدل سازی مجموعه ای از میلیون ها تا بیلیون ها سند وجود دارد. ما یک الگوریتم موازی برای مدل موضوع ارائه نموده ایم که دارای افزایش سرعت خطی و کارایی موازی بالایی برای معماری های چند پردازنده ای متقارن با حافظه مشترک (SMPs) می باشد. با استفاده از این الگوریتم موازی، محاسبات مدل موضوع روی سیستم 8 پردازنده ای حدود 1/7 زمان کمتری روی یک سیستم تک پردازنده با همان حجم محاسباتی، صرف می نمایند.
1-مقدمه
رشد نمایی تولید و نقل و انتقال اشیای متنی همچنان ادامه دارد. این رشد، در جامعه هوشمند که پردازنده ها دارای حجم بالای اطلاعات متنی به طور روزانه را دارند، بیش از حوزه های دیگر، مشخص است. اغلب این اطلاعات متنی، بدون برچسب، طبقه بندی نشده و ساخت نایافته می باشند. این اشیای متنی با استفاده از کلمات کلیدی قابل جستجو می باشند، ولی چون یک تحلیل کننده، اشیای متنی زیادی را سازماندهی و طبقه بندی می کند، این امر نمی تواند کمک کننده باشد...