Abstract
Topic modeling is a type of statistical model for discovering the latent “topics” that occur in a collection of documents through machine learning. Currently, latent Dirichlet allocation (LDA) is a popular and common modeling approach. In this paper, we investigate methods, including LDA and its extensions, for separating a set of scientific publications into several clusters. To evaluate the results, we generate a collection of documents that contain academic papers from several different fields and see whether papers in the same field will be clustered together. We explore potential scientometric applications of such text analysis capabilities
چکیده
مدلسازی موضوعی یک نوع مدل آماری برای کشف "موضوعات" پنهان است، مدلسازی موضوعی در مجموعه ای از اسناد از طریق یادگیری ماشین صورت می گیرد. در حال حاضر، تخصیص پنهان دیریکله (LDA) یک رویکرد مدلسازی بسیاری متداول و معروف است. در این مقاله، روش هایی را، از جمله LDA و بسط آن را، برای تجزیه مجموعه ای از انتشارات علمی به درون چند خوشه بررسی می کنیم. برای ارزیابی این نتایج، مجموعه ای از اسناد را تولید می کنیم که شامل مقالات دانشگاهی در چندین زمینه متفاوت هستند و بررسی می کنیم که آیا مواردی که در یک زمینه هستند با همدیگر در یک خوشه قرار می گیرند یا نه. کاربردهای بالقوه علم سنجی مانند قابلیت های تحلیل متن را نیز کشف می کنیم.
1-مقدمه
با افزایش استفاده از پایگاه داده های ساخت یافته متنی، رویکرد ما در راستای سنجش علم، بیشتر و بیشتر به روش های کمی اتکا می کند. اغلب با اشاره به عنوان "کتاب سنجی" (Borgman and Furner 2002)، مطالعات از ابزارهای روش شناختی متفاوتی برای استخراج اطلاعات از پایگاه داده ها، و در راستای تلاش برای کشف ساختارهای اساسی درون مجموعه داده استفاده می کنند...