Abstract
A natural evaluation metric for statistical topic models is the probability of held-out documents given a trained model. While exact computation of this probability is in- tractable, several estimators for this prob- ability have been used in the topic model- ing literature, including the harmonic mean method and empirical likelihood method. In this paper, we demonstrate experimentally that commonly-used methods are unlikely to accurately estimate the probability of held- out documents, and propose two alternative methods that are both accurate and efficient
چکیده
احتمالِ اسناد آموزشی و اسناد تست (Held-out documents) در یک مدل آموزش دیده را می توان یکی از معیارهای طبیعی برای ارزیابی مدل های موضوعیِ آماری دانست. با توجه به اینکه محاسبه ی دقیق این احتمال امر آسانی نیست، در ادبیات مدل سازی موضوعی، از چندین برآوردگر برای محاسبه ی این احتمال استفاده می گردد؛ از جمله ی این برآوردگرها می توان به روش میانگین هارمونیک (میانگین توافقی) و روش احتمال تجربی اشاره کرد. در این مقاله، با انجام آزمایش هایی به اثبات عدم توانایی روش های معمول در تخمین صحیح احتمال این گونه اسناد پرداخته ایم و دو روش جایگزینِ کارآمد و صحیح را بجای آنها پیشنهادی داده ایم.
1-مقدمه
مدل سازی موضوعی آماری را می توان ابزاری مفید برای تحلیل کلکسیونی بزرگ از متون غیر ساخت یافته در نظر گرفت. مطالعات و تحقیقات زیادی به معرفی و توسعه ی مدل های پیشرفته ی موضوعی و کاربرد این مدل ها پرداخته اند؛ گرچه تا به امروز هیچ مقاله ای به طور خاص به بررسی مسئله ی ارزیابی مدل های موضوعی نپرداخته است. ارزیابی را باید یک مسئله ی مهم قلمداد کرد: ماهیت نظارت نشده ی مدل های موضوعی باعث شده که انتخاب مدل به امری مشکل مبدل گردد...