Abstract
The choice of generalized linear mixed models is difficult, because it involves the selection of both fixed and random effects. Classical criteria like Akaike’s information criterion (AIC) are often not suitable for the latter task, and others which are useful in linear mixed models are difficult to extend to the generalized case, especially for overdispersed data. A predictive leave-one-out crossvalidation approach is suggested that can be applied for choosing both fixed and random effects, even in models with overdispersion, and is based on proper scoring rules. An attractive feature of this approach is the fact that the model has to be fitted just once to the data set, which makes computations fast and convenient. As the calculation of the leave-one-out predictive distribution is not possible analytically, it is shown how an iteratively weighted least squares algorithm combined with some analytic approximations can be used for this task. A simulation study and two applications of the methodology to binary and count data are provided, as well as comparisons with two other methods
چکیده
انتخاب مدلهای ترکیبی خطیِ تعمیمیافته پیچیده است، زیرا این روشها شاملِ انتخابِ اثرات تصادفی و ثابت میباشد. معیارهای کلاسیک نظیرِ معیار اطلاعات Akalike (AIC) اغلب برای اثرات تصادفی مناسب نمیباشند؛ همچنین دیگر روشهائی که در مدلهای ترکیبی خطی مفید هستند بسط دادن آنها به موردِ تعمیمیافته مشکل است (مخصوصاً برای اطلاعات بسیار پراکنده). یک روش اعتبارسنجی متقابل پیشگویانهی یکی-بیرون-گذار پیشنهاد شده است که میتوان برای انتخابِ اثرات تصادفی و ثابت حتی در مدلهای بسیار پراکنده از آن استفاده کرد؛ این روش مبتنی بر قواعدِ امتیازبندیِ مناسب میباشد. یک ویژگیِ جالبتوجهِ این روش این واقعیت است که مدل باید تنها زمانی که اطلاعات تنظیم شده است، تطابق پیدا کند؛ این موضوع محاسبات را سریع و راحت میکند. به دلیل آن که محاسباتِ توزیع پیشبینی یکی-بیرون-گذار به صورت تحلیلی امکانپذیر نیست، نشان داده شده است که چگونه یک الگوریتمِ حداقل مربعات وزندارِ تکراری در ترکیب با برخی تقریبهای تحلیلی را میتوان برای این کار استفاده کرد. یک مطالعه شبیهسازی و دو کاربردِ این روش برای اطلاعات باینری و حسابی و نیز مقایسه با دو روش دیگر ارائه گردیده است.
1- مقدمه
انتخاب مدل از روی مدلهای خطی یا خطیِ تعمیمیافته کاری نسبتاً ساده است و معیارها و تکنیکهای متعددی وجود دارند. در هر حال، اگر این مدلها برای وارد کردن اثرات تصادفی برای تطبیق دادن مثل اطلاعات طولی بسط داده شوند، انتخاب یک مدل چالشبرانگیزتر میشود. یک دلیل برای این موضوع آن است که علاوه بر انتخابِ متغیرکمکی، یک تصمیم در موردِ نوع و تعداد اثرات تصادفی باید گرفته شود. معیارهای کلاسیک مثلِ معیارِ اطلاعاتِ Akaike (AIC,Akaike, 1973) یا معیار اطلاعات بیزی (BIC, Schwar, 1978; Claeskens and Hjort, 2008) برای این کار کفایت نمیکنند و بایستی تطبیق داده شوند…