Abstract
Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we present a measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide range of associations both functional and not, and for functional relationships provides a score that roughly equals the coefficient of determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametric exploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in global health, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships
چکیده
شناسایی روابط جذاب بین دو متغیر در مجموعه های داده بزرگ بسیار مهم است. در اینجا، ما یک اندازه گیری وابستگی برای رابطه دو متغیره به نام حداکثر ضریب اطلاعات(MIC)را ارائه کرده ایم:. روش MIC محدوده وسیعی از وابستگی ها را که شامل اساسی و غیر اساسی می باشد را نتیجه می دهد و برای روابط مهم، نمره ای را که تقریباً برابر ضریب تعیین(R2) داده وابسته به تابع رگرسیون می باشد را ارائه می کند.MIC مربوط به یک کلاس بزرگتری از توصیف غیرپارامتری مبتنی بر اطلاعات(MINE) برای شناسایی و دسته بندی روابط است. در اینجا ما MIC و MINR را به مجموعه های داده در سلامت عمومی، بیان ژن، لیگ اصلی بیس بال، و سیستم روده انسان اعمال کرده و روابط جدید و شناخته شده را شناسایی می کنیم...