Abstract
Text classification poses some specific challenges. One such challenge is its high dimensionality where each document (data point) contains only a small subset of them. In this paper, we propose Semi-supervised Impurity based Subspace Clustering (SISC) in conjunction with k-Nearest Neighbor approach, based on semi-supervised subspace clustering that considers the high dimensionality as well as the sparse nature of them in text data. SISC finds clusters in the subspaces of the high dimensional text data where each text document has fuzzy cluster membership. This fuzzy clustering exploits two factors - chi square statistic of the dimensions and the impurity measure within each cluster. Empirical evaluation on real world data sets reveals the effectiveness of our approach as it significantly outperforms other state-of-the-art text classification and subspace clustering algorithms.
چکیده
طبقه بندی متن (Text classification)، چالش های ویژه ای دارد. یکی از این چالش ها، تعداد ابعاد زیاد آن است، که هر سندی (نقطه داده) تنها تعداد بسیار کمی از آن ها را شامل می شود. در این مقاله، ما یک روش ناخالصی نیمه نظارتی بر پایه روش خوشه بندی نیمه نظارتی (Semi-supervised Impurity based Subspace Clustering (SISC)) در زیرمجموعه فضای ترکیب شده با روش نزدیک ترین همسایه k ام (κ-Nearest Neighbor) ارائه کرده ایم. این روش برپایه خوشه بندی نیمه نظارتی زیرفضا می باشد که ابعاد بالا را به همان اندازه ماهیت پراکنده شان در داده های متنی مورد بررسی قرار می دهد. SISC، خوشه هایی را در زیرفضاهای داده های متنی چند بعدی پیدا می کند که در آن هر سندی عضوی از یک خوشه فازی (fuzzy) است. این خوشه بندی فازی، از دو عامل استفاده می کند. آمار مجذور چی (chi square statistic) ابعاد و اندازه ناخالصی درون هر خوشه ارزیابی تجربی این روش بر روی مجموعه داده های دنیای واقعی، موثر بودن روش ما را نشان داده است. این روش، کارایی بهتری نسبت به آخرین روش های دیگر طبقه بندی متن و الگوریتم های دیگر خوشه بندی زیر فضا دارد.
1-مقدمه
داده های متنی، یک تفاوت اساسی با داده های غیرمتنی دارند. این تفاوت در ابعاد یا در ویژگی هایی که در فرایند طبقه بندی شرکت دارند، می باشد. همچنین آنها ذاتا پراکنده هستند به گونه ای که ممکن است یک سند تنها شامل تعداد کمی از ابعاد انتخابی باشد. مفهوم خوشه بندی زیرفضا، ویژگی های داده های متنی را با یکدیگر ادغام می کند. در خوشه بندی زیرفضا، به هر بعد یک وزن اختصاص داده شده است که بر پایه توزیع آن در تفکیک اسناد از هر دسته در یک خوشه، می باشد. بر پایه این وزن ابعاد، خوشه بندی زیرفضا این امکان را فراهم می سازد تا خوشه ها را در ابرفضای سنگین (weighted hyperspace) بیابیم [1]، و می تواند ما را در یافتن اسنادی که خوشه ها را تنها در یک زیرفضای ابعاد فرم می دهند، یاری دهد...