Abstract
Linked Open Data (LOD) has emerged as one of the largest collections of interlinked structured datasets on the Web. Although the adoption of such datasets for applications is increasing, identifying relevant datasets for a specific task or topic is still challenging. As an initial step to make such identification easier, we provide an approach to automatically identify the topic domains of given datasets. Our method utilizes existing knowledge sources, more specifically Freebase, and we present an evaluation which validates the topic domains we can identify with our system. Furthermore, we evaluate the effectiveness of identified topic domains for the purpose of finding relevant datasets, thus showing that our approach improves reusability of LOD datasets
چکیده
داده های باز پیوندی( LOD ) را میتوان یکی از بزرگترین مجموعه ها از مجموعه داده های ساختار یافته ی بهم پیوسته بر روی وب دانست. اگرچه استفاده از چنین مجموعه داده هایی به سرعت جای خود را در بین اپلیکیشن ها باز کرده است، ولی تشخیص مجموعه های داده های مرتبط با یک وظیفه یا موضوع خاص، هنوز امری چالش برانگیز است و نیاز به تحقیق و بررسی بیشتر دارد. از این رو اولین گام به منظور ساده سازی این تشخیص، این بوده که وب روشی خودکار را برای تشخیص دامنه های موضوع از یک مجموعه داده ای فراهم سازد. متد پیشنهادی ما از منابع دانش موجود یا همان پایگاه آزاد استفاده کرده و یک ارزیابی را به منظور سنجش دامنه های موضوع که میتوانیم از آن برای تشخیص سیستم استفاده کنیم ارائه میدهد. علاوه بر این، ما بهره وری دامنه های موضوع تشخیص داده شده را با هدف یافتن مجموعه های داده ای مربوطه مورد ارزیابی قرار میدهیم و نشان خواهیم داد که روش ما قابلیت استفاده ی مجدد در مجموعه های داده ای LOD را افزایش میدهد
1-مقدمه
از زمان ظهور مفهوم داده های باز پیوندی (LOD)، کاربرد و مفهوم آن مورد توجه و اتخاذ زیادی قرار گرفته اند. چنین سیستمی که با 12 مجموعه داده ای در سال 2007 تشکیل شد، در حال حاضر دارای بیش از 300 مجموعه داده ای میباشد. رشد سریع تعداد این مجموعه داده ها، باعث شده تا تمایل ناشرین داده ها تمایل بیشتری به انتشار داده هایشان به عنوان داده های ساختار یافته بر روی سرویس های ابری نشان میدهد که چنین گرایشی هنوز هم ادامه دارد. علاوه بر این، دامنه ها و موضوعات مختلفی که در این مجموعه های داده ای مورد پوشش قرار گرفته اند نیز در حال افزایش است. پژوهشگران و فعالان نیز از این مجموعه های داده ای برای وظایف مختلفی مانند نوع اجباری در پاسخ به سؤالات [1] و کشف موسیقی استفاده کرده اند. علیرغم چنین اتخاذی، افزایش اندازه و تنوع مجموعه های داده ای نیز چالش های جدیدی را به منظور تشخیص مجموعه داده های مربوطه برای یک وظیفه پیش روی ما گذاشته است...