Abstract
In this article, we demonstrate the impact of interactive machine learning: we develop biomedical entity recognition dataset using a human-into-the-loop approach. In contrary to classical machine learning, human-in-the-loop approaches do not operate on predefined training or test sets, but assume that human input regarding system improvement is supplied iteratively. Here, during annotation, a machine learning model is built on previous annotations and used to propose labels for subsequent annotation. To demonstrate that such interactive and iterative annotation speeds up the development of quality dataset annotation, we conduct three experiments. In the first experiment, we carry out an iterative annotation experimental simulation and show that only a handful of medical abstracts need to be annotated to produce suggestions that increase annotation speed. In the second experiment, clinical doctors have conducted a case study in annotating medical terms documents relevant for their research. The third experiment explores the annotation of semantic relations with relation instance learning across documents. The experiments validate our method qualitatively and quantitatively, and give rise to a more personalized, responsive information extraction technology
چکیده
در این مقاله، ما تأثیر یادگیری تعاملی ماشین را نشان می دهیم: ما یک مجموعه داده تشخیص موجودیت زیست پزشکی را با استفاده از روش "انسان در حلقه" توسعه می دهیم. در تقابل با یادگیری ماشینی کلاسیک، روش های انسان در حلقه بر روی مجموعه های تست یا آموزش از پیش تعریف شده عمل نمی کنند، بلکه فرض می شود که ورودی انسانی با توجه به پیشرفت سیستم بصورت تکرارشونده عرضه می شود. در اینجا حین حاشیه نویسی، یک مدل یادگیری ماشینی بر روی حاشیه نویسی قبلی ایجاد شده و جهت ارائه برچسب ها برای حاشیه نویسی بعدی استفاده می شود. به منظور نمایش اینکه چنین حاشیه نویسی تعاملی و تکرارشونده ای سرعت و کیفیت حاشیه نویسی مجموعه داده را افزایش می دهد، سه آزمایش انجام دادیم. در آزمایش اول، شبیه سازی تجربی حاشیه نویسی تکرارشونده را انجام داده و نشان دادیم که تنها تعداد انگشت شماری از چکیده های پزشکی جهت ایجاد پیشنهاداتی که سرعت حاشیه نویسی را بالا می برد، نیاز به حاشیه نویسی دارند. در آزمایش دوم، پزشکان بالینی یک مطالعه موردی در حاشیه نویسی اسناد بیماری مرتبط با پژوهش خود انجام دادند. آزمایش سوم، حاشیه نویسی روابط معنایی با یادگیری نمونه رابطه در سراسر اسناد را مورد بررسی قرار داد. این آزمایشات به مدل ما به لحاظ کیفی و کمّی اعتبار بخشید، و منجر به یک فناوری استخراج اطلاعات پاسخگو و شخصی تر شد.
1-مقدمه
حوزه زیست پزشکی بطور فزاینده ای به دانشی با داده های فشرده بدل می شود و یکی از چالش ها در ارتباط با حجم روزافزون متون و مقالات پزشکی نه تنها در استخراج اطلاعات بامعنی از این داده ها، بلکه در دستیابی به شناخت، بینش و درک این داده هاست...