このエントリーをはてなブックマークに追加
ID 49876
FullText URL
Title Alternative
Bio-medical Term Extraction with Morpho-Syntactic Rules on Simple Rule Language
Author
Shinnou, Takashi
Nigel, Collier
Abstract
我々は感染症情報をWeb上から集めて提示するBioCasterシステムを構築している.感染症情報は各国のローカルニュースに速報が出ることが予測されることから英語のみならず日本語を含めたアジア言語での開発を進めている.核となる技術は感染症に関する用語を記事から見つける用語抽出であるが,既存の手法では学習データを利用した統計的学習モデルを利用して構築した.しかしながら,新たな病気など学習データに無い用語が現れた際うまく獲得できないことが予測されるため規則に基づく用語抽出システムの構築を行う.規則ベースで用語を抽出するシステムとしてSRL(Simple Rule Language)が公開されており,ユーザは語構成ならびに文脈を規則で記述することで用語を抽出できる.そこで本研究では感染症情報に必要な用語についてどのようにSRL上で定義できるかについて明らかにする.
Abstract Alternative
Simple rule language, rule-based term extraction, bio-medical terms, Disease surveillance system Bio-medical term extraction is a key technology for a surveillance system of epidemic disease news from the Web. In the previous work we applied statistical learning model to extract terms from the Web site. The previous approach is good at extracting terms with high precision rates; however it is weak at extracting new terms that do not exist in the training data. Since we usually have new disease names a new term extraction approach with high coverage for unknown or low-frequent terms is needed. Recently, Simple rule Language (SRL), a rule-based word extraction language, is freely available. The SRL also has an developing environment called SRL editor. Thus we are constructing rules of bio-medical terms on the several language (such as English, Japanese, Thai and Vietnam) for the multilingual disease surveillance system. In this manuscript we confirm how we construct rules to extract Japanese bio-medical terms from Japanese news articles.
Published Date
2009-10-09
Publication Title
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
Volume
volume109
Issue
issue234
Publisher
一般社団法人電子情報通信学会
Start Page
1
End Page
5
ISSN
0913-5685
NCID
AN10091225
Content Type
Technical Report
language
日本語
Copyright Holders
一般社団法人電子情報通信学会
File Version
publisher
Refereed
True