このエントリーをはてなブックマークに追加
ID 49876
フルテキストURL
タイトル(別表記)
Bio-medical Term Extraction with Morpho-Syntactic Rules on Simple Rule Language
著者
新納 貴志 岡山大学工学部情報工学科
竹内 孔一 岡山大学大学院自然科学研究科
ナイジェル コリアー 国立情報学研究所
抄録
我々は感染症情報をWeb上から集めて提示するBioCasterシステムを構築している.感染症情報は各国のローカルニュースに速報が出ることが予測されることから英語のみならず日本語を含めたアジア言語での開発を進めている.核となる技術は感染症に関する用語を記事から見つける用語抽出であるが,既存の手法では学習データを利用した統計的学習モデルを利用して構築した.しかしながら,新たな病気など学習データに無い用語が現れた際うまく獲得できないことが予測されるため規則に基づく用語抽出システムの構築を行う.規則ベースで用語を抽出するシステムとしてSRL(Simple Rule Language)が公開されており,ユーザは語構成ならびに文脈を規則で記述することで用語を抽出できる.そこで本研究では感染症情報に必要な用語についてどのようにSRL上で定義できるかについて明らかにする.
抄録(別表記)
Simple rule language, rule-based term extraction, bio-medical terms, Disease surveillance system Bio-medical term extraction is a key technology for a surveillance system of epidemic disease news from the Web. In the previous work we applied statistical learning model to extract terms from the Web site. The previous approach is good at extracting terms with high precision rates; however it is weak at extracting new terms that do not exist in the training data. Since we usually have new disease names a new term extraction approach with high coverage for unknown or low-frequent terms is needed. Recently, Simple rule Language (SRL), a rule-based word extraction language, is freely available. The SRL also has an developing environment called SRL editor. Thus we are constructing rules of bio-medical terms on the several language (such as English, Japanese, Thai and Vietnam) for the multilingual disease surveillance system. In this manuscript we confirm how we construct rules to extract Japanese bio-medical terms from Japanese news articles.
発行日
2009-10-09
出版物タイトル
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
109巻
234号
出版者
一般社団法人電子情報通信学会
開始ページ
1
終了ページ
5
ISSN
0913-5685
NCID
AN10091225
資料タイプ
テクニカルレポート
言語
Japanese
著作権者
一般社団法人電子情報通信学会
論文のバージョン
publisher
査読
有り