このエントリーをはてなブックマークに追加
ID 47735
フルテキストURL
タイトル(別表記)
Web Search Result Clustering Based on Structure of Compound Nouns
著者
平尾 一樹 岡山大学大学院自然科学研究科
竹内 孔一 岡山大学大学院自然科学研究科 Kaken ID publons researchmap
抄録
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本手法は次の2つの仮説に基づいている.1)複合名詞は固有の概念を表すため,文書を特徴付けやすい.2)複合名詞間の語構成関係を利用して,部分複合による類概念,および上位下位関係のクラスラベルを作成することで見通しの良いWeb文書の分類ができる.実験の結果,複合名詞の構造は分かりやすいクラスタ構造の形成に利用でき,また自然なラベル付けに有効であった.このことから,複合名詞は検索結果全体を見渡すためのよいインデックスであると言える.
抄録(別表記)
In this paper, we propose a aclustering method based on structure of compound nouns. Japanese compound nouns usually provide concrete concepts, thus we can assume that compound nouns must be a good clue to index documents for Web document clustering. The other benefit of using compound nouns is their compositional structure that can ve divided into sub concepts. This indicates that we can construct hierarchical Web document clustering based on their strcture. From the practical experiments of constructing hierarchical clusters on the results of a Web search engine, we succeeded in showing that the clearly lusterized web documents with understandable hierarchical indexes of compound nouns.
備考
情報処理学会研究報告. 情報学基礎研究会報告 Vol.2006 No.94 pp.35-42
発行日
2006-09-12
出版物タイトル
情報処理学会研究報告. 自然言語処理研究会報告
出版物タイトル(別表記)
IPSJ SIG Technical Report
2006巻
94号
出版者
情報処理学会
出版者(別表記)
Information Processing Society of Japan
開始ページ
35
終了ページ
42
ISSN
09196072
NCID
AN10115061
資料タイプ
テクニカルレポート
オフィシャル URL
http://www.bookpark.ne.jp/cm/ipsj/search.asp?flag=6&keyword=IPSJ-NL06175006&mode=PDF
言語
日本語
著作権者
ここに掲載した著作物の利用に関する注意 本著作物の著作権は情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。Notice for the use of this material The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, Copyright (C) Information Processing Society of Japan.
論文のバージョン
publisher
査読
有り