[back to the index page]


検索エンジン「問答」におけるデータマイニング要素技術

川原稔 (京都大学大型計算機センター)
kawahara@kudpc.kyoto-u.ac.jp

河野 浩之 (京都大学大学院情報学研究科)
kawano@i.kyoto-u.ac.jp


概要

Webデータなど大量に蓄積されつつある電子化データに 対して,機械学習,データベース,統計などを基礎とし たデータマイニング技術を応用した知識発見ツールが盛 んに開発されている.我々は,相関ルール導出アルゴリ ズムを適用した検索式生成支援システム「問答」の構築 を行っている. 本稿では,ハイパーテキストであるWeb文書,INSPECデー タベース,国会図書館雑誌記事索引データなどの大量の 文書データに対してテキストマイニング技術を適用した 実験結果について論じる.まず,実時間性の高い検索支 援を行うための効率的なルール導出戦略に関する議論を 行う.次に,ヒューリスティックに与えられる閾値と, 導出される相関ルールの関係について論じた上で,検索 精度の優れた相関ルールを導出する閾値決定法に関して, ROC (Receiver Operating Characteristics) グラフを 利用しながら述べる.

[PDF file]