[back to the index page]


ディレクトリ情報と文書のスタイルを用いたWeb文書のクラスタリング

Clustering of Web Documents Using Directory Information and Document Style

鈴木 優(1)、田中 克己(2)、吉川 正俊(1)、植村 俊亮(1)
(1)奈良先端科学技術大学院大学情報科学研究科
(2)神戸大学大学院自然科学研究科


概要

本稿では,ロボット型検索エンジンによって得られた検索結果を,ディレクト リ型検索エンジンのディレクトリ構造に従って分類する手法について提案する. まず,あらかじめディレクトリ型検索エンジンからディレクトリ構造を取り出し, ディレクトリに含まれるWeb文書から特徴ベクトルを計算した後,それらに基づいて ディレクトリへ特徴ベクトルを計算する. さらにユーザがロボット型検索エンジンを用いて検索したWeb文書群から特 徴ベクトルを生成し,ディレクトリに付けられた特徴ベクトルとの類似度をそれ ぞれ計算する.その結果,一番類似度の高いディレクトリへWeb文書を分類する. 本稿では更に,特徴ベクトルを生成する要素として形態素の頻度情報のみではなく 文書のスタイルを表す情報を導入した.ここでの文書のスタイル情報とは,文書 の特徴を表す情報である.文書のスタイル情報を用いることによって,再現率を低下さ せることなく適合率を向上させることが可能となる.

[PS file]