[back to the index page]


リンク情報に基づくミラーサイト検出アルゴリズムの検証

栗原 聡、廣津 登志夫、高田 敏弘、菅原 俊治

NTT未来ねっと研究所 Email:kurihara@t.onlab.ntt.co.jp


概要

WWWホームページに埋め込まれているリンク情報を手掛かりに,ミラー もしくはミラーとして代用可能なサイトを検出する手法を提案,その初期実験 を行った.2つのホームページ内のリンク先の重複度に基づいて類似度を求め た.その結果,プライマリサーバとの類似度が高いものだけでなく,低いもの であってもミラーとして十分代用可能なサイトを検出できることが検証された. 今回行った実験では,外部へのリンクを含むURLの内,約13\%においてそのURL のミラーもしくはミラーの代用としてアクセスしても問題ないと解釈できる URLを検出することができた.よって本手法を膨大なアクセスログが得られる proxyサーバなどで実行させることで,ミラー情報を効果的に収集できネット ワークの負荷分散など有効利用に活用できることが期待できる.

[PDF file]