情報収集アルゴリズム

Next: リソース内容の評価方法 Up: 内容を考慮した収集方法 Previous: 内容を考慮した収集方法

情報収集アルゴリズム

リソース収集は基本的に、以下に示すリソースの内容を考慮した、WWWページへの重み付けによる方法で行う。ただし、重み( 収集の優先順位 )が同じであった場合には、幅優先探索を使用して行う。

位置情報を含むリソースを選択的に収集するためには、既に収集したWWWページ中に含まれるハイパーリンク(アンカー)から収集すべきものを予測および選択する必要がある。そこで次のような実験を行った。

サンプルページ( WWW上からランダムに選択した20ページ )に含まれる位置情報を抽出し、位置情報の現れ方により分類する。
サンプルページ中に含まれるアンカーについて、アンカーラベル中の位置情報の有無による分類を行い、更に、リンク先ページの位置情報の有無を調べる。
各分類毎に、位置情報を含むWWWページの割合( = 位置情報含有率) を求める。

実験結果を図に示す。

図: 位置情報の現れ方によるリンク先ページの位置情報含有率

図中の上段の数字の分母は、条件にあてはまる全アンカー数を示し、分子はそのうちリンク先のページが位置情報を含むものの数を示している。下段の数値は、位置情報含有率である。

実験の結果、アンカーラベルに着目することで、WWWページを収集せずに内容の推測が可能であることが分かった。

この実験を基に、以下に示す、未収集のWWWページに対する重み付けのアルゴリズムを提案する。

アンカーラベルを形態素解析し、地名やランドマークの情報を含むものの重みを大きくする。
ただし、抽出元のページに位置情報を含むアンカーラベルがある場合は、そのページに含まれる未収集のWWWページに対しする重みは変更しない。どちらにもあてはまらない場合は、WWWページの重みを下げる。

更に正確な収集を行うために、位置情報検索システム用ロボットでは、既に収集したWWWページに対する重み付けも行う。この重み付けは2回目以降の収集に有効である。この場合、WWWページは既に収集済みで、位置情報抽出には、WWWページの内容を使用できるため、上記の抽出に加え、電話番号や郵便番号等の抽出を行うことで、より正確な位置情報抽出を行う。これらの重み付けの様子を図

に示す。

図: WWWページに対する重み付け

Nobuyuki Miura
Fri May 1 22:48:41 JST 1998