next up previous
Next: リソース内容の評価方法 Up: 内容を考慮した収集方法 Previous: 内容を考慮した収集方法

情報収集アルゴリズム

  リソース収集は基本的に、以下に示すリソースの内容を考慮した、WWWページへの 重み付けによる方法で行う。 ただし、重み( 収集の優先順位 )が同じであった場合には、幅優先探索 gif を使用して行う。

位置情報を含むリソースを選択的に収集するためには、既に収集したWWWページ 中に含まれるハイパーリンク(アンカー)から収集すべきものを予測および選択す る必要がある。 そこで次のような実験を行った。

実験結果を図gifに示す。

  
図: 位置情報の現れ方によるリンク先ページの位置情報含有率

gif中の上段の数字の分母は、条件にあてはまる全アンカー 数を示し、分子はそのうちリンク先のページが位置情報を含むものの数を示して いる。 下段の数値は、位置情報含有率である。

実験の結果、アンカーラベルに着目することで、WWWページを収集せずに内容の 推測が可能であることが分かった。

この実験を基に、以下に示す、未収集のWWWページに対する重み付けのアルゴリ ズムを提案する。

更に正確な収集を行うために、位置情報検索システム用ロボットでは、既に収集 したWWWページに対する重み付けも行う。 この重み付けは2回目以降の収集に有効である。 この場合、WWWページは既に収集済みで、位置情報抽出には、WWWページの内容を 使用できるため、上記の抽出に加え、電話番号や郵便番号等の抽出を行うことで、 より正確な位置情報抽出を行う。 これらの重み付けの様子を図gifに示す。

  
図: WWWページに対する重み付け



Nobuyuki Miura
Fri May 1 22:48:41 JST 1998