next up previous
Next: おわりに Up: 内容を考慮した収集方法 Previous: 情報収集アルゴリズム

リソース内容の評価方法

  地名等の位置情報をWWWページ中から正確に抽出するためには、WWWページを形態 素解析し、品詞情報を利用する方法が有効である。 そのため、内容の評価は、主に形態素解析を使用して行うが、地名やランドマー ク名には固有名詞が多く使用されており、形態素解析に使用される辞書は全てを 網羅しきれていない。 そこで、地名やランドマークに関する固有名詞を辞書に登録して形態素解析をお こなう。

また、位置情報として有用な電話番号、郵便番号は形態素解析では抽出できない ため、表gifのようなパターンによる抽出を行う。 表gifに示したパターンは、実際にWWWページを見て得られた ものである。 表gifには、WWWページ中からの電話番号抽出実験の結果も示 しており、各パターンの出現回数は表gif通りである。 パターンの出現文書数は、1369ページ[10.3%]で、このことからも電話番号等パ ターンマッチによる情報抽出が有効なことが分かる。 実験には、YAHOO Japan,NTTディレクトリ,Infoseek Japanを始点URLとした13313 ページ(幅優先探索のみを使用して収集したもの)を用いている。

  

電話番号の抽出結果(総ページ数:13313)
マッチパターン 出現回数
0x-xxxx-xxxx 3522
0x[xxxx]xxxx 145
[0x]xxxx-xxxx 52
0x,xxxx,xxxx 126
0x(xxxx)xxxx 709
(0x)xxxx-xxxx 258
0xーxxxxーxxxx 47

表: 電話番号の抽出結果(総ページ数:13313)



Nobuyuki Miura
Fri May 1 22:48:41 JST 1998