地名等の位置情報をWWWページ中から正確に抽出するためには、WWWページを形態 素解析し、品詞情報を利用する方法が有効である。 そのため、内容の評価は、主に形態素解析を使用して行うが、地名やランドマー ク名には固有名詞が多く使用されており、形態素解析に使用される辞書は全てを 網羅しきれていない。 そこで、地名やランドマークに関する固有名詞を辞書に登録して形態素解析をお こなう。
また、位置情報として有用な電話番号、郵便番号は形態素解析では抽出できない ため、表のようなパターンによる抽出を行う。 表に示したパターンは、実際にWWWページを見て得られた ものである。 表には、WWWページ中からの電話番号抽出実験の結果も示 しており、各パターンの出現回数は表通りである。 パターンの出現文書数は、1369ページ[10.3%]で、このことからも電話番号等パ ターンマッチによる情報抽出が有効なことが分かる。 実験には、YAHOO Japan,NTTディレクトリ,Infoseek Japanを始点URLとした13313 ページ(幅優先探索のみを使用して収集したもの)を用いている。
電話番号の抽出結果(総ページ数:13313) | |
---|---|
マッチパターン | 出現回数 |
0x-xxxx-xxxx | 3522 |
0x[xxxx]xxxx | 145 |
[0x]xxxx-xxxx | 52 |
0x,xxxx,xxxx | 126 |
0x(xxxx)xxxx | 709 |
(0x)xxxx-xxxx | 258 |
0xーxxxxーxxxx | 47 |