位置指向の情報検索では,検索範囲を陽に与えることになる場合が多く, また,その範囲の与え方が検索結果の解の数や検索の応答時間等に 影響する.中心点の緯度経度と検索範囲の半径という組は その典型的な例であるし,住所を検索条件として与える場合でも 「東京都」,「東京都中央区」,「東京都中央区銀座」,「東京都中央区銀座3丁目」 といった具合におのずと検索範囲を含めることになる. 使い勝手を良くするためには, 検索結果数が適度に得られるようにして, 検索結果が0件の場合の検索再実行のコストや 検索結果があまりに多い場合に検索結果の中から求める情報をユーザが取捨選択するコストを低減する必要があり, このような検索範囲を適切に与える必要がある. この時,検索する対象の データベースの内容全体がすべて見えるような内部リソースであれば, 検索範囲の自動調整は比較的容易であると考えられるが, どのような検索範囲を与えればどれくらいの個数の解が得られるのかが 経験的にしかわからないような外部リソースの場合は 必ずしも容易ではない.
表1は,MISにおいてwrapperをかけている サイトの中から著名な3サイトを選び,3箇所の住所について 指定する住所の深さを変えて検索を行った時の検索結果の解の数である. ここでは仮に,検索結果数が100件程度が望ましいと仮定して, それを満たす検索条件の欄に○印を振った. 銀座の例では,サイトAは深さ4以上,サイトBについては深さ4, サイトCについては深さ3で指定するのが望ましいということになる. しかし,このような深さの扱いは 当然ながら場所依存であり,三芳町の例では,サイトAは深さ3, サイトBは深さ1,サイトCは深さ2, 梅田の例ではサイトAは深さ4,サイトBは深さ3,サイトCは深さ2 で指定するのが望ましい. したがって, 外部リソースの位置指向情報検索においては, 検索対象の場所というパラメタと検索対象データベースの特性というパラメタの 2つを考慮して 適切な検索範囲を決める必要がある.
深さ | 住所 | サイトA | サイトB | サイトC |
1 | 東京都 | 232536 | 5278 | N/A |
2 | 東京都中央区 | 17746 | 258 | N/A |
3 | 東京都中央区銀座 | 3326 | 150 | ○ 98 |
4 | 東京都中央区銀座3丁目 | ○ 441 | ○ 22 | 14 |
1 | 埼玉県 | 54695 | ○ 47 | N/A |
1.5 | 埼玉県入間郡 | 535 | 4 | ○ 1 |
2 | 埼玉県入間郡三芳町 | 133 | 1 | 0 |
3 | 埼玉県入間郡三芳町みよし台 | ○ 4 | 0 | 0 |
1 | 大阪府 | 82824 | 1709 | N/A |
1.5 | 大阪府大阪市 | 10095 | 1662 | N/A |
2 | 大阪府大阪市北区 | 1730 | 290 | ○ 89 |
3 | 大阪府大阪市北区梅田 | 324 | ○ 37 | 11 |
4 | 大阪府大阪市北区梅田1丁目 | ○ 39 | 24 | 5 |
このような問題に対して,各データベースが検索条件とその検索結果数を
外部に公開していることを前提にして解の個数を予想する
アプローチ[3]
やそれらを外部から参照できる仕組みの普及を行う
というアプローチもあろうが,
本稿では既存のデータベースには手を加えず,
検索を中継する側のみで対処する方法を考える.