2章で検討したように, 外部リソースの位置指向検索における検索範囲の決定に関する問題では, 場所依存のパラメタと検索外部リソース依存のパラメタの 2種類が存在する.本章では,前者の問題について検討する. 後者については次章で検討する.
場所依存のパラメタに関しては, 一般的な位置指向の情報分布というものを算出し, それをもとに推測を行う方法を提案する.
まず, 位置指向の情報分布とは,次のような入出力を持つデータベースである.
入力:位置(住所や緯度経度など)出力:該当する情報の個数
このようなデータベースの構築は, なるべく網羅的で平均的なデータベースを用いることが望ましい. 例えば, 我々のMISで利用することを想定した場合には, 店舗情報等の検索が主であるため, NTTの職業別電話帳や通産省の商業統計地域情報等を利用することが考えられる.
このデータベースを基に,対象とする外部リソース毎に 検索結果数の予測を行う.この方法は, 「対象とする外部リソースが含む情報の分野と 情報分布データベースを作成する際に用いたデータに含まれる 情報の分野とをある程度揃えれば, 情報分布データベースの情報分布と 対象とする外部リソース中の情報分布には正の相関があると考えて良い.」 という仮定に基づいている. 表2は, 表1 の例について,職業別電話帳の職業分布との対比で この仮定の検証を行ったものであり, 推定相関係数から正の相関があると判断できる.
サイトA | サイトB | サイトC | |
サンプルでの相関係数
(サンプル数) |
0.946
(13) |
0.926
(13) |
0.812
(8) |
推定相関係数
(信頼度95%) |
0.85〜0.98 | 0.77〜0.98 | 0.65〜0.91 |
まず,検索結果数の予測の前処理として, サンプリングした,いくつかの箇所についてのみ, 対象外部リソースに対して検索を 実行しておき,検索結果の解の数を保持する. さらに,これらの箇所における, 対象外部リソースの解の数と情報分布データの個数の比の 平均を算出し,これを対象外部リソース係数とする.
この前処理を基に,検索範囲の決定は次のように行う.
まず,指定された場所の情報分布と対象外部リソース係数の積で
対象外部リソースのその場所における検索結果数を予測する.
検索結果数の予測を基に,検索範囲を決定する.
一般に,検索範囲の指定の仕方は離散的な値を取ることが多い.
2章の
住所の例では4〜5段階であるし,中心座標と半径が指定できるような
サイトであっても半径についてはある程度限られた離散値しか取れない
場合が多い.離散的な検索範囲の候補の中からひとつを選び出す際には,
検索結果数が多過ぎないようにすることと
少な過ぎないようにすることとのトレードオフが存在する.
我々が現在適用しようとしているMISでは,
少な過ぎないことを重視する.
そこで,検索結果数の予測値が目標値を下回っていない検索候補の
うち,検索範囲がもっとも狭いものを検索範囲として採用する.