抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,電子化された文書の増大と共にそれらを検索対象とした全文検索を少ないリソースで,精度良く,高速に行う事は非常に重要である。一般的に全文検索は検索条件に基づいて検索結果の集合を特定し,提示順序を決定する。既存の全文検索では検索条件となる語が複合語の場合,その複合語が連接する場合(検索対象にそのまま出現)のみ検索されるため,再現率を犠牲にする可能性があった。また,検索結果の提示順序は入力された単語が複数の場合,その単語同士の検索対象中での出現距離が有効である事が報告されているが,インデックスから求める方法については具体的に言及されていないため,実用的ではない。そこで,本研究ではインデックスに保存される単語の位置情報を文単位の近接情報のみで構成する文単位転置インデックスを提案する。文単位転置インデックスでは検索結果集合の特定を連接ではなく近接(文中で複合語を構成する単語が共起すること)に変更し,複合語がそのまま出現しなくても,検索されるため再現率を上げる可能性がある。また,近接で得られた集合に対して出現距離を考慮して提示順序を決定し,精度向上を実現する。さらに高速に計算を行うためにその近接情報をbit列で保持する方法を提案する。評価実験として本提案の全文検索システムを実装し,情報検索の標準データセットであるIREX IRのデータに適用し,提案システムの精度が既存手法に比べて3~8%上昇した事を確認した。(著者抄録)