抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Web文書集合内には多くの同義語が存在するので,ユーザの入力クエリを含む文書を検索するだけでは網羅性が低い。本論文では,クエリ入力支援システムとして,任意のユーザ入力クエリの同義語候補を提示する動的同義語抽出アルゴリズムを提案した。本手法では「意味の似ている語は似た文脈で使用される」との仮定に基づき,文脈としてクエリ文字列に隣接する文字列を高速に検索するために,全文検索用索引構造であるSuffix Arrayを利用した。まず,得られた隣接文字列の集合をトライ木として表し,TF-IDF(Term Frequency-Inverse Document Frequency)値に類似したスコア付けを行うことで上位N
1個の文脈を選択する。次に,文脈文字列に隣接する文字列を取得してトライ木として表し,文脈に多く連接するほど高くなるスコア関数に基づいて上位N
2個の候補を同義語候補とする。実際に本アルゴリズムを特定文書集合に応用し,特別な前処理を必要とせずに英語など多言語に適用できることを示した。さらに,7Mbytesのコーパスを用いた実験では約2秒で1クエリに対する応答が得られ,ベクトル空間モデルに基づく従来手法よりもやや劣る抽出精度となった。