Pat
J-GLOBAL ID:200903098196908736
辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
Inventor:
Applicant, Patent owner:
Agent (1):
伊東 忠彦
Gazette classification:公開公報
Application number (International application number):1998340546
Publication number (International publication number):2000163441
Application date: Nov. 30, 1998
Publication date: Jun. 16, 2000
Summary:
【要約】 (修正有)【課題】 入力言語側と目標言語側の両言語側で検索要求の曖昧性を解消し、さらに、多言語拡張を容易にした2言語間辞書を自動作成する多言語対応情報検索システムを提供する。【解決手段】 既存検索システムによるWWWにおける文書収集ロボットにより2言語間で対になっている対文書を収集し、収集された2つの対文書の類似度を測定し、分割されたセクションから、文書を特徴付ける重要な単語を該文書中から抽出し、2言語間で対応するセクション同士で考えられる全ての単語同士の組み合わせから、該2言語間の単語のつながりを2言語間対訳辞書として記憶手段に格納し、入力言語内で考えられる全ての単語同士の組み合わせから、入力言語内の単語の共起関係の強さを入力言語内単語間共起辞書として記憶手段に格納し、入力言語内で考えられる全ての単語同士の組み合わせから、目標言語内の単語の共起関係の強さを目標言語内単語間共起辞書として記憶手段に格納する。
Claim (excerpt):
ユーザの知りたい情報と関連が深いWWW文書を検索するために、ユーザが検索要求を投入する際に使用した入力言語、該ユーザの指定した検索要求の変換先言語である目標言語の2言語に対して、それぞれ検索要求を作成する場合に、該入力言語から該目標言語へ変換する際に使用する2言語間の辞書を自動的に作成するための辞書作成方法において、既存検索システムによるWWWにおける文書収集ロボットにより2言語間で対になっている対文書を収集し、収集された2つの前記対文書の類似度を測定し、前記類似度に基づいて抽出された各文書をより細かなセクションと呼ばれる単位に文書を分割し、分割されたセクションから、前記文書を特徴付ける重要な単語を該文書中から抽出し、2言語間で対応するセクション同士で考えられる全ての単語同士の組み合わせから、該2言語間の単語のつながりを2言語間対訳辞書として記憶手段に格納し、前記入力言語内で考えられる全ての単語同士の組み合わせから、入力言語内の単語の共起関係の強さを入力言語内単語間共起辞書として記憶手段に格納し、前記入力言語内で考えられる全ての単語同士の組み合わせから、前記目標言語内の単語の共起関係の強さを目標言語内単語間共起辞書として記憶手段に格納することを特徴とする辞書作成方法。
IPC (2):
FI (6):
G06F 15/401 330 Z
, G06F 15/38 C
, G06F 15/40 310 F
, G06F 15/40 370 J
, G06F 15/403 330 B
, G06F 15/419 320
F-Term (19):
5B075KK07
, 5B075PP12
, 5B075PP22
, 5B075PP30
, 5B075PQ02
, 5B075PQ42
, 5B075PR06
, 5B075QM08
, 5B075QP01
, 5B075QS20
, 5B075UU01
, 5B075UU06
, 5B075UU40
, 5B091AA01
, 5B091BA02
, 5B091CC02
, 5B091CC05
, 5B091CC16
, 5B091CD03
Return to Previous Page