Pat
J-GLOBAL ID:200903093597726612

関連語抽出方法および装置

Inventor:
Applicant, Patent owner:
Agent (1): 森下 賢樹
Gazette classification:公開公報
Application number (International application number):2002050415
Publication number (International publication number):2003256447
Application date: Feb. 26, 2002
Publication date: Sep. 12, 2003
Summary:
【要約】【課題】 未知語を含む新規テキストから関連語を抽出するのは難しかった。【解決手段】 前処理部50は、文書ファイル26を参照して、二連単語リストBi(α)を作成する前処理を行う。第1処理部52は、注目単語aに対して、前置単語xのリストF(a)と、後置単語yのリストB(a)を生成する第1の処理を行う。第2処理部54は、二連単語リストBi(α)を参照して、各前置単語xに対する後置単語の集合BF(a)と、各後置単語yに対する前置単語の集合FB(a)を生成する第2の処理を行う。第3処理部56は、これらの後置単語の集合BF(a)と前置単語の集合FB(a)の共通要素から、関連語の候補対(a,b)を抽出する第3の処理を行う。
Claim (excerpt):
文書の集合を格納する文書データベースと、前記文書中で前後に共通した単語が連なる2つの異なる単語を関連語の候補対として選定する候補選定部と、前記関連語の候補対について、それらの単語の前後に接続する文字列の類似性にもとづいて関連度を判定する判定部と、前記関連度の高い前記候補対を前記文書データベースに関連語辞書として登録する登録部とを含むことを特徴とする関連語抽出装置。
IPC (3):
G06F 17/30 220 ,  G06F 17/30 170 ,  G06F 17/27
FI (3):
G06F 17/30 220 Z ,  G06F 17/30 170 A ,  G06F 17/27 Z
F-Term (7):
5B075ND02 ,  5B075NS10 ,  5B091AA15 ,  5B091AB17 ,  5B091CA02 ,  5B091CC05 ,  5B091CC16
Patent cited by the Patent:
Cited by examiner (1)

Return to Previous Page