Pat
J-GLOBAL ID:200903080439924305

言語処理装置およびプログラム

Inventor:
Applicant, Patent owner:
Agent (2): 志賀 正武 ,  高橋 詔男
Gazette classification:公開公報
Application number (International application number):2008113908
Publication number (International publication number):2009265889
Application date: Apr. 24, 2008
Publication date: Nov. 12, 2009
Summary:
【課題】互いに関係を持つ可能性の高い名詞の対のみを精度良く抽出するとともに、それら対をなす2つの名詞の関係も抽出することのできる言語処理装置を提供する。【解決手段】言語処理装置は、入力テキストデータを基に、一つの文に含まれる単語のペアを処理対象単語ペアとして選択するとともに処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出部と、共起単語を選択するとともに、共起単語の出現頻度特徴を抽出する共起単語特徴抽出部と、処理対象単語ペアと共起単語との当該文中の構文構造を抽出するとともに、構文構造の出現頻度特徴を抽出する構文構造特徴抽出部と、得られたこれらの出現頻度特徴のデータを用いて機械学習処理により、処理対象単語ペアの条件付き確率と、共起単語の条件付き確率と、構文構造の条件付き確率とを算出し、学習結果データとして学習結果データ記憶部に書き込む機械学習処理部とを具備する。【選択図】図1
Claim (excerpt):
複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出部と、 前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出部と、 前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出部と、 処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理部と、 を備えることを特徴とする言語処理装置。
IPC (2):
G06F 17/28 ,  G06F 17/21
FI (2):
G06F17/28 U ,  G06F17/21 550A
F-Term (9):
5B091AA15 ,  5B091CA05 ,  5B091CA12 ,  5B091CC05 ,  5B091CC16 ,  5B091EA01 ,  5B091EA24 ,  5B109QA03 ,  5B109QA04
Patent cited by the Patent:
Cited by examiner (1)
Article cited by the Patent:
Return to Previous Page