特許
J-GLOBAL ID:200903080439924305
言語処理装置およびプログラム
発明者:
,
,
,
,
出願人/特許権者:
代理人 (2件):
志賀 正武
, 高橋 詔男
公報種別:公開公報
出願番号(国際出願番号):特願2008-113908
公開番号(公開出願番号):特開2009-265889
出願日: 2008年04月24日
公開日(公表日): 2009年11月12日
要約:
【課題】互いに関係を持つ可能性の高い名詞の対のみを精度良く抽出するとともに、それら対をなす2つの名詞の関係も抽出することのできる言語処理装置を提供する。【解決手段】言語処理装置は、入力テキストデータを基に、一つの文に含まれる単語のペアを処理対象単語ペアとして選択するとともに処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出部と、共起単語を選択するとともに、共起単語の出現頻度特徴を抽出する共起単語特徴抽出部と、処理対象単語ペアと共起単語との当該文中の構文構造を抽出するとともに、構文構造の出現頻度特徴を抽出する構文構造特徴抽出部と、得られたこれらの出現頻度特徴のデータを用いて機械学習処理により、処理対象単語ペアの条件付き確率と、共起単語の条件付き確率と、構文構造の条件付き確率とを算出し、学習結果データとして学習結果データ記憶部に書き込む機械学習処理部とを具備する。【選択図】図1
請求項(抜粋):
複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出部と、
前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出部と、
前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出部と、
処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理部と、
を備えることを特徴とする言語処理装置。
IPC (2件):
FI (2件):
G06F17/28 U
, G06F17/21 550A
Fターム (9件):
5B091AA15
, 5B091CA05
, 5B091CA12
, 5B091CC05
, 5B091CC16
, 5B091EA01
, 5B091EA24
, 5B109QA03
, 5B109QA04
引用特許:
引用文献:
前のページに戻る