Pat
J-GLOBAL ID:201203003979484224
言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
Inventor:
,
,
Applicant, Patent owner:
Agent (5):
中島 淳
, 加藤 和詳
, 福田 浩志
, 佐久間 顕治
, 大古 奈奈
Gazette classification:公開公報
Application number (International application number):2011006187
Publication number (International publication number):2012146263
Application date: Jan. 14, 2011
Publication date: Aug. 02, 2012
Summary:
【課題】事前に与えた基準を守りつつ、それと異なる新しい文字列又は記号列を高精度に分割する。【解決手段】識別モデルパラメータ更新部25によって、NPYLMをCRFに変換し、変換したCRFの各エッジの重みと、CRFにおける対応するエッジの重みとを用いて第1の統合モデルを作成し、第1の統合モデルを、教師ありデータに基づいて学習する。生成モデルパラメータ更新部26によって、CRFをSemi-Markov CRFに変換し、Semi-Markov CRFの各エッジの重みとNPYLMの対応するエッジの重みとを用いて第2の統合モデルを作成し、第2の統合モデルを、教師なしデータに基づいて学習する。収束判定部27によって所定の収束条件を満たしたと判定されるまで、識別モデルパラメータ更新部25による更新と生成モデルパラメータ更新部26による更新とを交互に繰り返す。【選択図】図5
Claim (excerpt):
文字列又は記号列における隣接する文字または記号の各々が、分割単位の区切り目となる確率又は分割単位の区切り目とならない確率を示す同時確率を用いて、文字列又は記号列における分割単位の区切り目を推定する識別モデルのパラメータを、文字列又は記号列に分割単位の区切り目が付与されたデータを示す教師ありデータに基づいて学習する識別モデル学習手段と、
予め定められた前記分割単位を条件に、予め定められた後続の分割単位の候補が出現する確率を示す条件付確率を用いて、文字列又は記号列における分割単位の区切り目を推定する生成モデルのパラメータを、文字列又は記号列を示す教師なしデータに基づいて学習する生成モデル学習手段と、
前記生成モデルの前記条件付き確率に基づいて前記同時確率を算出し、算出した前記同時確率と対応する前記識別モデルの前記同時確率とを用いて前記分割単位の区切り目を推定する第1の統合モデルのパラメータを、前記教師ありデータに基づいて学習して、前記識別モデルのパラメータを更新する識別モデル更新手段と、
前記識別モデルの前記同時確率に基づいて前記条件付き確率を算出し、算出した前記条件付き確率と対応する前記生成モデルの前記条件付き確率とを用いて前記分割単位の区切り目を推定する第2の統合モデルのパラメータを、前記教師なしデータに基づいて学習して、前記生成モデルのパラメータを更新する生成モデル更新手段と、
前記識別モデル更新部による更新と前記生成モデル更新部による更新とを交互に繰り返して、所定の収束条件を満たしたときに、その時点の前記識別モデルのパラメータ及び前記生成モデルのパラメータを出力する収束判定手段と、
を含む言語モデル学習装置。
IPC (2):
FI (2):
G06F17/27 E
, G06N3/00 560J
F-Term (5):
5B091AA11
, 5B091BA03
, 5B091CA02
, 5B091CA05
, 5B091EA01
Return to Previous Page