Pat
J-GLOBAL ID:201003078589857360
言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム
Inventor:
,
Applicant, Patent owner:
Agent (2):
磯野 道造
, 大石 恵
Gazette classification:公開公報
Application number (International application number):2009010931
Publication number (International publication number):2010170252
Application date: Jan. 21, 2009
Publication date: Aug. 05, 2010
Summary:
【課題】教師データを用いずとも、言語モデルの作成と単語分割とを行えるようにする。【解決手段】言語モデル作成装置は、文字列データ131に格納された複数の文をランダムな順に選択し、言語モデル132を用いて、この選択した文における単語の区切り目の候補となる文字列を示した文字列分割パターン群を作成する。また、その文がその文字列分割パターン群の文字列分割パターンに該当する確率を記憶部に記録しておき、この確率に従って、文字列分割パターン群の中から、文字列分割パターンを選択する。そして、この選択した文字列分割パターンを用いて言語モデル132を更新する。このような処理を、文字列データ131に格納された複数の文すべてについて実行し、言語モデル132を最適化する。そして、このようにして最適化された言語モデル132を用いて、文の最尤単語分割を実行する。【選択図】図2
Claim (excerpt):
文を構成する文字列を単語ごとに分割し、その分割結果を用いて文字nグラムモデルおよび単語nグラムモデルからなる言語モデルを作成する言語モデル作成装置が、
学習データである複数の文の入力を受け付けるステップと、
前記入力された複数の文から処理対象の文を選択するステップと、
前記選択した文について、前記文における単語の区切り目の候補となる文字列を示した文字列分割パターンを所定数作成し、前記作成した文字列分割パターンそれぞれについて、前記選択した文が、その文字列分割パターンに該当する確率を記録し、その記録された確率に従い、前記作成した文字列分割パターンの中から、文字列分割パターンを選択するステップと、
前記文字列分割パターンの選択結果を用いて、前記言語モデルを更新するステップとを実行した後、
前記入力された複数の文から、他の別の文を選択するステップと、
前記選択した文について、前記更新した言語モデルを参照して、前記選択した文における単語の区切り目の候補を示した文字列分割パターンを所定数作成し、前記作成した文字列分割パターンそれぞれについて、前記更新した言語モデルを参照して、前記選択した文が、その文字列分割パターンに該当する確率を記録し、その記録された確率に従い、前記作成した文字列分割パターンの中から文字列分割パターンを選択するステップと、
前記選択した文字列分割パターンを用いて、前記言語モデルを更新するステップとを前記入力された複数の文すべてについて実行することを繰り返した後、最終的に更新した言語モデルを出力することを特徴とする言語モデル作成方法。
IPC (1):
FI (1):
F-Term (4):
5B091AA15
, 5B091CA02
, 5B091EA01
, 5B091EA02
Patent cited by the Patent:
Cited by examiner (2)
-
形態素解析装置、方法及びプログラム
Gazette classification:公開公報
Application number:特願2004-206996
Applicant:沖電気工業株式会社
-
単語分割モデルの生成方法
Gazette classification:公開公報
Application number:特願2002-062625
Applicant:株式会社国際電気通信基礎技術研究所
Article cited by the Patent:
Return to Previous Page