言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム

発明者： ,
出願人/特許権者：
代理人 (2件)：磯野道造 , 大石恵
公報種別：公開公報
出願番号（国際出願番号）：特願2009-010931
公開番号（公開出願番号）：特開2010-170252
出願日： 2009年01月21日
公開日（公表日）： 2010年08月05日
要約：

【課題】教師データを用いずとも、言語モデルの作成と単語分割とを行えるようにする。【解決手段】言語モデル作成装置は、文字列データ131に格納された複数の文をランダムな順に選択し、言語モデル132を用いて、この選択した文における単語の区切り目の候補となる文字列を示した文字列分割パターン群を作成する。また、その文がその文字列分割パターン群の文字列分割パターンに該当する確率を記憶部に記録しておき、この確率に従って、文字列分割パターン群の中から、文字列分割パターンを選択する。そして、この選択した文字列分割パターンを用いて言語モデル132を更新する。このような処理を、文字列データ131に格納された複数の文すべてについて実行し、言語モデル132を最適化する。そして、このようにして最適化された言語モデル132を用いて、文の最尤単語分割を実行する。【選択図】図2

請求項（抜粋）：

文を構成する文字列を単語ごとに分割し、その分割結果を用いて文字nグラムモデルおよび単語nグラムモデルからなる言語モデルを作成する言語モデル作成装置が、学習データである複数の文の入力を受け付けるステップと、前記入力された複数の文から処理対象の文を選択するステップと、前記選択した文について、前記文における単語の区切り目の候補となる文字列を示した文字列分割パターンを所定数作成し、前記作成した文字列分割パターンそれぞれについて、前記選択した文が、その文字列分割パターンに該当する確率を記録し、その記録された確率に従い、前記作成した文字列分割パターンの中から、文字列分割パターンを選択するステップと、前記文字列分割パターンの選択結果を用いて、前記言語モデルを更新するステップとを実行した後、前記入力された複数の文から、他の別の文を選択するステップと、前記選択した文について、前記更新した言語モデルを参照して、前記選択した文における単語の区切り目の候補を示した文字列分割パターンを所定数作成し、前記作成した文字列分割パターンそれぞれについて、前記更新した言語モデルを参照して、前記選択した文が、その文字列分割パターンに該当する確率を記録し、その記録された確率に従い、前記作成した文字列分割パターンの中から文字列分割パターンを選択するステップと、前記選択した文字列分割パターンを用いて、前記言語モデルを更新するステップとを前記入力された複数の文すべてについて実行することを繰り返した後、最終的に更新した言語モデルを出力することを特徴とする言語モデル作成方法。

IPC (1件)：

G06F 17/28

FI (1件)：

G06F17/28 U

Fターム (4件)：

5B091AA15 , 5B091CA02 , 5B091EA01 , 5B091EA02

引用特許：

審査官引用 (2件)

形態素解析装置、方法及びプログラム
公報種別：公開公報出願番号：特願2004-206996 出願人：沖電気工業株式会社
単語分割モデルの生成方法
公報種別：公開公報出願番号：特願2002-062625 出願人：株式会社国際電気通信基礎技術研究所

引用文献：

審査官引用 (2件)

単語知識を必要としない高精度な言語モデル
文字クラスモデルに基づく日本語単語分割

前のページに戻る