特許
J-GLOBAL ID:200903064398669910

言語モデリング・システム及び言語モデルを形成する方法

発明者:
出願人/特許権者:
代理人 (1件): 頓宮 孝一 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平6-006881
公開番号(公開出願番号):特開平6-318096
出願日: 1994年01月26日
公開日(公表日): 1994年11月15日
要約:
【要約】【目的】言語モデリング・システムのメモリ所要量および収斂時間を大幅に低減する。【構成】各nグラムは互いに交差しないn個のクラスの1つと関連される。各nグラムについて訓練データ中で各nグラムが生起する回数がカウントされる。nグラムはクラスに分離され、補数カウントが決定される。このカウントおよび補数カウントを用いて各クラスにつき1つのこの因子が決定される。この因子を用いて、先行2ワードが生起している条件のもとでワードが生起する確率、すなわち言語モデル確率が決定される。
請求項(抜粋):
一連のnグラムの形に分割された訓練テキストの形でデータを受け取るコンピュータ利用言語モデリング・システムであって、各nグラムが一連のnワードから成り、各nグラムが自身に関連するカウントを有し、その履歴がその最初のn-1ワードであるものにおいて、先行するn-1ワードが与えられたものとして予測ワードの条件付き確率を決定するための言語モデリング手段を具備し、該言語モデリング手段が、上記データを貯蔵するためのメモリ手段と、各nグラム内の各ワードを調べ、所与nグラムの1または複数ワードの識別に基づいて各nグラムを1または複数のクラスに分類して各nグラムを1または複数のクラスに正確に関連づけるための上記メモリ手段に結合された分離手段であって、各クラスは自身に1または複数の同じnグラムを関連させており、該同じnグラムは同じ予測ワードおよびx個の先行ワードを有し、各クラスはnグラムのクラスを決定するときに用いられるxの値に基づいて1または複数の集合により識別される如き分離手段と、上記クラスの各々について因子を決定するために上記分離手段の出力および上記メモリ手段に結合された因子手段であって、該因子は先行n-1ワードが与えられたときに上記予測ワードを予測する相対的強度を表し、各因子の値は、所与クラスに関連する各nグラムのカウントの合計の、上記予測ワードが後続するならば上記所与クラスに属する筈のすべての(n-1)グラムのカウントの合計に対する比にほぼ等しいものであるところの因子手段と、先行する(n-1)ワードの特定シーケンスが生起したときの上記予測ワードが生起する条件付き確率を上記因子を用いて決定するために上記ユーザ・インターフェースの出力に結合された条件付き確率手段であって、所与のnグラムが関連されているクラスに関連する因子を第1因子とし該所与のnグラムが上記予測ワードおよび該予測ワードの履歴に等しいものとして、該条件付き確率は、上記第1因子の、1または複数の因子の合計に対する比にほぼ等しく、該1または複数の因子は語彙中の任意のワードが後続する(n-1)ワードの上記特定シーケンスを用いて得られるnグラムのすべてのクラスに関連されるものである条件付き確率手段と、より成る言語モデリング・システム。
IPC (3件):
G10L 3/00 531 ,  G10L 3/00 521 ,  G06F 15/38
引用特許:
審査官引用 (1件)
  • 特開平4-117232

前のページに戻る