特許
J-GLOBAL ID:200903052187335952
統計的言語モデル生成装置及び音声認識装置
発明者:
,
出願人/特許権者:
代理人 (1件):
青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-063485
公開番号(公開出願番号):特開2002-268677
出願日: 2001年03月07日
公開日(公表日): 2002年09月20日
要約:
【要約】【課題】 言語モデルの適応データにおいて話題や文型などのドメインを考慮して、効率的に統計的言語モデルを生成する。【解決手段】 言語モデル生成部20は、学習用テキストデータメモリ13,14内の学習用テキストデータに基づいてすべての単語を処理対象の単語の前に接続される単語の品詞属性に基づく後向きクラスの品詞クラスに分類し、処理対象の単語の後に接続される単語の品詞属性に基づく前向きクラスの品詞クラスに分類する。次いで、複数の単語が連続したときに固有の読みが与えられる結合単語について後向きクラスについて結合単語内の最先の単語の品詞クラスにクラス分類し、前向きクラスについて結合単語内の最後の単語の品詞クラスにクラス分類した後、処理対象の単語の前の接続と後ろの接続毎に複数の品詞クラスを有する多重クラスN-gramの出現確率を計算してその統計的言語モデルを生成する。
請求項(抜粋):
所定の第1の話題に関する発声音声文を書き下した学習用テキストデータと、上記第1の話題と異なる第2の話題に関する文でありかつ上記発声音声文とは異なる文型を有する文の学習用テキストデータとに基づいて、すべての単語をそれぞれ、処理対象の単語の前に接続される単語の品詞属性に基づく後向きクラスの品詞クラスに分類する第1の分類手段と、上記2つの学習用テキストデータに基づいて、すべての単語をそれぞれ、処理対象の単語の後に接続される単語の品詞属性に基づく前向きクラスの品詞クラスに分類する第2の分類手段と、複数の単語が連続したときに固有の読みが与えられる複数の単語の列である所定の結合単語について、後向きクラスの品詞クラスについて結合単語内の最先の単語の品詞クラスにクラス分類する一方、前向きクラスの品詞クラスについて結合単語内の最後の単語の品詞クラスにクラス分類する第3の分類手段と、上記第1の分類手段と上記第2の分類手段と上記第3の分類手段とによってクラス分類された単語データに基づいて、処理対象の単語の前の接続と後ろの接続毎に複数の品詞クラスを有する単語クラスN-gramの出現確率を計算することにより単語クラスN-gramの統計的言語モデルを生成する第1の生成手段とを備えたことを特徴とする統計的言語モデル生成装置。
IPC (3件):
G10L 15/18
, G06F 17/21 550
, G06F 17/28
FI (3件):
G06F 17/21 550 A
, G06F 17/28 V
, G10L 3/00 537 D
Fターム (10件):
5B009KB00
, 5B009MB21
, 5B009MC00
, 5B009QA03
, 5B091AA15
, 5B091BA02
, 5B091CB12
, 5B091CC04
, 5D015AA01
, 5D015HH23
前のページに戻る