特許
J-GLOBAL ID:200903036289127542

統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-378702
公開番号(公開出願番号):特開2001-236089
出願日: 2000年12月13日
公開日(公表日): 2001年08月31日
要約:
【要約】【課題】 単語辞書において未登録の未登録語に関する音声認識の精度を高くし、未登録語の区間やクラスを同定する統計的言語モデルを生成する。【解決手段】 未登録語モデル生成部20は学習データにおけるモーラ長に対する単語数の割合が実質的にガンマ分布に従うと仮定したときのモーラ長のガンマ分布のパラメータをクラスに依存して推定して計算し、モーラ又はモーラ連鎖であるサブワード単位で、固有名詞又は外来語の普通名詞の下位クラスであるクラスを有する第1のN-gramの出現確率を計算して未登録語を含む単語系列をモデル化したサブワード単位N-gramモデルを生成する。言語モデル生成部24は、単語クラスN-gramモデルとサブワード単位N-gramモデルとモーラ長のガンマ分布のパラメータとに基づいてサブワード単位に基づいた未登録語を含む統計的言語モデルを生成する。
請求項(抜粋):
クラス別に分類された単語リストを含む学習データメモリと、その学習データに基づいて単語の読みに対応するサブワード系列の生起確率をクラスに依存して抽出する手段と、その抽出された単語の読みに対応するサブワード系列の生起確率をクラスに依存して評価する手段と、単語とクラスの並びの生起確率を評価する手段と、上記クラスに依存して評価されたサブワード系列の生起確率と上記評価された単語とクラスの並びの生起確率とによって未登録語を含む単語系列の生起確率をサブワードと単語の系列の生起確率として評価する手段と、を備えたことを特徴とする統計的言語モデル生成装置。
IPC (2件):
G10L 15/18 ,  G06F 17/28
FI (2件):
G06F 17/28 V ,  G10L 3/00 537 D
引用特許:
出願人引用 (3件)

前のページに戻る