特許
J-GLOBAL ID:200903088634944389

ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム

発明者:
出願人/特許権者:
代理人 (1件): 川原田 一穂
公報種別:公開公報
出願番号(国際出願番号):特願平6-109158
公開番号(公開出願番号):特開平6-332497
出願日: 1994年04月26日
公開日(公表日): 1994年12月02日
要約:
【要約】【目的】 話者非依存隔離単語音声認識のための方法【構成】 混成認識システムに基づいており、それはニューラル・ネットワークを使用し、その並列処理を、時間とメモリに関して認識を改良し、システムを最適化するために利用可能としており、一方認識技術の統合された側面の幾らかを維持している。完全な単語が、その各々が単語のアコーステイック部分に対応している状態への再帰を有する左から右型のマルコフ・モデル.オートマトンでモデリングされる、また、認識は、認識された単語に対応する最小コスト経路を有するものを検出するための全オートマトンについて、ヴィテルビ・アルゴリズムに従うダイナミック・プログラミングを行うことにより得られ、エミッション確率は、独特な方法で訓練されたフィードバックを有するニューラル・ネットワークを通じて算出され、一方、遷移確率は、適切な方法で見積もられる。
請求項(抜粋):
話者非依存隔離単語音声認識システムであって、音声信号がデジタル化され、高速フーリエ変換を使用し一定の時間間隔でスペクトル解析を受け、その解析結果が、ケプストラル・パラメータを得るため、直交変換を受け、且つ、各時間間隔に含まれる合計エネルギーの対数値が算出され、その後、これらの値の数値微分係数が算出されて各時間間隔についての音声信号の特徴パラメータを得、その単語末端が信号のエネルギー・レベルにわたって検出され、単語が、その中で、完全な単語が左から右型で、その各々が単語のアコースチック部分に対応している状態への再帰を有するマルコフ・モデル・オートマトンによりモデルされ、また、認識が、出力(PR)に指示される認識された単語に対応する最小コスト経路を有する一つを検出するための全オートマトンに対する、ヴィテルビ・アルゴリズムに従うダイナミック・プログラミングにより行われる、リコグナイザー(RNA)により解析され、エミッション確率が、特別に訓練されたフィードバックを有するニューラル・ネットワークで算出され、遷移確率が、適切な方法で見積もられるものにおいて、その訓練方法が、次記操作を含む事実により特徴付けられるシステム:初期化;a. 小さなランダム・シナプテイック重みを用いるニューラル・ネットワークの初期化;b. 訓練セット単語を一様に分割することによる第1セグメンテイションの創出;反復;1. 訓練セットの全ての分割された単語を用いる初期化;2. 既に学習していない単語のランダムな選択(ある単語は、若しその単語に対する平均のエラーが充分に低ければ、学習しているものと考える);3. 考慮された単語のための、相関的訓練を適用することによるシナプテイック重みwijの更新;より特定的には、ニューラル・ネットワーク入力は、その単語の左から右へのウインドウ・スライデイングに従い変化するようにされ、且つ全ての入力ウインドウに対して、適切な目標ベクトルが、その現行のセグメンテイションに従い、その入力ウインドウが属している状態に対応するニューロンに1をセットし、且つ他の全てのニューロンに0をセットすることにより構成された、出力で供給される;4. 現在まで訓練されたニューラル・ネットワークを使用し、且つ正確なモデルについてのみのダイナミック・プログラミングを行うことによる、その考慮された単語に対するセグメンテイションの再算出;5. 現行のセグメンテイションSt+1 の更新;6. 若し、その訓練セット内に非考慮の単語がまだあれば、ステップ2に行く;7. オートマトンの遷移確率の再算出;および8. 若し、その訓練セット上の反復の数が、最大プリセット数NMAXより大きければ、終了するか、さもなければステップ1に行く。
IPC (3件):
G10L 9/10 301 ,  G06F 15/18 520 ,  G10L 3/00 535

前のページに戻る