特許
J-GLOBAL ID:201703018816903895
混合音声認識
発明者:
,
,
,
出願人/特許権者:
代理人 (3件):
伊東 忠重
, 伊東 忠彦
, 大貫 進介
公報種別:公表公報
出願番号(国際出願番号):特願2016-558287
公開番号(公開出願番号):特表2017-515140
出願日: 2015年03月19日
公開日(公表日): 2017年06月08日
要約:
特許請求される主題は、ソースからの混合音声を認識するためのシステム及び方法を含む。本方法は、混合音声サンプルからのより高レベルの音声特性を有する話者により発話された音声信号を認識するように、第1のニューラルネットワークをトレーニングすることを含む。本方法はまた、混合音声サンプルからのより低レベルの音声特性を有する話者により発話された音声信号を認識するように、第2のニューラルネットワークをトレーニングすることを含む。さらに、本方法は、特定のフレームが音声特性の切り替わりポイントである確率を考慮して、これら2つの音声信号を観測する統合尤度を最適化することにより、第1のニューラルネットワーク及び第2のニューラルネットワークを使用して、混合音声サンプルを復号することを含む。
請求項(抜粋):
ソースからの混合音声を認識するための方法であって、
混合音声サンプルからのより高レベルの音声特性を有する話者により発話された音声信号を認識するように、第1のニューラルネットワークをトレーニングするステップと、
前記混合音声サンプルからのより低レベルの前記音声特性を有する話者により発話された音声信号を認識するように、第2のニューラルネットワークをトレーニングするステップと、
2つの前記音声信号を観測する統合尤度を最適化することにより、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを使用して、前記混合音声サンプルを復号するステップと、
を含む方法。
IPC (3件):
G10L 15/16
, G10L 15/20
, G10L 21/030
FI (3件):
G10L15/16
, G10L15/20 200Z
, G10L21/0308 Z
前のページに戻る