音声認識システム

発明者： , , ,
出願人/特許権者：
代理人 (5件)：曾我道治 , 梶並順 , 大宅一宏 , 上田俊一 , 吉田潤一郎
公報種別：公表公報
出願番号（国際出願番号）：特願2019-556085
公開番号（公開出願番号）：特表2020-503570
出願日： 2018年02月23日
公開日（公表日）： 2020年01月30日
要約：

音声認識システムが、音声信号を含む音響信号を受信する複数のマイクロフォンと、音響信号からマルチチャネル入力を生成する入力インターフェースと、マルチチャネル音声認識ネットワークを記憶する1つ以上のストレージであって、マルチチャネル音声認識ネットワークは、マルチチャネル入力から時間周波数マスクを生成するマスク推定ネットワークと、時間周波数マスクを用いてマルチチャネル入力から参照チャネル入力を選択して、この参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングされたビームフォーマネットワークと、強調された音声データセットをテキストに変換するようにトレーニングされたエンコーダ-デコーダネットワークとを備える。本システムは、1つ以上のストレージと、1つ以上のストレージと関連してマルチチャネル音声認識ネットワークを用いて、マルチチャネル入力からテキストを生成する1つ以上のプロセッサと、テキストをレンダリングする出力インターフェースとを更に備える。

請求項（抜粋）：

音声信号を含む音響信号を受信する複数のマイクロフォンと、前記音響信号からマルチチャネル入力を生成する入力インターフェースと、マルチチャネル音声認識ネットワークを記憶する1つ以上のストレージであって、前記マルチチャネル音声認識ネットワークは、前記マルチチャネル入力から時間周波数マスクを生成するマスク推定ネットワークと、前記時間周波数マスクを用いて前記マルチチャネル入力から参照チャネル入力を選択して、前記参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングされたビームフォーマネットワークと、前記強調された音声データセットをテキストに変換するようにトレーニングされたエンコーダ-デコーダネットワークと、を含む、1つ以上のストレージと、前記1つ以上のストレージと関連して前記マルチチャネル音声認識ネットワークを用いて、前記マルチチャネル入力から前記テキストを生成する1つ以上のプロセッサと、前記テキストをレンダリングする出力インターフェースと、を備える、音声認識システム。

IPC (5件)：

G10L 15/20 , G10L 21/023 , G10L 15/28 , G10L 15/16 , G10L 21/020

FI (5件)：

G10L15/20 370E , G10L21/0232 , G10L15/28 400 , G10L15/16 , G10L21/0208 100A

引用文献：

審査官引用 (2件)

"BEAMNET: END-TO-END TRAINING OF A BEAMFORMER-SUPPORTED MULTI-CHANNEL ASR SYSTEM"
"Recurrent Models for Auditory Attention in Multi-Microphone Distant Speech Recognition"

前のページに戻る