ささやき声変換方法、装置、デバイス及び可読記憶媒体

発明者： , , , ,
出願人/特許権者：
代理人 (1件)：特許業務法人秀和特許事務所
公報種別：公表公報
出願番号（国際出願番号）：特願2019-519686
公開番号（公開出願番号）：特表2020-515877
出願日： 2018年06月15日
公開日（公表日）： 2020年05月28日
要約：

本出願は、予めささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られるささやき声変換モデルに基づいて実現される、ささやき声変換方法、装置、デバイス及び可読記憶媒体を開示している。本出願では、ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得し、さらにささやき声の音響特徴量及び初期的な認識結果を予め作成されたささやき声変換モデルに入力させて、出力された通常音声の音響特徴量を取得するようにしており、これによって、ささやき声を変換することが可能となる。【選択図】図1

請求項（抜粋）：

ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含み、ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる、ことを特徴とするささやき声変換方法。

IPC (5件)：

G10L 15/02 , G10L 21/007 , G10L 15/25 , G10L 15/16 , G10L 25/30

FI (5件)：

G10L15/02 300J , G10L21/007 , G10L15/25 , G10L15/16 , G10L25/30

引用特許：

出願人引用 (3件)

音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
公報種別：公開公報出願番号：特願2015-065787 出願人：日本電信電話株式会社
疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
公報種別：公開公報出願番号：特願2015-065788 出願人：日本電信電話株式会社
ささやき声を通常の有声音声に擬似的に変換する装置
公報種別：公開公報出願番号：特願2005-303629 出願人：竹内康人

審査官引用 (3件)

音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
公報種別：公開公報出願番号：特願2015-065787 出願人：日本電信電話株式会社
疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
公報種別：公開公報出願番号：特願2015-065788 出願人：日本電信電話株式会社
ささやき声を通常の有声音声に擬似的に変換する装置
公報種別：公開公報出願番号：特願2005-303629 出願人：竹内康人

引用文献：

出願人引用 (4件)

Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition
Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection
Mel Filter Bank Energy-Based Slope Feature and Its Application to Speaker Recognition

全件表示

審査官引用 (4件)

Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition
Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection
Mel Filter Bank Energy-Based Slope Feature and Its Application to Speaker Recognition

全件表示

前のページに戻る