特許
J-GLOBAL ID:200903008409601312

話者識別方法

発明者:
出願人/特許権者:
代理人 (1件): 足立 勉
公報種別:公開公報
出願番号(国際出願番号):特願平6-002567
公開番号(公開出願番号):特開平7-210197
出願日: 1994年01月14日
公開日(公表日): 1995年08月11日
要約:
【要約】【目的】 発声内容を限定しない入力音声から話者識別する方法において、より高精度の話者識別が行う。【構成】 図3は音声を入力して話者を識別するまでの処理過程を示す。音響分析部20でディジタル化された音声信号は、特徴パラメータ抽出部30で特徴パラメータ時系列33で表される音声信号に変換される。Pnf-m+1よりPnfまでの所定フレーム数m分の特徴パラメータ群33aが、1フレームずつシフトしながらニューラルネットワーク40に入力し、その出力としてフレーム毎の話者識別情報ONf ́の時系列53を得る。このフレーム毎の話者識別情報53は、フレーム毎の短時間スペクトル形状の個人性に関する特徴のみならず所定フレーム間のスペクトル形状の時間的変化の仕方における個人性の特徴の両方に基づいて得られることとなり、この話者識別情報の時系列53に基づいてより高精度な話者識別(55)が行える。
請求項(抜粋):
ニューラルネットワークを用いた話者識別方法であって、入力音声を所定のフレーム周期毎に分析してフレーム毎の特徴パラメータを求めて特徴パラメータ時系列を生成し、該特徴パラメータ時系列における連続する複数フレーム分をフレーム単位でずらしながら取った特徴パラメータ群を、上記ニューラルネットワークに入力し、そのニューラルネットワークからの出力として、フレーム毎の話者識別情報の時系列を得て、該話者識別情報時系列に基づいて話者の識別を行うことを特徴とする話者識別方法。
IPC (6件):
G10L 9/10 301 ,  G06F 3/16 320 ,  G06F 15/18 560 ,  G10L 3/00 531 ,  G10L 3/00 571 ,  G10L 9/16 301

前のページに戻る