特許
J-GLOBAL ID:201103070847650984

ピッチ・クラスター・マップを用いた音声認識方法

発明者:
出願人/特許権者:
代理人 (1件): 西澤 利夫
公報種別:公開公報
出願番号(国際出願番号):特願2009-235730
公開番号(公開出願番号):特開2011-081324
出願日: 2009年10月09日
公開日(公表日): 2011年04月21日
要約:
【課題】複数話者が同時に発声している場合にも、新しい手法を用いてシーケンシャル・グルーピング処理を行うことで、複数話者の識別と照合を適切に行う。【解決手段】1つの既知音声信号を所定時間間隔の中で信号の最大振幅で正規化した後、サンプルN点の短時間フーリエ変換でM*Nに要素化し、短時間フーリエ変換データのM*N要素をk-means法でK個のクラスターにグループ分けし、クラスター化されたグループを1つのピッチ・クラスター・マップ(PCM)としてPCMデータベースに収納し、以上の操作を繰り返してPCMデータベースを構築しておき、照合のための入力音声信号のスペクトルと、前記PCMデータベース中のPCMのスペクトルとを用いて類似性距離の計算を行い、その類似性距離の計算結果に基づいて、複数話者のスペクトルを、各個人に対するコードブック内のピッチ・クラスター・スペクトルとして分離可能とした。【選択図】図5
請求項(抜粋):
1つの既知音声信号を所定時間間隔の中で信号の最大振幅で正規化した後、正規化した信号にサンプルN 点の短時間フーリエ変換で M*N に要素化し、 短時間フーリエ変換データの M*N 要素を k-means 法でK個のクラスターにグループ分けし、 クラスター化されたグループを1つのピッチ・クラスター・マップ(PCM)として PCM データベースに収納し、以上の操作を繰り返して PCM データベースを構築しておき、 照合のための入力音声信号のスペクトルと、前記 PCM データベース中の PCM のスペクトルとを用いて類似性距離の計算を行い、 その類似性距離の計算結果に基づいて、複数話者のスペクトルを、各個人に対するコードブック内のピッチ・クラスター・スペクトルとして分離可能としたことを特徴とするピッチ・クラスター・マップを用いた音声認識方法。
IPC (3件):
G10L 15/20 ,  G10L 17/00 ,  G10L 21/02
FI (3件):
G10L15/20 370D ,  G10L17/00 200C ,  G10L21/02 201D
Fターム (1件):
5D015AA03

前のページに戻る