特許
J-GLOBAL ID:200903026326297130

メガ話者識別(ID)システム及びその目的に相当する方法

発明者:
出願人/特許権者:
代理人 (3件): 伊東 忠彦 ,  大貫 進介 ,  伊東 忠重
公報種別:公表公報
出願番号(国際出願番号):特願2004-515125
公開番号(公開出願番号):特表2005-530214
出願日: 2003年06月04日
公開日(公表日): 2005年10月06日
要約:
メガ話者識別(ID)システムに関連したプロセッサに、一般オーディオ・データ(GAD)を受信し、セグメントを生成する、オーディオのセグメンテーションと分類のファンクション(F10)、該セグメントを受信し、メル周波数ケプストラム係数(MFCC)に基づいた特徴をそこから抽出する、特徴抽出ファンクション(F12)、該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて、再分類する、学習とクラスタ化のファンクション(14)、該GAD中の音声信号に話者IDを割り当てる、照合とラベル化のファンクション(16)、及び該割り当て話者IDを該GAD中のそれぞれの音声信号に関係付けるデータベース・ファンクションを有する、ファンクション、をインスタンス化させるコンピュータ判読可能な命令を記憶するメモリ。該オーディオのセグメンテーションと分類のファンクションは各セグメントを、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する、N個のオーディオ信号クラス、の1つに割り当て得る。
請求項(抜粋):
一般オーディオ・データ(GAD)からの話者に帰属するオーディオ信号を識別するメガ話者識別(ID)システムであって: 該GADをセグメントにセグメント化する手段; 該セグメント各々をN個のオーディオ信号クラスの1つとして分類する手段; 該セグメントから特徴を抽出する手段; 該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要な場合、該抽出特徴に応じて、再分類する手段; 該セグメントの近くのものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成する手段;及び 各クラスタ化セグメントを話者IDによってラベル化する手段; を有することを特徴とするメガ話者識別(ID)システム。
IPC (5件):
G10L17/00 ,  G10L11/00 ,  G10L11/02 ,  G10L15/00 ,  G10L15/10
FI (8件):
G10L3/00 545A ,  G10L11/00 101H ,  G10L11/00 402G ,  G10L11/00 402L ,  G10L3/00 531N ,  G10L5/06 B ,  G10L11/02 ,  G10L3/00 551G
Fターム (5件):
5D015AA03 ,  5D015AA06 ,  5D015CC11 ,  5D015KK00 ,  5D015LL11

前のページに戻る