特許
J-GLOBAL ID:200903026326297130
メガ話者識別(ID)システム及びその目的に相当する方法
発明者:
,
出願人/特許権者:
代理人 (3件):
伊東 忠彦
, 大貫 進介
, 伊東 忠重
公報種別:公表公報
出願番号(国際出願番号):特願2004-515125
公開番号(公開出願番号):特表2005-530214
出願日: 2003年06月04日
公開日(公表日): 2005年10月06日
要約:
メガ話者識別(ID)システムに関連したプロセッサに、一般オーディオ・データ(GAD)を受信し、セグメントを生成する、オーディオのセグメンテーションと分類のファンクション(F10)、該セグメントを受信し、メル周波数ケプストラム係数(MFCC)に基づいた特徴をそこから抽出する、特徴抽出ファンクション(F12)、該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて、再分類する、学習とクラスタ化のファンクション(14)、該GAD中の音声信号に話者IDを割り当てる、照合とラベル化のファンクション(16)、及び該割り当て話者IDを該GAD中のそれぞれの音声信号に関係付けるデータベース・ファンクションを有する、ファンクション、をインスタンス化させるコンピュータ判読可能な命令を記憶するメモリ。該オーディオのセグメンテーションと分類のファンクションは各セグメントを、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する、N個のオーディオ信号クラス、の1つに割り当て得る。
請求項(抜粋):
一般オーディオ・データ(GAD)からの話者に帰属するオーディオ信号を識別するメガ話者識別(ID)システムであって:
該GADをセグメントにセグメント化する手段;
該セグメント各々をN個のオーディオ信号クラスの1つとして分類する手段;
該セグメントから特徴を抽出する手段;
該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要な場合、該抽出特徴に応じて、再分類する手段;
該セグメントの近くのものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成する手段;及び
各クラスタ化セグメントを話者IDによってラベル化する手段;
を有することを特徴とするメガ話者識別(ID)システム。
IPC (5件):
G10L17/00
, G10L11/00
, G10L11/02
, G10L15/00
, G10L15/10
FI (8件):
G10L3/00 545A
, G10L11/00 101H
, G10L11/00 402G
, G10L11/00 402L
, G10L3/00 531N
, G10L5/06 B
, G10L11/02
, G10L3/00 551G
Fターム (5件):
5D015AA03
, 5D015AA06
, 5D015CC11
, 5D015KK00
, 5D015LL11
前のページに戻る