Pat
J-GLOBAL ID:200903044663321830
音声データベース登録処理方法,音声発生源認識方法,音声発生区間検索方法,音声データベース登録処理装置,音声発生源認識装置,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体
Inventor:
,
Applicant, Patent owner:
Agent (3):
小笠原 吉義
, 森田 寛
, 岡田 光由
Gazette classification:公開公報
Application number (International application number):2002312074
Publication number (International publication number):2004145161
Application date: Oct. 28, 2002
Publication date: May. 20, 2004
Summary:
【課題】映像音声中に複数話者が同時に発話する部分があっても,精度良く所望の話者の発話区間を検索できるようにするための手段を提供する。【解決手段】話者音声登録フェーズでは,話者の単独音声の特徴量だけでなく,複数の話者の音声信号を合成した音声について特徴量を抽出し,音声データベース1に登録する。話者検索フェーズでは,検索の対象となる入力音声信号を短区間ごとに切り出し,各短区間の特徴量と音声データベース1の特徴量との照合により話者を認識する。発話区間決定フェーズでは,各短区間の話者の検索結果を所定数の短区間ごとに集計し,話者の出現回数をもとに話者の発話区間を割り出す。話者情報表示フェーズでは,発話区間の検索結果を表示する。【選択図】 図2
Claim (excerpt):
音声発生源情報とその音声発生源が発する音声の特徴量とを格納し,音声発生源が未知の音声信号について音声発生源を認識するための音声データベースへの学習データの登録処理方法において,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する
ことを特徴とする音声データベース登録処理方法。
IPC (5):
G10L15/06
, G10L11/02
, G10L15/00
, G10L15/04
, G10L17/00
FI (5):
G10L3/00 521C
, G10L3/00 521P
, G10L3/00 513C
, G10L3/00 545A
, G10L3/00 551G
F-Term (3):
5D015AA03
, 5D015DD03
, 5D015GG06
Patent cited by the Patent: