音声データベース登録処理方法,音声発生源認識方法,音声発生区間検索方法,音声データベース登録処理装置,音声発生源認識装置,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体

Inventor： ,
Applicant, Patent owner：
Agent (3)：小笠原吉義 , 森田寛 , 岡田光由
Gazette classification：公開公報
Application number (International application number)：2002312074
Publication number (International publication number)：2004145161
Application date： Oct. 28, 2002
Publication date： May. 20, 2004
Summary：

【課題】映像音声中に複数話者が同時に発話する部分があっても,精度良く所望の話者の発話区間を検索できるようにするための手段を提供する。【解決手段】話者音声登録フェーズでは,話者の単独音声の特徴量だけでなく,複数の話者の音声信号を合成した音声について特徴量を抽出し,音声データベース1に登録する。話者検索フェーズでは,検索の対象となる入力音声信号を短区間ごとに切り出し,各短区間の特徴量と音声データベース1の特徴量との照合により話者を認識する。発話区間決定フェーズでは,各短区間の話者の検索結果を所定数の短区間ごとに集計し,話者の出現回数をもとに話者の発話区間を割り出す。話者情報表示フェーズでは,発話区間の検索結果を表示する。【選択図】図2

Claim (excerpt)：

音声発生源情報とその音声発生源が発する音声の特徴量とを格納し,音声発生源が未知の音声信号について音声発生源を認識するための音声データベースへの学習データの登録処理方法において, 認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録することを特徴とする音声データベース登録処理方法。

IPC (5)：

G10L15/06 , G10L11/02 , G10L15/00 , G10L15/04 , G10L17/00

FI (5)：

G10L3/00 521C , G10L3/00 521P , G10L3/00 513C , G10L3/00 545A , G10L3/00 551G

F-Term (3)：

5D015AA03 , 5D015DD03 , 5D015GG06

Patent cited by the Patent：

Cited by examiner (4)

音声区間判別装置、音声認識装置、プログラム及び記録媒体
Gazette classification：公開公報 Application number：特願2001-034049 Applicant：株式会社デンソー
情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
Gazette classification：公開公報 Application number：特願2000-363547 Applicant：ソニー株式会社
音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
Gazette classification：公開公報 Application number：特願2000-247233 Applicant：ソニー株式会社

Show all

Return to Previous Page