特許
J-GLOBAL ID:201003013007318643

複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体

発明者:
出願人/特許権者:
代理人 (3件): 中尾 直樹 ,  草野 卓 ,  中村 幸雄
公報種別:公開公報
出願番号(国際出願番号):特願2008-218677
公開番号(公開出願番号):特開2010-054733
出願日: 2008年08月27日
公開日(公表日): 2010年03月11日
要約:
【課題】音声の収録中に話者位置の移動が生じても、同一話者には同一インデックスを付与することを可能とする。 【解決手段】周波数領域変換部110が観測信号を所定長のフレームに順次切り出して当該フレームごとに周波数領域に変換し、音声区間推定部120が周波数領域の観測信号に基づき、各フレームが音声区間に該当するか否かを推定し、到来方向推定部130が周波数領域の観測信号に基づき、当該周波数領域の観測信号の到来方向を各フレームごとに推定し、到来方向分類部140が音声区間に該当すると推定された各フレームを、到来方向の類似性に基づき話者ごとのクラスタに分類する。そして、話者同定部250が所定の時刻までに同一クラスタに分類された各フレームの周波数領域の観測信号に基づき、当該クラスタに係る話者のモデルをクラスタごとに作成し、当該所定の時刻以降の観測信号の話者を各話者のモデルに基づき推定する。【選択図】図1
請求項(抜粋):
複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定装置であって、 上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換部と、 周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定部と、 上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定部と、 上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類部と、 所定の時刻までに同一クラスタに分類された各フレームの上記周波数領域観測信号に基づき、当該クラスタに係る上記話者のモデルをクラスタごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定部と、 を備えることを特徴とする複数信号区間推定装置。
IPC (3件):
G10L 15/04 ,  G10L 15/28 ,  G10L 17/00
FI (4件):
G10L15/04 300D ,  G10L15/04 300B ,  G10L15/28 400 ,  G10L17/00 200B
Fターム (2件):
5D015AA03 ,  5D015DD03
引用特許:
出願人引用 (5件)
全件表示
審査官引用 (4件)
全件表示
引用文献:
前のページに戻る