Pat
J-GLOBAL ID:201603005411326880
話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
Inventor:
Applicant, Patent owner:
Agent (4):
青木 篤
, 伊坪 公一
, 河野 努
, 宮本 哲夫
Gazette classification:公開公報
Application number (International application number):2014183652
Publication number (International publication number):2016057461
Application date: Sep. 09, 2014
Publication date: Apr. 21, 2016
Summary:
【課題】複数の話者の会話を録音した音声信号に同一の話者が長時間にわたって発話する区間が含まれていなくても、発話した話者の識別情報を適切に付与できる話者インデキシング装置を提供する。【解決手段】話者インデキシング装置は、音声信号からフレームごとに抽出した複数の特徴量のうちの第1の特徴量の組の分布を話者数と同数の確率分布を含む混合分布でモデル化するモデル化部(22)と、確率分布ごとに、その確率分布の中心から所定距離内にあるか、あるいはその確率分布の中心に近い方から順に所定数の第1の特徴量の組を選択し、選択した第1の特徴量の組に対応する各フレームについての第2の特徴量をその確率分布に対応する話者の第1の学習データとして選択する学習データ選択部(23)と、第1の学習データを用いて、各フレームに発話した話者の識別情報を付与するために用いる話者モデルを学習する初期話者モデル学習部(24)とを有する。【選択図】図2
Claim (excerpt):
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出する特徴量抽出部と、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化するモデル化部と、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第1の特徴量の組を選択し、選択した前記第1の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第2の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第1の学習データとして選択する学習データ選択部と、
前記複数の話者のそれぞれについて、当該話者に対応する前記第1の学習データを用いて、当該話者の声の特徴を前記第2の特徴量の確率分布で表す話者モデルを学習する初期話者モデル学習部と、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する話者ラベリング部と、
を有する話者インデキシング装置。
IPC (4):
G10L 17/00
, G10L 17/04
, G10L 17/16
, G10L 15/06
FI (4):
G10L17/00 200C
, G10L17/04
, G10L17/16
, G10L15/06 500P
Patent cited by the Patent:
Article cited by the Patent:
Return to Previous Page