Pat
J-GLOBAL ID:200903004784519172

動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Inventor:
Applicant, Patent owner:
Agent (4): 大塚 康徳 ,  高柳 司郎 ,  大塚 康弘 ,  木村 秀二
Gazette classification:公開公報
Application number (International application number):2005204736
Publication number (International publication number):2007027990
Application date: Jul. 13, 2005
Publication date: Feb. 01, 2007
Summary:
【課題】吹き出しや字幕スーパーの作成、編集を容易化する。【解決手段】動画データは顔検出手段103に入力されて顔特徴量と顔位置が検出され、音声識別手段104に入力されて音声特徴量が検出される。検出された各特徴量は話者特定手段107に送られ、音声・顔対応データ記憶手段106に登録されている話者の特徴量と比較されて特定話者の位置が特定される。特定された話者の音声は、音声認識手段105によりテキスト化される。話者の位置とテキストデータにより吹き出し作成手段112により吹き出しが作成され、動画像作成手段114により動画データと音声データと吹き出しデータとをまとめて新たな動画データが作成される。【選択図】 図1
Claim (excerpt):
画像及び音声を含む動画データから字幕を作成する装置であって、 前記動画データの画像部分から顔の特徴量を検出する顔検出手段と、 前記動画データの音声部分から音声の特徴量を検出する音声識別手段と、 前記顔検出手段により検出された顔の特徴量及び前記音声識別手段により検出された音声の特徴量を、予め準備された特定話者の声を識別する音声特徴量及び当該話者の顔を識別する顔特徴量と比較して話者を特定する話者特定手段と、 特定された前記話者の顔位置を特定する位置特定手段と、 特定された前記話者の音声から文字列を認識し、当該文字列のテキストデータを生成する音声認識手段と、 前記位置特定手段により得られる顔位置と、前記音声認識手段により生成されたテキストデータとに基づいて、特定話者から発声された文字列のテキストデータを画像中に表示するための吹き出しデータを作成する吹き出し作成手段と、 前記画像データと前記音声データに前記吹き出しデータとをまとめて新たに動画データを作成する動画像作成手段と、を具備することを特徴とする装置。
IPC (7):
H04N 5/262 ,  G06T 11/60 ,  H04N 5/91 ,  G10L 17/00 ,  G10L 15/00 ,  G10L 15/22 ,  G06T 7/00
FI (8):
H04N5/262 ,  G06T11/60 100A ,  H04N5/91 Z ,  G10L3/00 545A ,  G10L3/00 545F ,  G10L3/00 551G ,  G10L3/00 561C ,  G06T7/00 300F
F-Term (28):
5B050AA09 ,  5B050BA06 ,  5B050BA08 ,  5B050BA16 ,  5B050BA20 ,  5B050EA19 ,  5B050EA24 ,  5B050FA02 ,  5B050FA10 ,  5B050FA13 ,  5C023AA18 ,  5C023BA01 ,  5C023CA01 ,  5C023CA05 ,  5C053GB12 ,  5C053JA15 ,  5C053JA16 ,  5D015AA03 ,  5D015KK02 ,  5D015LL05 ,  5L096BA16 ,  5L096BA17 ,  5L096BA18 ,  5L096CA02 ,  5L096FA02 ,  5L096FA67 ,  5L096FA69 ,  5L096JA11
Patent cited by the Patent:
Cited by applicant (5)
Show all
Cited by examiner (4)
Show all

Return to Previous Page