Pat
J-GLOBAL ID:200903010076876720

音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Inventor:
Applicant, Patent owner:
Agent (1): 松浦 憲三
Gazette classification:公開公報
Application number (International application number):2005292485
Publication number (International publication number):2007101945
Application date: Oct. 05, 2005
Publication date: Apr. 19, 2007
Summary:
【課題】 音声を文字化したデータをせりふや場面の内容に合った様式で自動的に表示することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供する。【解決手段】 映像・音声信号解析部48は、音声付き映像データ60中の音声データ62から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。また、映像・音声信号解析部48は、音声特徴量情報、発話時間情報、発話者識別するための発話者識別子及び発話者の画面上における位置座標を取得して発話者情報を取得する。メタデータ生成部50は、上記の発話時間情報、発話内容情報、発話者情報、音声特徴量情報等を所定のファイル形式(例えば、xml形式)のメタデータに格納する。このメタデータは、所定の形式(例えば、MPEG-2やAVI形式)で映像・音声信号記録部46に保存される。【選択図】 図2
Claim (excerpt):
映像データと、前記映像データに同期した音声データとを含む音声付き映像データを取得するデータ取得手段と、 前記音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、 前記映像データにおいて前記音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、 前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、 前記音声付き映像データと前記メタデータとを関連付けて記録する記録手段と、 を備えることを特徴とする音声付き映像データ処理装置。
IPC (6):
G10L 11/00 ,  G10L 15/00 ,  G10L 17/00 ,  G10L 11/02 ,  H04N 5/91 ,  H04N 5/928
FI (10):
G10L11/00 402C ,  G10L15/00 200G ,  G10L17/00 400 ,  G10L17/00 200C ,  G10L17/00 200D ,  G10L11/02 ,  G10L11/00 101F ,  G10L11/00 101Z ,  H04N5/91 Z ,  H04N5/92 E
F-Term (7):
5C053GB06 ,  5C053GB12 ,  5C053JA01 ,  5C053JA12 ,  5C053JA16 ,  5D015AA03 ,  5D015KK02
Patent cited by the Patent:
Cited by applicant (1)
  • 画像表示方法
    Gazette classification:公開公報   Application number:特願2002-208491   Applicant:富士写真フイルム株式会社
Cited by examiner (12)
Show all
Article cited by the Patent:
Return to Previous Page