特許
J-GLOBAL ID:200903039645398229

オーディオビジュアルサマリ作成方法および装置

発明者:
出願人/特許権者:
代理人 (1件): 桂木 雄二
公報種別:公開公報
出願番号(国際出願番号):特願2005-107342
公開番号(公開出願番号):特開2005-309427
出願日: 2005年04月04日
公開日(公表日): 2005年11月04日
要約:
【課題】 入力ビデオから抽出された画像、オーディオ、およびテキスト特徴をシームレスに統合することにより、オーディオ中心型、画像中心型、およびオーディオビジュアル統合型の高品質のサマリを作成する。【解決手段】 オーディオと画像の内容の厳密な同期が要求されないときには、統合型サマリ作成が用いられる。オーディオ内容と画像内容の同期を要求するビデオ番組の場合、オーディオ中心型または画像中心型のいずれかの方法を用いてサマリが作成される。機械学習による方法と、代替法である発見的方法が使用可能である。ナイーブベイズ法、決定木法、ニューラルネットワーク法、および最大エントロピー法のようなさまざまな確率論的方法が、機械学習による方法で使用可能である。代替法である発見的方法を用いてオーディオビジュアル統合型サマリを作成するには、最大2部マッチング法が用いられる。【選択図】 図1
請求項(抜粋):
オーディオビジュアルコンテンツからなるビデオ番組のビデオサマリを作成する装置において、 前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオサマリに含められるのに適しているかどうかを決定する順位を与える所定の基準に従って、前記ビデオ番組内の前記オーディオトラックおよび/または前記画像トラックから1個以上のオーディオセグメントおよび/または1個以上の画像セグメントをそれぞれ識別する手段と、 前記順位に従って、前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントをそれぞれ時間軸上に配置して前記ビデオサマリを生成する手段と、 を有することを特徴とするビデオサマリ作成装置。
IPC (7件):
G10L11/00 ,  G06F17/30 ,  G10L15/00 ,  G10L15/10 ,  G10L15/16 ,  G10L17/00 ,  H04N5/91
FI (12件):
G10L11/00 402C ,  G10L11/00 201A ,  G10L11/00 201Z ,  G10L11/00 402G ,  G10L11/00 402L ,  G06F17/30 170D ,  G06F17/30 220A ,  G10L3/00 551G ,  G10L3/00 531N ,  G10L3/00 545A ,  G10L3/00 539 ,  H04N5/91 N
Fターム (10件):
5B075ND12 ,  5B075ND14 ,  5B075NS01 ,  5C053FA14 ,  5C053FA30 ,  5C053GB11 ,  5C053GB12 ,  5C053JA16 ,  5D015AA06 ,  5D015KK02
引用特許:
審査官引用 (3件)
引用文献:
前のページに戻る