オーディオビジュアルサマリ作成方法および装置

発明者： ,
出願人/特許権者：
代理人 (1件)：桂木雄二
公報種別：公開公報
出願番号（国際出願番号）：特願2005-107342
公開番号（公開出願番号）：特開2005-309427
出願日： 2005年04月04日
公開日（公表日）： 2005年11月04日
要約：

【課題】入力ビデオから抽出された画像、オーディオ、およびテキスト特徴をシームレスに統合することにより、オーディオ中心型、画像中心型、およびオーディオビジュアル統合型の高品質のサマリを作成する。【解決手段】オーディオと画像の内容の厳密な同期が要求されないときには、統合型サマリ作成が用いられる。オーディオ内容と画像内容の同期を要求するビデオ番組の場合、オーディオ中心型または画像中心型のいずれかの方法を用いてサマリが作成される。機械学習による方法と、代替法である発見的方法が使用可能である。ナイーブベイズ法、決定木法、ニューラルネットワーク法、および最大エントロピー法のようなさまざまな確率論的方法が、機械学習による方法で使用可能である。代替法である発見的方法を用いてオーディオビジュアル統合型サマリを作成するには、最大2部マッチング法が用いられる。【選択図】図1

請求項（抜粋）：

オーディオビジュアルコンテンツからなるビデオ番組のビデオサマリを作成する装置において、前記オーディオビジュアルサマリの所望される内容に関連する与えられたオーディオ特性、画像特性および/またはテキスト特性に基づき、前記ビデオサマリに含められるのに適しているかどうかを決定する順位を与える所定の基準に従って、前記ビデオ番組内の前記オーディオトラックおよび/または前記画像トラックから1個以上のオーディオセグメントおよび/または1個以上の画像セグメントをそれぞれ識別する手段と、前記順位に従って、前記1個以上のオーディオセグメントおよび前記1個以上の画像セグメントをそれぞれ時間軸上に配置して前記ビデオサマリを生成する手段と、を有することを特徴とするビデオサマリ作成装置。

IPC (7件)：

G10L11/00 , G06F17/30 , G10L15/00 , G10L15/10 , G10L15/16 , G10L17/00 , H04N5/91

FI (12件)：

G10L11/00 402C , G10L11/00 201A , G10L11/00 201Z , G10L11/00 402G , G10L11/00 402L , G06F17/30 170D , G06F17/30 220A , G10L3/00 551G , G10L3/00 531N , G10L3/00 545A , G10L3/00 539 , H04N5/91 N

Fターム (10件)：

5B075ND12 , 5B075ND14 , 5B075NS01 , 5C053FA14 , 5C053FA30 , 5C053GB11 , 5C053GB12 , 5C053JA16 , 5D015AA06 , 5D015KK02

引用特許：

審査官引用 (3件)

映像ソフト処理装置及び同処理プログラム記録記憶媒体
公報種別：公開公報出願番号：特願平10-033984 出願人：株式会社メディア・リンク・システム
映像制作方法及び装置及びこの方法を記録した記録媒体
公報種別：公開公報出願番号：特願平9-220260 出願人：日本電信電話株式会社
映像ソフト再生方法、映像ソフト処理方法、映像ソフト再生プログラムを記録した媒体、映像ソフト処理プログラムを記録した媒体、映像ソフト再生装置、映像ソフト処理装置及び映像ソフト記録媒体
公報種別：公開公報出願番号：特願平9-262655 出願人：株式会社メディア・リンク・システム

引用文献：

審査官引用 (1件)

Video summarization using reinforcement learning in eigenspace

前のページに戻る