特許
J-GLOBAL ID:200903074501173435

オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム

発明者:
出願人/特許権者:
代理人 (1件): 中島 淳 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-065101
公開番号(公開出願番号):特開2000-298498
出願日: 2000年03月09日
公開日(公表日): 2000年10月24日
要約:
【要約】 (修正有)【課題】1人以上の話者によるスライドプレゼンテーションを含む会議のオーディオビデオ記録物のセグメント化方法の提供。【解決手段】セグメントは記録された会議の索引として機能する。システムはプレゼンテーションスライドに対応するビデオの区間を自動的に検出し、ビデオでスライドが表示されている時の区間において話者識別技法によって、誰がしゃべっているか推定する。単一話者に対応する併合されクラスタ化されたオーディオ区間はその後、話者セグメント化システムのトレーニングデータとして使用される。話者識別技法によって、ビデオ全体は、各発表者の話の範囲にもとづき個々のプレゼンテーションにセグメント化される。話者識別システムは、各スライド区間からのオーディオデータでトレーニングされた隠れマルコフモデルの構成を選択的に含む。バイタービ割り当てがその後、話者に応じてオーディオをセグメント化する。
請求項(抜粋):
オーディオ・ビデオ記録物をセグメント化する方法であって、所定のビデオ画像クラスに対する類似性を有する1個以上のビデオフレーム区間を識別する工程と、前記1個以上のビデオフレーム区間に対応する1個以上のオーディオ区間を抽出する工程と、1個以上のオーディオクラスタを生成するために前記1個以上のオーディオ区間に音響クラスタ化方法を適用する工程とを含むことを特徴とする方法。
IPC (4件):
G10L 17/00 ,  G10L 15/04 ,  G10L 15/00 ,  H04N 5/93
FI (5件):
G10L 3/00 545 F ,  G10L 3/00 515 C ,  G10L 3/00 545 C ,  G10L 3/00 551 G ,  H04N 5/93 E
引用特許:
出願人引用 (3件) 審査官引用 (6件)
全件表示

前のページに戻る