Pat
J-GLOBAL ID:200903074501173435

オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム

Inventor:
Applicant, Patent owner:
Agent (1): 中島 淳 (外1名)
Gazette classification:公開公報
Application number (International application number):2000065101
Publication number (International publication number):2000298498
Application date: Mar. 09, 2000
Publication date: Oct. 24, 2000
Summary:
【要約】 (修正有)【課題】1人以上の話者によるスライドプレゼンテーションを含む会議のオーディオビデオ記録物のセグメント化方法の提供。【解決手段】セグメントは記録された会議の索引として機能する。システムはプレゼンテーションスライドに対応するビデオの区間を自動的に検出し、ビデオでスライドが表示されている時の区間において話者識別技法によって、誰がしゃべっているか推定する。単一話者に対応する併合されクラスタ化されたオーディオ区間はその後、話者セグメント化システムのトレーニングデータとして使用される。話者識別技法によって、ビデオ全体は、各発表者の話の範囲にもとづき個々のプレゼンテーションにセグメント化される。話者識別システムは、各スライド区間からのオーディオデータでトレーニングされた隠れマルコフモデルの構成を選択的に含む。バイタービ割り当てがその後、話者に応じてオーディオをセグメント化する。
Claim (excerpt):
オーディオ・ビデオ記録物をセグメント化する方法であって、所定のビデオ画像クラスに対する類似性を有する1個以上のビデオフレーム区間を識別する工程と、前記1個以上のビデオフレーム区間に対応する1個以上のオーディオ区間を抽出する工程と、1個以上のオーディオクラスタを生成するために前記1個以上のオーディオ区間に音響クラスタ化方法を適用する工程とを含むことを特徴とする方法。
IPC (4):
G10L 17/00 ,  G10L 15/04 ,  G10L 15/00 ,  H04N 5/93
FI (5):
G10L 3/00 545 F ,  G10L 3/00 515 C ,  G10L 3/00 545 C ,  G10L 3/00 551 G ,  H04N 5/93 E
Patent cited by the Patent:
Cited by applicant (3) Cited by examiner (6)
Show all

Return to Previous Page