特許
J-GLOBAL ID:200903021826347280
トピック境界決定方法及び装置及びトピック境界決定プログラム
発明者:
出願人/特許権者:
代理人 (1件):
伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願2002-323090
公開番号(公開出願番号):特開2004-157337
出願日: 2002年11月06日
公開日(公表日): 2004年06月03日
要約:
【課題】音声認識結果から単語群からなる節などの意味上の境界を検出する。【解決手段】本発明は、入力された音声認識結果データから各音声セグメントに対するNBEST 候補を採用し、各音声セグメント毎に各NBEST 候補に含まれる単語集合をマージして単語の開始時刻情報の順に単語を昇順にソートし、単語列から不要語を除去し、全音声セグメントの単語列をつなげてできる単語列において、各単語境界の前後に一定の単語数の単語列中の単語の範囲である窓を指定し、各窓毎に窓の意味を表すベクトルを算出し、前後の窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出し、結束度が極小となる単語境界を求め、極小点あるいは、極小点に直近の音声セグメント境界をトピック境界と認定する。【選択図】 図1
請求項(抜粋):
映像コンテンツや音声コンテンツに含まれる音声を音声認識した結果得られたデータをトピック単位に分割するためのトピック境界決定方法において、
各音声セグメントに対して認識スコアの高い順に出力された複数の認識結果テキスト(以下、NBEST候補と記す)、該NBEST候補に対する単語分割結果、及び、該単語分割結果の各単語に開始時刻情報が付与されているデータからなる音声認識結果データが入力されると、
各音声セグメントに対して所定の個数のNBEST候補を採用し、各音声セグメント毎に、採用した各NBEST候補に含まれる単語集合をマージして単語の開始時刻情報の順に該単語を昇順にソートする単語配列過程と、
ソートされた単語列から付属語を含む不要語を削除する不要語削除過程と、
全音声セグメントの単語列をつなげてできる単語列において、各単語境界の前後に一定の単語数の単語列中の単語の範囲(以下、窓と記す)を指定し、各窓毎に、該窓に含まれる単語の出現頻度ベクトルを含む、該窓の意味を表すベクトルを算出し、前後の該窓に対応するベクトル間の、余弦測度を始めとする類似度を当該単語境界の結束度として算出する結束度算出過程と、
前記結束度が極小となる単語境界を求め、極小点あるいは、該極小点に直近の音声セグメント境界をトピック境界と認定するトピック境界認定過程からなることを特徴とするトピック境界決定方法。
IPC (3件):
G10L15/18
, G06F17/28
, G10L15/04
FI (4件):
G10L3/00 537G
, G06F17/28 V
, G10L3/00 537A
, G10L3/00 515C
Fターム (6件):
5B091AA15
, 5B091CA02
, 5B091CB12
, 5B091EA24
, 5D015FF06
, 5D015HH00
引用特許:
引用文献:
前のページに戻る