息継ぎ音を利用した電話音声の発話分割

福田隆; 市川治; 西村雅史

文献

J-GLOBAL ID：201202219316692418 整理番号：12A0548272

息継ぎ音を利用した電話音声の発話分割

Telephony Speech Phrasing based on Breath Event Detection

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=12A0548272&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=12A0548272&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (3件)： , ,
資料名：
巻： 111 号： 430(PRMU2011 186-239) ページ： 243-248 発行年： 2012年02月02日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,音声認識を利用した通話監視技術に注目が集まっている。コールセンターを対象とした音声認識では,会話音声をあらかじめ発話単位に分割し,認識処理の不要な無音部分を取り除いた後,検出された発話の単位で認識処理を行う。そのため,各発話は文脈上意味のある単位で区切られていることが望ましい。しかし,従来の発話検出技術は,雑音の混入した入力信号から人間の発声部分を正確に抽出することにのみ焦点が当てられており,発話の検出単位については検討されてこなかった。本報告では,人間の息継ぎ音(吸気音)に注目し,入力信号から吸気音を高精度に検出することによって,入力音声を文脈上意味のある単位に,自動に分割する方法を提案する。提案法では,呼吸音に特化した音響特徴量を利用し,識別器を段階的に構成することによって吸気音を高精度に抽出する。提案法は97.4%の吸気音検出精度を達成し,音声認識性能の改善にも寄与することを確認した。(著者抄録)

, , , , , , ,
, ,

パターン認識

引用文献 (12件)：

FUKUDA, T. Long-term spectro-temporal and static harmonic features for voice activity detection. IEEE Journal of Selected Topics in Signal Processing. 2010, 4, 5, 834-844
RAMIREZ, J. Efficient voice activity detection algorithms using long-term speech information. Speech Communication. 2004, 42, 271-287
SOLTAU, H. The IBM 2004 conversational telephony system for rich transcription. Proc. ICASSP, 2005. 2005, 205-208
HAIN, T. Automatic transcription of conversational telephone speech. IEEE Trans. on Speech and Audio Processing. 2005, 13, 6, 1173-1185
PRICE, P. J. Prosody and parsing. Proc. Workshop on Speech and Language Processing, 1989. 1989, 5-11

前のページに戻る