音声認識とオーディオキャプションの結合【JST・京大機械翻訳】

Narisetty Chaitanya; Tsunoo Emiru; Chang Xuankai; Kashiwagi Yosuke; Hentschel Michael; Watanabe Shinji

プレプリント

J-GLOBAL ID：202202205433595578 整理番号：22P0284017

音声認識とオーディオキャプションの結合【JST・京大機械翻訳】

Joint Speech Recognition and Audio Captioning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年02月02日プレプリントサーバーでの情報更新日： 2022年02月02日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

屋内および屋外環境の両方で記録された音声試料は,しばしば二次オーディオ源で汚染されている。ほとんどのエンドツーエンドモナラル音声認識システムは,音声強調または訓練雑音ロバストモデルを用いて,これらの背景音を除去する。より良いモデル解釈可能性と全体的理解のために,著者らは自動オーディオキャプテーション(AAC)の成長する分野と徹底的に研究された自動音声認識(ASR)を一緒にすることを目指している。AACの目標は,オーディオ試料中のコンテンツの自然言語記述を生成することである。ASRとAACタスクのエンドツーエンド結合モデリングのためのいくつかのアプローチを提案し,これらのタスクを独立にモデル化する従来のアプローチに対する利点を実証した。提案アプローチの評価における主要なハードルは,音声転写とオーディオキャプションの両方を持つラベル付きオーディオデータセットの欠如である。したがって,著者らは,AudioCapsデータセットから選択したバックグラウンドノイズの多重レベルによって,クリーン音声Wall Street Journalコーパスを混合することによって,マルチタスクデータセットを作成した。また,既存の最先端のASRおよびAAC法と比較して,広範な実験的評価を行い,提案した方法の改良を示した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識

, ,

前のページに戻る