プレプリント
J-GLOBAL ID:202202205433595578   整理番号:22P0284017

音声認識とオーディオキャプションの結合【JST・京大機械翻訳】

Joint Speech Recognition and Audio Captioning
著者 (6件):
資料名:
発行年: 2022年02月02日  プレプリントサーバーでの情報更新日: 2022年02月02日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
屋内および屋外環境の両方で記録された音声試料は,しばしば二次オーディオ源で汚染されている。ほとんどのエンドツーエンドモナラル音声認識システムは,音声強調または訓練雑音ロバストモデルを用いて,これらの背景音を除去する。より良いモデル解釈可能性と全体的理解のために,著者らは自動オーディオキャプテーション(AAC)の成長する分野と徹底的に研究された自動音声認識(ASR)を一緒にすることを目指している。AACの目標は,オーディオ試料中のコンテンツの自然言語記述を生成することである。ASRとAACタスクのエンドツーエンド結合モデリングのためのいくつかのアプローチを提案し,これらのタスクを独立にモデル化する従来のアプローチに対する利点を実証した。提案アプローチの評価における主要なハードルは,音声転写とオーディオキャプションの両方を持つラベル付きオーディオデータセットの欠如である。したがって,著者らは,AudioCapsデータセットから選択したバックグラウンドノイズの多重レベルによって,クリーン音声Wall Street Journalコーパスを混合することによって,マルチタスクデータセットを作成した。また,既存の最先端のASRおよびAAC法と比較して,広範な実験的評価を行い,提案した方法の改良を示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る