音声言語識別のためのトランスデューサベース言語埋込み【JST・京大機械翻訳】

Shen Peng; Lu Xugang; Kawai Hisashi

プレプリント

J-GLOBAL ID：202202202409003334 整理番号：22P0328310

音声言語識別のためのトランスデューサベース言語埋込み【JST・京大機械翻訳】

Transducer-based language embedding for spoken language identification

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年04月08日プレプリントサーバーでの情報更新日： 2022年07月29日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

音響および言語特徴は,話し言葉識別(LID)タスクのための重要な手がかりである。最近の先進LIDシステムは,明示的言語特徴符号化の利用を欠いている音響特徴を用いている。本論文では,RNN変換器モデルを言語埋込みフレームワークに統合することにより,LIDタスクのための新しい変換器ベース言語埋込みアプローチを提案した。RNN変換器の言語表現能力の利点から利益を得て,提案方法は,LIDタスクのために音声的に意識された音響特性と明示的言語特徴の両方を利用することができる。実験は大規模多言語LibriSpeechとVoxLinga107データセットで行った。実験結果は,提案した方式が,ドメインと交差ドメインデータセットで,それぞれ,12%から59%と16%から24%の相対的に改善で,LIDタスクの性能を著しく改善することを示した。【JST・京大機械翻訳】

, , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識

, , , ,

前のページに戻る