ARoBERT:音声言語理解のためのASRロバスト事前訓練言語モデル【JST・京大機械翻訳】

Wang Chengyu; Dai Suyang; Wang Yipeng; Yang Fei; Qiu Minghui; Chen Kehan; Zhou Wei; Huang Jun

文献

J-GLOBAL ID：202202239334551106 整理番号：22A1102111

ARoBERT:音声言語理解のためのASRロバスト事前訓練言語モデル【JST・京大機械翻訳】

ARoBERT: An ASR Robust Pre-Trained Language Model for Spoken Language Understanding

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1102111&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1102111&from=J-GLOBAL&jstjournalNo=W0508B") }}

著者 (8件)： , , , , , , ,
資料名：
巻： 30 ページ： 1207-1218 発行年： 2022年
JST資料番号： W0508B ISSN： 2329-9290 CODEN： ITASFA 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

話者言語理解(SLU)は,様々な人間機械インタラクションシステムをサポートするために,人間の音声の意味を解釈することを目的とする。SLUのためのキー技術は,音声信号をテキストコンテンツに転写する自動音声認識(ASR)である。現代のASRシステムの出力テキストが誤りを含むので,ASRシステムによって転写されたテキスト上で訓練されたか,テストされた主流のSLUモデルは,十分に誤差ロバストではない。ARoBERT(ASRロバストBERTモデル)を提示し,雑音の多い入力で様々なSLUタスクを解くために微調整できる。事前訓練中のARoBERTのロバスト性を保証するために,入力テキストのいくつかの部分がホモホンまたはシノホンで置換される場合,言語表現の変動を低減する。特に,ARoBERTのための2つの新しい自己教師付き事前訓練タスク,すなわち,Phoneticlyに意識されたMasked言語モデリング(PMLM)とASRモデル適応Masked言語モデリング(AMMLM)を提案した。PMLMタスクは,単語音声類似性の知識を事前訓練プロセスに明示的に融合し,それは,ホモホンとシンフォロンを類似の表現を共有するようにする。AMMLMでは,ARoBERTがASRモデル誤差に耐えることができるような典型的なASR誤差をマイニングするために,データ駆動アルゴリズムをさらに導入した。実験では,複数のデータセット上でARoBERTを評価した。結果は,ARoBERTの優位性を示し,それは一貫して強いベースラインより優れている。また,ARoBERTは,公開ベンチマーク上で最先端技術より優れていることを示した。現在,ARoBERTは,オンライン生産システムで,著しい改善で展開されている。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 音声処理

, , , ,

前のページに戻る