共同言語同定と音声認識のための言語独立したエンドツーエンドアーキテクチャ【Powered by NICT】

Watanabe Shinji; Hori Takaaki; Hershey John R.

文献

J-GLOBAL ID：201802222370622399 整理番号：18A0441066

共同言語同定と音声認識のための言語独立したエンドツーエンドアーキテクチャ【Powered by NICT】

Language independent end-to-end architecture for joint language identification and speech recognition

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0441066&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0441066&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (3件)： , ,
資料名：
巻： 2017 号： ASRU ページ： 265-271 発行年： 2017年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

エンドツーエンド自動音声認識(ASR)は新しい言語のためのASRシステムの開発の負担を低減し,発音辞書などの言語学的情報に対する必要性を除去することにより可能性がある。も言語ニューラルネットワークアーキテクチャを持つモノリシック多言語ASRシステムを構築するために,本論文では,完全に利用する機会を生成する。は10種の異なる言語で音声を認識し,グラフェン(character/chunked特性)に基づく音声認識を行う直接できるモデルを提示した。モデルは以前にいくつかのASRベンチマークにおける最先端技術の性能を達成することが示されている筆者らのハイブリッド注意/コネクショニスト時間分類(CTC)アーキテクチャに基づいている。ここでは,すべての標的言語に現れる文字集合の和集合を含むように出力記号の集合を増大させた。これらは,ローマとキリル文字アルファベット,アラビア数,単純化した中国語,日本語漢字/ひらがな/カタカナ文字(5,500文字)を含んでいる。これは単一多言語モデルの訓練,そのパラメータは全言語にわたって共有されているを可能にした。モデルは言語を同定し,音声を認識し,適切な文字集合の認識テキストフォーマット可能にしている。Wall Street Journal(英語),自発的日本語のコーパス,HKUST標準中国語CTS,Voxforge(ドイツ,スペイン,フランス,イタリア,オランダ,ポルトガル,ロシア)からなる音声データベースを用いた実験は,言語依存エンドツーエンドASRシステムと比較して同等の/優れた性能を実証した。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識

, , ,

前のページに戻る