プレプリント
J-GLOBAL ID:202202212394216730   整理番号:22P0296882

マルチスピーカエンドツーエンドASRのための拡張グラフ時間分類【JST・京大機械翻訳】

Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR
著者 (5件):
資料名:
発行年: 2022年03月01日  プレプリントサーバーでの情報更新日: 2022年03月01日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
グラフベース時間分類(GTC),接続主義時間分類損失の一般化形式,をグラフベース監視を用いて自動音声認識(ASR)システムを改善するために最近提案した。例えば,GTCは,半教師つき学習のためのグラフに擬似ラベルシーケンスのN-ベストリストを符号化するために最初に使用された。本論文では,GTCの拡張を提案し,ニューラルネットワークによるラベルとラベル遷移の両方の後部をモデリングし,より広い範囲のタスクに適用できる。用例応用として,著者らはマルチ話者音声認識タスクのために拡張GTC(GTC-e)を使用した。マルチ話者音声の転写と話者情報をグラフにより表現し,話者情報がノードによる遷移とASR出力と関連する。GTC-eを用いて,マルチ話者ASRモデリングは,単一話者ASRモデリングと非常に似ており,多重話者によるトークンは,年代順で単一併合シーケンスとして認識される。評価のために,LibriSpeechから導出された模擬マルチ話者音声データセットに関する実験を行い,タスクに対する古典的ベンチマークに近い性能を有する有望な結果を得た。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る