プレプリント
J-GLOBAL ID:202202206422757025   整理番号:22P0322414

教師なし音声表現における音素,言語および話者情報の探索【JST・京大機械翻訳】

Probing phoneme, language and speaker information in unsupervised speech representations
著者 (5件):
資料名:
発行年: 2022年03月30日  プレプリントサーバーでの情報更新日: 2022年03月30日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
コントラスト予測符号化(CPC)[1]に基づく表現の教師なしモデルは,音声情報を符号化する音声言語モデリングで主に使用される。本研究では,他のタイプの情報がCPC音声表現に存在することを問う。電話クラス,性別および言語の3つのカテゴリーに焦点を当て,モノリンガルおよびバイリンガルモデルを比較した。定性的および定量的ツールを用いて,性別および電話クラス情報の両者が両タイプのモデルに存在することを見出した。しかし,言語情報はバイリンガルモデルにおいて非常に顕著であり,CPCモデルは複数の言語上で訓練されたときに言語を識別することを学習する。いくつかの言語情報もモノリンガルモデルから検索できるが,すべての特徴にわたってより拡散する。これらのパターンは,解析が下流クラスタリングモデルから離散ユニット上で実行されるとき,保持される。しかし,電話クラスと言語情報に及ぼすターゲットクラスタの数の影響がないけれども,より多くの性情報をより多くのクラスタでコード化した。最後に,著者らは,下流音素識別タスクに関して2つの言語にさらされるいくつかのコストがあることを見出した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  パターン認識 

前のページに戻る