プレプリント
J-GLOBAL ID:202202219250653979   整理番号:21P0070898

オーディオViewer:音を可視化するための学習【JST・京大機械翻訳】

AudioViewer: Learning to Visualize Sounds
著者 (6件):
資料名:
発行年: 2020年12月22日  プレプリントサーバーでの情報更新日: 2022年11月10日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
官能置換の分野における長年の目標は,オーディオコンテンツを可視化することにより聴覚(DHH)人々の聴覚とハードに対する音知覚を可能にすることである。音声とテキスト,またはテキストと画像の間の手のサイン言語に翻訳する既存のモデルとは異なって,著者らは,人間の音声と同様に一般的環境音に適用するビデオ翻訳に,即時および低レベルオーディオを目標とする。そのような置換が,教師つき学習のためのラベルなしで,人工的であるので,著者らのコア寄与は,高レベル制約を通して不対例から学習するオーディオからビデオへのマッピングを構築することである。音声では,性別や方言のようなスタイルからコンテンツを付加的に解消する。ヒト研究を含む定性的および定量的結果は,著者らの不対翻訳アプローチが生成されたビデオにおいて重要なオーディオ特徴を維持し,顔と数のビデオが,音と単語をマッチし区別するために人間によって解析できる高次元オーディオ特徴を可視化するのに適していることを示した。コードとモデルは,https://chunjinsong.github.io/audioviewerで利用可能である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  パターン認識  ,  図形・画像処理一般 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る