オーディオViewer:音を可視化するための学習【JST・京大機械翻訳】

Song Chunjin; Zhang Yuchi; Peng Willis; Mohaghegh Parmis; Wandt Bastian; Rhodin Helge

プレプリント

J-GLOBAL ID：202202219250653979 整理番号：21P0070898

オーディオViewer:音を可視化するための学習【JST・京大機械翻訳】

AudioViewer: Learning to Visualize Sounds

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2020年12月22日プレプリントサーバーでの情報更新日： 2022年11月10日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

官能置換の分野における長年の目標は,オーディオコンテンツを可視化することにより聴覚(DHH)人々の聴覚とハードに対する音知覚を可能にすることである。音声とテキスト,またはテキストと画像の間の手のサイン言語に翻訳する既存のモデルとは異なって,著者らは,人間の音声と同様に一般的環境音に適用するビデオ翻訳に,即時および低レベルオーディオを目標とする。そのような置換が,教師つき学習のためのラベルなしで,人工的であるので,著者らのコア寄与は,高レベル制約を通して不対例から学習するオーディオからビデオへのマッピングを構築することである。音声では,性別や方言のようなスタイルからコンテンツを付加的に解消する。ヒト研究を含む定性的および定量的結果は,著者らの不対翻訳アプローチが生成されたビデオにおいて重要なオーディオ特徴を維持し,顔と数のビデオが,音と単語をマッチし区別するために人間によって解析できる高次元オーディオ特徴を可視化するのに適していることを示した。コードとモデルは,https://chunjinsong.github.io/audioviewerで利用可能である。【JST・京大機械翻訳】

, , , , , , , , , ,
, , 【Automatic Indexing@JST】

音声処理 , パターン認識 , 図形・画像処理一般

, , ,

前のページに戻る