手話翻訳のための単純なマルチモダリティ転移学習ベースライン【JST・京大機械翻訳】

Chen Yutong; Wei Fangyun; Sun Xiao; Wu Zhirong; Lin Stephen

プレプリント

J-GLOBAL ID：202202207293374030 整理番号：22P0300937

手話翻訳のための単純なマルチモダリティ転移学習ベースライン【JST・京大機械翻訳】

A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年03月08日プレプリントサーバーでの情報更新日： 2023年03月22日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,符号言語翻訳のための簡単な転送学習基準を提案した。既存の符号言語データセット(例えば,PHOENIX-2014T,CSL-Daily)は,署名ビデオ,光沢アノテーションおよびテキストのおよそ10K-20K対だけを含み,それは,話し言葉言語翻訳モデルの訓練のための典型的並列データより1桁小さい。したがって,データは,効果的サイン言語翻訳モデルの訓練のためのボトルネックである。この問題を緩和するために,ドメイン内データセットへの大量の外部監視を含む一般的ドメインデータセットからモデルを徐々に事前訓練することを提案する。具体的には,人間行動の一般領域および符号対損失データセットのドメインにおいて,符号対損失視覚ネットワークをプレトレインし,多言語コーパスの一般ドメインおよび光沢対テキストコーパスのドメイン上の光沢対テキスト翻訳ネットワークを事前訓練した。ジョイントモデルは,2つのネットワークを接続する視覚-言語マップと呼ばれる付加的モジュールによって微調整した。この単純なベースラインは,2つのサイン言語翻訳ベンチマークに関する以前の最先端結果を凌駕し,転送学習の有効性を実証した。その簡易性と強い性能により,この手法は将来の研究のための固体基準として役立つ。コードとモデルはhttps://github.com/FangyunWei/SLRTで利用可能である。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

自然語処理 , パターン認識

, , , ,

前のページに戻る