比較可能な文による英語-日本語マルチモーダルニューラル機械翻訳のためのコーパス【JST・京大機械翻訳】

Merritt Andrew; Chu Chenhui; Arase Yuki

プレプリント

J-GLOBAL ID：202202206034604772 整理番号：22P0201230

比較可能な文による英語-日本語マルチモーダルニューラル機械翻訳のためのコーパス【JST・京大機械翻訳】

A Corpus for English-Japanese Multimodal Neural Machine Translation with Comparable Sentences

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年10月17日プレプリントサーバーでの情報更新日： 2020年10月17日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

マルチモーダルニューラルマシン翻訳(NMT)は,画像データのような付加的モダリティがテキストデータにより多くのコンテキストを提供できるので,長年にわたる研究のますます重要な分野になった。さらに,大規模並列コーパスのない訓練マルチモーダルNMTモデルの実行可能性は,特に英語-日本語データに対して,画像との並列文章の低いアベイラビリティのために調査され続けている。しかし,このボイドは,ソーシャルネットワークポストとeコマース製品記述のようなメディアを通して自然に生成されるバイリンガル用語と並列フレーズを含む同等の文章で満たされる。本論文では,既存の画像キャプテーションデータセットからコンパイルされた比較可能な文章を持つ新しいマルチモーダル英語コーパスを提案する。さらに,検証と試験目的のために,より小さな並列コーパスと同等な文章を補完した。この比較可能な文章翻訳シナリオの性能を試験するために,いくつかのベースラインNMTモデルを著者らの比較コーパスで訓練し,それらの英語-日本語翻訳性能を評価する。著者らのベースライン実験での低い翻訳スコアにより,現在のマルチモーダルNMTモデルは,比較可能な文章データを効果的に利用するために設計されないと信じる。これにもかかわらず,著者らのコーパスは,同程度の文章を有するマルチモーダルNMTの更なる研究に使用されることを期待する。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

自然語処理

, , , , ,

前のページに戻る