3DRef変換器:自然言語を用いた実世界シーンにおける細粒オブジェクト識別【JST・京大機械翻訳】

Abdelreheem Ahmed; Upadhyay Ujjwal; Skorokhodov Ivan; Al Yahya Rawan; Chen Jun; Elhoseiny Mohamed

文献

J-GLOBAL ID：202202272403611169 整理番号：22A0788870

3DRef変換器:自然言語を用いた実世界シーンにおける細粒オブジェクト識別【JST・京大機械翻訳】

3DRefTransformer: Fine-Grained Object Identification in Real-World Scenes Using Natural Language

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0788870&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0788870&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (6件)： , , , , ,
資料名：
巻： 2022 号： WACV ページ： 607-616 発行年： 2022年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,テキストクエリにより記述された実世界シーンにおける細粒3Dオブジェクト同定を研究した。タスクは,視覚シーンに現れる同じクラスの3Dオブジェクトの他のインスタンスの中で,自然言語発話によって記述される特定の3Dオブジェクトのインスタンスを弁別的に理解することを目的とする。実世界シーンにおける言語発話により記述された3Dオブジェクトを同定する変圧器ベースニューラルネットワークである3DRefトランスフォーマネットを導入した。ネットワーク入力は,実世界シーンとシーンオブジェクトの1つに言及する言語発話を表す3Dオブジェクトセグメンテーションポイントクラウド画像である。目標は,参照対象を同定することである。グラフ畳込みとLSTMに基づく最先端のモデルと比較して,3DRefトランスフォーマネットは2つの重要な利点を提供する。第1に,それは言語と3D視覚物体の両方で動作するエンドツーエンド変圧器モデルである。第2に,シーンにおける3D物体の学習表現に対する発話におけるテキスト用語の自然な能力を有した。さらに,モデル訓練中のオブジェクトペアワイズ空間関係損失とコントラスト学習を組み込んだ。実験では,著者らのモデルが,Referit3D Nr3DとSr3Dデータセット上で,現在のSOTAの性能を大幅に改善することを示した。コードとモデルはhttps://vision-cair.github.io/3dreftransformer/で公的に利用できる。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

図形・画像処理一般

, , , , ,

前のページに戻る