文献
J-GLOBAL ID:202202272403611169   整理番号:22A0788870

3DRef変換器:自然言語を用いた実世界シーンにおける細粒オブジェクト識別【JST・京大機械翻訳】

3DRefTransformer: Fine-Grained Object Identification in Real-World Scenes Using Natural Language
著者 (6件):
資料名:
巻: 2022  号: WACV  ページ: 607-616  発行年: 2022年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,テキストクエリにより記述された実世界シーンにおける細粒3Dオブジェクト同定を研究した。タスクは,視覚シーンに現れる同じクラスの3Dオブジェクトの他のインスタンスの中で,自然言語発話によって記述される特定の3Dオブジェクトのインスタンスを弁別的に理解することを目的とする。実世界シーンにおける言語発話により記述された3Dオブジェクトを同定する変圧器ベースニューラルネットワークである3DRefトランスフォーマネットを導入した。ネットワーク入力は,実世界シーンとシーンオブジェクトの1つに言及する言語発話を表す3Dオブジェクトセグメンテーションポイントクラウド画像である。目標は,参照対象を同定することである。グラフ畳込みとLSTMに基づく最先端のモデルと比較して,3DRefトランスフォーマネットは2つの重要な利点を提供する。第1に,それは言語と3D視覚物体の両方で動作するエンドツーエンド変圧器モデルである。第2に,シーンにおける3D物体の学習表現に対する発話におけるテキスト用語の自然な能力を有した。さらに,モデル訓練中のオブジェクトペアワイズ空間関係損失とコントラスト学習を組み込んだ。実験では,著者らのモデルが,Referit3D Nr3DとSr3Dデータセット上で,現在のSOTAの性能を大幅に改善することを示した。コードとモデルはhttps://vision-cair.github.io/3dreftransformer/で公的に利用できる。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 

前のページに戻る