InvPT:高密度シーン理解のための逆ピラミッドマルチタスク変圧器【JST・京大機械翻訳】

Ye Hanrong; Xu Dan

プレプリント

J-GLOBAL ID：202202212768628418 整理番号：22P0304647

InvPT:高密度シーン理解のための逆ピラミッドマルチタスク変圧器【JST・京大機械翻訳】

InvPT: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月15日プレプリントサーバーでの情報更新日： 2022年11月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

マルチタスクの密なシーン理解は,ピクセルワイズ予測と一連の相関タスクに関する同時認識と推論を必要とするスライビング研究領域である。ほとんどの既存の研究は,畳み込み演算の重い利用のために,局所性におけるモデリングの厳しい限界に遭遇し,一方,大域的空間位置およびマルチタスク文脈における学習相互作用および推論は,この問題に対して重要である。本論文では,統一フレームワークにおける空間位置と多重タスクの同時モデリングを行うために,新しいエンドツーエンド反転ピラミッドマルチタスク変換器(InvPT)を提案した。著者らの知る限り,これは,シーン理解のためのマルチタスク高密度予測のための変圧器構造を設計する最初の研究である。さらに,高い空間分解能は,高密度予測に対して著しく有益であるが,大きな空間サイズに対する大きな複雑性により,より高い分解能で深くなるのは,既存の変圧器にとって非常に困難であることが広く実証されている。インvPTは,徐々に増加する解像度でマルチタスク特徴インタラクションを学習するための効率的なUP変換ブロックを提示し,それはまた,高解像度でタスク特異的予測を生成するために,効果的な自己注意メッセージ通過とマルチスケール特徴集約を組み込んだ。著者らの方法は,それぞれNYUD-v2とPASCAL-Contexデータセットに関して優れたマルチタスク性能を達成して,以前の最先端技術を著しく凌駕した。このコードはhttps://github.com/prismformore/InvPTで利用可能である。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る