抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
マルチタスクの密なシーン理解は,ピクセルワイズ予測と一連の相関タスクに関する同時認識と推論を必要とするスライビング研究領域である。ほとんどの既存の研究は,畳み込み演算の重い利用のために,局所性におけるモデリングの厳しい限界に遭遇し,一方,大域的空間位置およびマルチタスク文脈における学習相互作用および推論は,この問題に対して重要である。本論文では,統一フレームワークにおける空間位置と多重タスクの同時モデリングを行うために,新しいエンドツーエンド反転ピラミッドマルチタスク変換器(InvPT)を提案した。著者らの知る限り,これは,シーン理解のためのマルチタスク高密度予測のための変圧器構造を設計する最初の研究である。さらに,高い空間分解能は,高密度予測に対して著しく有益であるが,大きな空間サイズに対する大きな複雑性により,より高い分解能で深くなるのは,既存の変圧器にとって非常に困難であることが広く実証されている。インvPTは,徐々に増加する解像度でマルチタスク特徴インタラクションを学習するための効率的なUP変換ブロックを提示し,それはまた,高解像度でタスク特異的予測を生成するために,効果的な自己注意メッセージ通過とマルチスケール特徴集約を組み込んだ。著者らの方法は,それぞれNYUD-v2とPASCAL-Contexデータセットに関して優れたマルチタスク性能を達成して,以前の最先端技術を著しく凌駕した。このコードはhttps://github.com/prismformore/InvPTで利用可能である。【JST・京大機械翻訳】