Btranspose:自己教師付きプレトレーニングによる人間姿勢推定のためのボトルネック変圧器【JST・京大機械翻訳】

Balakrishnan Kaushik; Upadhyay Devesh

プレプリント

J-GLOBAL ID：202202207747974533 整理番号：22P0336420

Btranspose:自己教師付きプレトレーニングによる人間姿勢推定のためのボトルネック変圧器【JST・京大機械翻訳】

BTranspose: Bottleneck Transformers for Human Pose Estimation with Self-Supervised Pre-Training

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年04月21日プレプリントサーバーでの情報更新日： 2022年04月21日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

2D人間姿勢推定のタスクは,キーポイントの数が典型的に大きい(約17)ので挑戦的であり,これは入力画像から関連特徴を捉えることができるロバストなニューラルネットワークアーキテクチャと訓練パイプラインの使用を必要とする。次に,これらの特徴を凝集して,人体部品の最終的キーポイントを推論できる正確なヒートマップ予測を行った。文献における多くの論文では,バックボーンのためのCNNベースのアーキテクチャを使用し,そして/またはそれを変圧器と結合させ,その後,その特徴が最終キーポイント予測を成すために集約された。本論文では,CNNとマルチヘッド自己注意(MHSA)層を効果的に結合させる最近提案されたBottleneck変換器[2]を考察し,それを変換符号器と統合し,それを2D人間姿勢推定のタスクに適用した。DINO自己監督学習法[3]を用いて,異なるバックボーンアーキテクチャとプレトレインを考察し,この予訓練は全体予測精度を改善することを見出した。著者らは,著者らのモデルBTransposeを呼び出し,実験は,COCO検証セットに関して,著者らのモデルが76.4のAPを達成して,それは[1]のような他の方法と競合して,より少ないネットワークパラメータを有することを示した。さらに,MHSAブロックと変換符号器層の両方に対する最終予測キーポイントの依存性も提示し,画像サブ領域に関する手がかりを,中間と高レベルでネットワークに通した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, , , , , ,

前のページに戻る