抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
2D人間姿勢推定のタスクは,キーポイントの数が典型的に大きい(約17)ので挑戦的であり,これは入力画像から関連特徴を捉えることができるロバストなニューラルネットワークアーキテクチャと訓練パイプラインの使用を必要とする。次に,これらの特徴を凝集して,人体部品の最終的キーポイントを推論できる正確なヒートマップ予測を行った。文献における多くの論文では,バックボーンのためのCNNベースのアーキテクチャを使用し,そして/またはそれを変圧器と結合させ,その後,その特徴が最終キーポイント予測を成すために集約された。本論文では,CNNとマルチヘッド自己注意(MHSA)層を効果的に結合させる最近提案されたBottleneck変換器[2]を考察し,それを変換符号器と統合し,それを2D人間姿勢推定のタスクに適用した。DINO自己監督学習法[3]を用いて,異なるバックボーンアーキテクチャとプレトレインを考察し,この予訓練は全体予測精度を改善することを見出した。著者らは,著者らのモデルBTransposeを呼び出し,実験は,COCO検証セットに関して,著者らのモデルが76.4のAPを達成して,それは[1]のような他の方法と競合して,より少ないネットワークパラメータを有することを示した。さらに,MHSAブロックと変換符号器層の両方に対する最終予測キーポイントの依存性も提示し,画像サブ領域に関する手がかりを,中間と高レベルでネットワークに通した。【JST・京大機械翻訳】