抄録/ポイント: 抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
人間行動の検出は,自律ロボットおよび車両にとって重要なタスクであり,しばしば,精度改善のために様々なデータモダリティの統合を必要とする。本研究では,骨格と視覚的手がかりに基づくLS-HARという言語監視を用いた人間行動認識(HAR)への新たなアプローチを導入した。提案手法では,スケルトン符号器における特徴抽出プロセスを誘導するために言語モデルを利用する。特に,特徴表現を最適化するために,スケルトンモダリティ上で条件付けされた言語モデルに対して学習可能なプロンプトを採用した。さらに,顕著融合モジュールを用いて二重モダリティ特徴を結合し,モダリティの高次元性に対処するために注意および変換メカニズムを組み込んだ融合メカニズムを提案した。この融合プロセスは,有益なビデオフレームとボディジョイントを優先させ,人間の動作の認識精度を高める。さらに,視覚的,骨格的,および深さデータモダリティを特徴とする建設現場での実世界ロボット応用に合わせて調整した新しいデータセット,すなわちVolvoConstActを紹介した。このデータセットは,実世界の構築サイトで必要なタスクを実行するための自律的な建設機械を指導するための機械学習モデルの訓練と評価を容易にするのに役立つ。筆者らのアプローチを評価するために,筆者らは筆者らのデータセット並びに3つの広く使用されている公共データセット:NTU-RGB+D,NTU-RGB+D120,及びNW-UCLA,について実験を行った。その結果,提案の手法はすべてのデータ集合で有望な性能を達成し,そのロバスト性と様々な応用への可能性を示した。実機械実験のコード,データセット,および実証は,https://mmahdavian.github.io/ls_har/で利用可能である。【JST機械翻訳】