効率的な群衆計数のための弱教師付き学習によるCNNと変圧器ネットワークの結合【JST・京大機械翻訳】

Wang Fusen; Liu Kai; Long Fei; Sang Nong; Xia Xiaofeng; Sang Jun

プレプリント

J-GLOBAL ID：202202217311059118 整理番号：22P0303038

効率的な群衆計数のための弱教師付き学習によるCNNと変圧器ネットワークの結合【JST・京大機械翻訳】

Joint CNN and Transformer Network via weakly supervised Learning for efficient crowd counting

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年03月12日プレプリントサーバーでの情報更新日： 2022年03月12日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

現在,混雑計数のために,密度マップ推定による完全教師つき方法は主流研究方向である。しかし,そのような方法は,時間消費と労力を要する画像における人の位置レベルアノテーションを必要とする。したがって,計数レベルアノテーションに頼る弱い教師つき方法は緊急に必要である。CNNは大域的コンテキストのモデリングに適していないので,画像パッチ間の相互作用は,CNNによる弱い教師つき学習による群衆計数は,一般的に良好な性能を示すことができない。グローバルコンテキストをモデル化し,コントラスト特徴を学習するために,変換機による弱い教師つきモデルを連続的に提案した。しかし,変圧器は群衆画像を一連のトークンに直接分割し,それは各歩行者が独立した個人であるために良い選択ではなく,ネットワークのパラメータ数は非常に大きい。したがって,本論文では,クラウド計数のための弱い教師つき学習による共同CNNと変換ネットワーク(JCTNet)を提案した。JCTNetは,3つの部分から成る:CNN特徴抽出モジュール(CFM),変圧器特徴抽出モジュール(TFM),および計数回帰モジュール(CRM)。特に,CFMは,意味情報特徴を抽出し,次に,グローバル文脈をモデル化するため,それらのパッチ分割をTRMに送信し,CRMを用いて,人々の数を予測した。大規模な実験と可視化は,JCTNetが群衆領域に効果的に集中し,5つの主流データセットで優れた弱い教師つき計数性能を得ることができることを証明した。モデルのパラメータの数は,純粋な変換装置と比較して約67%~73%低減できた。また,計数レベルアノテーションだけによって制約されたモデルが,群衆領域に焦点を当てることができる現象を説明することを試みた。本研究が,この分野におけるさらなる研究を促進できると信じる。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る