データ表現不変性を利用した深層ニューラルネットワーク自己蒸留【JST・京大機械翻訳】

Xu Ting-Bing; Liu Cheng-Lin

文献

J-GLOBAL ID：202202221464944213 整理番号：22A0398290

データ表現不変性を利用した深層ニューラルネットワーク自己蒸留【JST・京大機械翻訳】

Deep Neural Network Self-Distillation Exploiting Data Representation Invariance

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0398290&from=J-GLOBAL&jstjournalNo=T0881A") }}

著者 (2件)： ,
資料名：
巻： 33 号： 1 ページ： 257-269 発行年： 2022年
JST資料番号： T0881A ISSN： 2162-237X CODEN： ITNNEP 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

高精度で小さなネットワークを収穫するために,ほとんどの既存の方法は,主に低ランク分解や剪定のような圧縮技術を利用して,訓練された大規模モデルを小さなネットワークに圧縮し,強力な大規模モデル(教師)から小さなネットワーク(直感的)への移動知識を圧縮する。高性能の小さいモデルの生成の成功にもかかわらず,付随する支援モデルの依存性は訓練プロセスを複雑にし,メモリと時間コストを増加させる。本論文では,支援モデルを通して直接,高精度モデルを得るための,エレガント自己蒸留(SD)機構を提案した。人間の視覚システムにおける不変認識に触発されて,同じ入力の異なった歪インスタンスは,類似の高レベルデータ表現を持つべきである。従って,同じ試料の異なる歪バージョン間のデータ表現不変性を学習できる。特に,SDに基づく著者らの学習アルゴリズムにおいて,単一ネットワークは,大域的特徴一貫性とKullback Lagrangle Leibler発散を学習するために,最大平均不一致計量を利用して,異なる歪分枝を横切る後部クラス確率一貫性を制約した。MNIST,CIFAR-10/100,およびImageNetデータセットに関する広範な実験は,提案した方法が,AlexNet,VGGNet,ResNet,Wide ResNet,および高密度Netのような様々なネットワークアーキテクチャの一般化誤差を効果的に低減でき,また,既存のモデル蒸留法よりも,ほとんど余分な訓練努力を凌駕することを実証した。”結論]は,AlexNet,VGGNet,ResNet,Wide ResNet,および高密度Netのような様々なネットワークアーキテクチャの一般化誤差を効果的に削減できる。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, , , ,

前のページに戻る