知識蒸留のための三重項損失【JST・京大機械翻訳】

Oki Hideki; Abe Motoshi; Miyao Jyunichi; Kurita Takio

文献

J-GLOBAL ID：202002265420038714 整理番号：20A2282519

知識蒸留のための三重項損失【JST・京大機械翻訳】

Triplet Loss for Knowledge Distillation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A2282519&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A2282519&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (4件)： , , ,
資料名：
巻： 2020 号： IJCNN ページ： 1-7 発行年： 2020年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

近年,深層学習は急速に広がり,より深いモデルが提案されている。しかし,モデルの大きさが大きくなると計算コストは大きくなる。モデルの寸法を圧縮する様々な技法を提案し,計算コストを低減しながら性能を改善した。モデルのサイズを圧縮する方法の一つは,知識蒸留(KD)である。知識蒸留は,多くのパラメータ(教師モデル)を持つ深層またはアンサンブルモデルの知識を,より小さな浅いモデル(直感的モデル)に移転する技術である。知識蒸留の目的は,教師モデルと学生モデルの間の類似性を増すことであるので,訓練サンプルの対または三重項を用いて教師モデルに近い学生モデルを作るために,知識蒸留に計量学習の概念を導入することを提案する。計量学習において,研究者は類似サンプルに対する出力の類似性を増加できるモデルを構築するための手法を開発している。計量学習は,異種間の距離の類似と増加の間の距離の低減を目的とする。類似出力間の差を低減するための計量学習の機能性は,教師モデルと学生モデルの出力間の差を低減するための知識蒸留に使用できる。異なるオブジェクトに対する教師モデルの出力は通常異なるので,学生モデルはそれらを区別する必要がある。計量学習は,異なる出力の違いを明確化でき,学生モデルの性能を改善できると考える。提案手法を最先端の知識蒸留法と比較する実験を行った。結果は,提案した方法によって得た学生モデルが従来の知識蒸留法よりも高い性能を与えることを示した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , ,
, , , 【Automatic Indexing@JST】

図形・画像処理一般

, ,

前のページに戻る