抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
「Masked Autoencoder (MAE) Are Scalable Vision Learners」は,画像事前訓練のための最先端技術を達成するだけでなく,視覚と言語マスク自動符号化(BERTスタイル)予訓練の間のギャップを橋渡しするマイルストーンである。しかし,知る限りでは,MAEの強力な発現を説明する理論的展望はない。本論文では,MAEに対する数学的理解を提供する統一理論フレームワークを提案した。特に,非重複領域分解設定の下で積分カーネルを用いたMAEのパッチベース注意アプローチを説明した。MAEの大きな成功の主な理由をさらに理解するための研究コミュニティを助けるために,著者らのフレームワークに基づいて,著者らは5つの疑問を提起して,オペレータ理論からの洞察を用いて数学的なリグによってそれらに答えた。【JST・京大機械翻訳】