モデルロバスト性を改善するための敵対的訓練?予測と解釈の両方【JST・京大機械翻訳】

Chen Hanjie; Ji Yangfeng

プレプリント

J-GLOBAL ID：202202203525611682 整理番号：22P0309359

モデルロバスト性を改善するための敵対的訓練?予測と解釈の両方【JST・京大機械翻訳】

Adversarial Training for Improving Model Robustness? Look at Both Prediction and Interpretation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月23日プレプリントサーバーでの情報更新日： 2022年03月23日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

神経言語モデルは,それらの同義語によって置換された少数の単語を有するそれらの元の対応物と意味的に類似である敵対例に対する脆弱性を示す。モデルロバスト性を改善する一般的方法は,目標モデルを攻撃することによって,2つのステップ収集敵対例に従う敵対的訓練であり,そして,これらの敵対的用例によって拡張データセットに関するモデルを微調整する。伝統的な敵対訓練の目的は,原型/敵対例対に関する同じ正しい予測を生成することである。しかし,2つの類似テキストに関するモデル意思決定間の一貫性は無視した。ロバストモデルは,元の/敵対的事例対で一貫して行動するべきであり,それは一貫した解釈によって反映できる同じ理由(ハウ)に基づく同じ予測(what)を作ることを論じた。本研究では,FLATと名付けた新しい特徴レベル広告訓練法を提案した。FLATは,予測と解釈の両方の観点からモデルロバスト性を改善することを目的とする。FLATは,ニューラルネットワークに変分語マスクを組み込み,大域的単語重要度を学習し,重要な単語に基づく予測を行うためのモデルを教育するボトルネックとして演ずる。FLATは,対応する大域的単語重要度スコアを正則化することによって,元の/敵対例対における置換単語とそれらの同義語に関するモデル理解の間の不整合によって引き起こされた脆弱性問題において,明示的にシュートした。実験は,4つのテキスト分類タスクに対する2つの敵対攻撃に対する4つのニューラルネットワークモデル(LSTM,CNN,BERT,およびDeBERTa)の予測と解釈の両方に関して,ロバスト性の改善におけるFLATの有効性を示した。また,FLATを介して訓練されたモデルは,異なる攻撃を横断して,非公式の敵対例に関して,ベースラインモデルより良いロバスト性を示した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

データ保護 , 人工知能

, , , ,

前のページに戻る