「中国BERTに優れている」:中国の文法誤り訂正に関するプロービング【JST・京大機械翻訳】

Dai Yong; Li Linyang; Zhou Cong; Feng Zhangyin; Zhao Enbo; Qiu Xipeng; Li Piji; Tang Duyu

プレプリント

J-GLOBAL ID：202202212940525987 整理番号：22P0296936

「中国BERTに優れている」:中国の文法誤り訂正に関するプロービング【JST・京大機械翻訳】

"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (8件)： , , , , , , ,
資料名：
発行年： 2022年03月01日プレプリントサーバーでの情報更新日： 2022年03月02日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

一旦単語に対応するすべてのサブ語をマスクする全単語マスキング(WWM)は,より良い英語BERTモデルを作る。しかし,中国語言語では,各トークンが原子特性であるため,サブワードはない。中国語における単語の意味は,単語が複数の特性から成る構成単位であると異なっている。そのような違いは,WWMが中国のBERTのためのより良い文脈理解能力をもたらすかどうか調査する。これを達成するために,マスクされた言語モデリング方式でトークンを修正または挿入するために,文法誤差補正およびask事前訓練モデルに関連した2つのプロービングタスクを導入した。10,448文における19,075トークンに対するラベルを含むデータセットを構築した。標準文字レベルマスキング(CLM),WWM,およびCLMとWWMの組み合わせで,それぞれ3つの中国のBERTモデルを訓練した。主な知見は次の通りである。最初に,1つの特性が挿入または置換される必要があるとき,CLMで訓練されたモデルは,最良であった。第二に,1つ以上の特性が処理される必要があるとき,WWMはより良い性能の鍵である。最後に,文章レベル下流タスクで微調整するとき,異なるマスキング戦略で訓練されたモデルは,同等に実行される。【JST・京大機械翻訳】

, , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 自然語処理

, , ,

前のページに戻る