プレプリント
J-GLOBAL ID:202202212940525987   整理番号:22P0296936

「中国BERTに優れている」:中国の文法誤り訂正に関するプロービング【JST・京大機械翻訳】

"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction
著者 (8件):
資料名:
発行年: 2022年03月01日  プレプリントサーバーでの情報更新日: 2022年03月02日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
一旦単語に対応するすべてのサブ語をマスクする全単語マスキング(WWM)は,より良い英語BERTモデルを作る。しかし,中国語言語では,各トークンが原子特性であるため,サブワードはない。中国語における単語の意味は,単語が複数の特性から成る構成単位であると異なっている。そのような違いは,WWMが中国のBERTのためのより良い文脈理解能力をもたらすかどうか調査する。これを達成するために,マスクされた言語モデリング方式でトークンを修正または挿入するために,文法誤差補正およびask事前訓練モデルに関連した2つのプロービングタスクを導入した。10,448文における19,075トークンに対するラベルを含むデータセットを構築した。標準文字レベルマスキング(CLM),WWM,およびCLMとWWMの組み合わせで,それぞれ3つの中国のBERTモデルを訓練した。主な知見は次の通りである。最初に,1つの特性が挿入または置換される必要があるとき,CLMで訓練されたモデルは,最良であった。第二に,1つ以上の特性が処理される必要があるとき,WWMはより良い性能の鍵である。最後に,文章レベル下流タスクで微調整するとき,異なるマスキング戦略で訓練されたモデルは,同等に実行される。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  自然語処理 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る