プレプリント
J-GLOBAL ID:202202216715269225   整理番号:22P0307579

誤り一貫性のあるプレトレーニングによる一般およびドメイン適応中国語スペリングチェック【JST・京大機械翻訳】

General and Domain Adaptive Chinese Spelling Check with Error Consistent Pretraining
著者 (6件):
資料名:
発行年: 2022年03月21日  プレプリントサーバーでの情報更新日: 2022年12月07日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ラベルデータの欠如は,中国語の Seck(CSC)の重要なボトルネックの1つである。既存の研究は,教師つきコーパスを拡大するためにラベルなしデータを利用することによって自動生成の方式を使用する。しかし,実際の入力シナリオと自動生成コーパスの間には大きなギャップがある。したがって,事前訓練のためのデータを作成するために,誤差整合マスキング戦略を採用する競合一般的スペラーECSpellを開発した。この誤差一貫性マスキング戦略を用いて,実際の場面と一致する自動的に生成された文の誤差タイプを指定した。実験結果は,著者らのモデルが一般的ベンチマークに関する以前の最先端モデルより優れていることを示した。さらに,売り手は,実生活において特定のドメイン内でしばしば働く。多くの珍しいドメイン項のために,著者らの構築したドメイン特異的データセットに関する実験は,一般的モデルが,一般に,実行することを示した。入力法の一般的な実践に触発されて,著者らは,ゼロショットドメイン適応問題を処理するために,変更可能なユーザ辞書を追加することを提案した。具体的には,ユーザ辞書誘導推論モジュール(UD)を一般的トークン分類ベーススペラーに取り付けた。著者らの実験は,ECSpell ̄UD,すなわち,UDと組み合わせたECSpellが,一般的ベンチマークの性能に接近して,他のすべてのベースラインを主に凌駕することを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  自然語処理 

前のページに戻る