KinyaBERT:形態を意識したKinyarwanda言語モデル【JST・京大機械翻訳】

Nzeyimana Antoine; Rubungo Andre Niyongabo

プレプリント

J-GLOBAL ID：202202213587175221 整理番号：22P0305109

KinyaBERT:形態を意識したKinyarwanda言語モデル【JST・京大機械翻訳】

KinyaBERT: a Morphology-aware Kinyarwanda Language Model

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月16日プレプリントサーバーでの情報更新日： 2022年03月17日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

BERTのような事前訓練言語モデルは,多くの自然言語処理タスクに取り組むのに成功した。しかし,これらのモデル(例えば,バイト対符号化-BPE)で一般的に使用される教師なしサブワードトークン化法は,形態学的に豊富な言語を扱うのに準最適である。形態学的分析装置であっても,標準BERTアーキテクチャへのモルフィメのナイーブ配列決定は,形態学的組成性捕捉と単語関連構文規則性の表現において非効率である。形態学的分析装置を利用し,形態学的組成を明確に表現する単純だが効果的な2段階BERTアーキテクチャを提案することにより,これらの課題に取り組んだ。BERTの成功にもかかわらず,その評価の大部分は高資源言語で行われており,低資源言語へのその適用性を硬化している。提案モデルアーキテクチャKinyaBERTを命名する,低資源形態学的に豊富なKinyarwanda言語に関する提案手法を評価した。実験結果のロバストな集合は,KinyaBERTが,F1スコアにおいて,F1スコアで2%,機械翻訳GLUEベンチマークの平均スコアで4.3%で,固体ベースラインより優れていることを明らかにした。KinyaBERT微調整には,より良い収束があり,翻訳ノイズの存在下でさえ,複数のタスクに関してよりロバストな結果を達成する。【JST・京大機械翻訳】

, , , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

自然語処理 , パターン認識

, ,

前のページに戻る