空間の代替処理によるトークン化の改善【JST・京大機械翻訳】

Gow-Smith Edward; Madabushi Harish Tayyar; Scarton Carolina; Villavicencio Aline

プレプリント

J-GLOBAL ID：202202213262610940 整理番号：22P0328480

空間の代替処理によるトークン化の改善【JST・京大機械翻訳】

Improving Tokenisation by Alternative Treatment of Spaces

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年04月08日プレプリントサーバーでの情報更新日： 2022年10月22日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

トークニングは,ほぼすべてのNLPタスクにおける最初のステップであり,最先端の変圧器ベースの言語モデルは,入力テキストを処理するために,すべてのサブワードトークン化アルゴリズムを使用する。既存のアルゴリズムは問題があり,しばしば限られた言語妥当性のトークン化を生成し,単語内のそれらの位置に依存して,等価ストリングを表現する。これらの問題は,複雑な単語を扱うための変圧器ベースのモデルの能力を妨げ,これらの問題は空間を含むトークンを可能にする結果であることを示唆する。そこで,空間が個々のトークンとして常に扱われる代替トークン化アプローチによる実験を行った。特に,この修正をBPEとユニグラムアルゴリズムに適用した。この修正アルゴリズムは,複雑な単語を扱うことを含む下流NLPタスクに関する性能改善をもたらし,一方,一般的な自然言語理解タスクにおける性能に有害な効果を持たないことを見出した。固有に,著者らの修正アルゴリズムは,特にプレフィックスを扱うとき,より形態学的に正しいトークン化を与えることを見出した。著者らの実験の結果を考えると,著者らは,改良トークン化方式として個々のトークンとして空間を常に処理する。【JST・京大機械翻訳】

, , , , , , ,
, , 【Automatic Indexing@JST】

自然語処理 , パターン認識

前のページに戻る