プレプリント
J-GLOBAL ID:202202213262610940   整理番号:22P0328480

空間の代替処理によるトークン化の改善【JST・京大機械翻訳】

Improving Tokenisation by Alternative Treatment of Spaces
著者 (4件):
資料名:
発行年: 2022年04月08日  プレプリントサーバーでの情報更新日: 2022年10月22日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
トークニングは,ほぼすべてのNLPタスクにおける最初のステップであり,最先端の変圧器ベースの言語モデルは,入力テキストを処理するために,すべてのサブワードトークン化アルゴリズムを使用する。既存のアルゴリズムは問題があり,しばしば限られた言語妥当性のトークン化を生成し,単語内のそれらの位置に依存して,等価ストリングを表現する。これらの問題は,複雑な単語を扱うための変圧器ベースのモデルの能力を妨げ,これらの問題は空間を含むトークンを可能にする結果であることを示唆する。そこで,空間が個々のトークンとして常に扱われる代替トークン化アプローチによる実験を行った。特に,この修正をBPEとユニグラムアルゴリズムに適用した。この修正アルゴリズムは,複雑な単語を扱うことを含む下流NLPタスクに関する性能改善をもたらし,一方,一般的な自然言語理解タスクにおける性能に有害な効果を持たないことを見出した。固有に,著者らの修正アルゴリズムは,特にプレフィックスを扱うとき,より形態学的に正しいトークン化を与えることを見出した。著者らの実験の結果を考えると,著者らは,改良トークン化方式として個々のトークンとして空間を常に処理する。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理  ,  パターン認識 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る