抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
トークニングは,ほぼすべてのNLPタスクにおける最初のステップであり,最先端の変圧器ベースの言語モデルは,入力テキストを処理するために,すべてのサブワードトークン化アルゴリズムを使用する。既存のアルゴリズムは問題があり,しばしば限られた言語妥当性のトークン化を生成し,単語内のそれらの位置に依存して,等価ストリングを表現する。これらの問題は,複雑な単語を扱うための変圧器ベースのモデルの能力を妨げ,これらの問題は空間を含むトークンを可能にする結果であることを示唆する。そこで,空間が個々のトークンとして常に扱われる代替トークン化アプローチによる実験を行った。特に,この修正をBPEとユニグラムアルゴリズムに適用した。この修正アルゴリズムは,複雑な単語を扱うことを含む下流NLPタスクに関する性能改善をもたらし,一方,一般的な自然言語理解タスクにおける性能に有害な効果を持たないことを見出した。固有に,著者らの修正アルゴリズムは,特にプレフィックスを扱うとき,より形態学的に正しいトークン化を与えることを見出した。著者らの実験の結果を考えると,著者らは,改良トークン化方式として個々のトークンとして空間を常に処理する。【JST・京大機械翻訳】