プレプリント
J-GLOBAL ID:202202220309813850   整理番号:22P0302527

文は128擬トークンである:文埋込みのための意味を意識した対照的学習フレームワーク【JST・京大機械翻訳】

A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive Learning Framework for Sentence Embeddings
著者 (5件):
資料名:
発行年: 2022年03月11日  プレプリントサーバーでの情報更新日: 2022年03月11日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
コントラスト学習は,教師なし文章埋込みタスク,例えばSimCSEにおいて大きな潜在能力を示した。しかし,これらの既存の解は,文章の長さや構文構造のような表面特徴により大きく影響されることを見出した。本論文では,文長や構文のような表在特徴の影響を除く一方で,文章の擬似トークン空間(即ち,潜在意味空間)表現を利用できる,擬似トークンBERT(PT-BERT)と呼ばれる文章埋込みのための意味論認識コントラスト学習フレームワークを提案した。具体的には,BERT符号器に依存しない付加的擬似トークン埋込み層を導入し,各文を固定長で擬似トークンのシーケンスに写像した。これらの擬似シーケンスを劣化させると,コントラスト学習を行うための注意機構に基づいて,同じ長さの正と負の対を構築できる。さらに,勾配更新および運動量更新符号器を用いて,インスタンスを符号化し,一方,文章埋込みの表現を保存し,負例に対する符号器学習性能を強化するための付加的待ち行列を動的に維持した。実験は,著者らのモデルが,6つの標準セマンティックテキスト類似性(STS)タスクに関して最先端のベースラインより優れていることを示した。さらに,異なる文章長と構文を有するハード例と同様に,アラインメントと均一性損失に関する実験は,著者らの方法の有効性を一貫して検証した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理  ,  人工知能 

前のページに戻る