SAMEスコア:単語埋込みのための改良型余弦ベースバイアススコア【JST・京大機械翻訳】

Schroder Sarah; Schulz Alexander; Kenneweg Philip; Feldhans Robert; Hinder Fabian; Hammer Barbara

プレプリント

J-GLOBAL ID：202202217745408706 整理番号：22P0311253

SAMEスコア:単語埋込みのための改良型余弦ベースバイアススコア【JST・京大機械翻訳】

The SAME score: Improved cosine based bias score for word embeddings

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年03月28日プレプリントサーバーでの情報更新日： 2022年10月24日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

昨年にわたって,単語と文章埋込みは,すべての種類のNLPタスクのためのテキスト前処理として確立され,これらのタスクにおける性能を大幅に改善した。残念なことに,これらの埋込みは訓練データから様々な種類のバイアスを受け継ぎ,それによってNLP解に社会に存在するバイアスを通過した。多くの論文が,単語または文章埋込みにおけるバイアスの定量化を試み,脱バイアス法を評価し,異なる埋込みモデルを比較し,しばしば余弦ベーススコアと比較する。しかし,いくつかの研究は,低いバイアス,バイアスが持続し,他の試験で示すことができるにもかかわらず,これらのスコアに関する疑問を提起した。事実,最適解に関するコンセンサスなしで,文献において提案された多くのバイアススコアまたはテストがある。バイアススコアの挙動を研究し,それらの利点と短所を詳述する研究がない。本研究では,異なる余弦ベースバイアススコアを調べた。文献からのアイデアに基づくバイアス定義を提供し,バイアススコアの新しい要求を導いた。さらに,既存の余弦ベーススコアとその限界を徹底的に調べ,なぜこれらのスコアがいくつかの状況でバイアスを報告できないかを示した。最後に,既存のバイアススコアの欠点に対処するために,新しいバイアススコア,SAMEを提案し,SAMEが単語埋込みにおけるバイアスを定量化するのに適していることを経験的に示した。【JST・京大機械翻訳】

, , , , , ,
, , 【Automatic Indexing@JST】

自然語処理

, , , ,

前のページに戻る