テキスト分類のための深層学習における単語埋込みに関する比較研究【JST・京大機械翻訳】

Wang Congcong; Nulty Paul; Lillis David

文献

J-GLOBAL ID：202102239355529399 整理番号：21A0462791

テキスト分類のための深層学習における単語埋込みに関する比較研究【JST・京大機械翻訳】

A Comparative Study on Word Embeddings in Deep Learning for Text Classification

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A0462791&from=J-GLOBAL&jstjournalNo=D0698C") }}

著者 (3件)： , ,
資料名：
号： NLPIR 2020 ページ： 37-46 発行年： 2020年
JST資料番号： D0698C 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

Word埋込みは,シーケンスラベリングやテキスト分類のような下流言語タスクにおける入力特徴を提供するための深いモデルの重要な構成要素として作用する。過去10年間,この目的のために,主に古典的および文脈ベースの単語埋込みのカテゴリーに陥る,多くの単語埋込み法が提案されてきた。本論文では,テキスト分類の目的で,古典的および文脈的単語埋込みの両方を系統的に調べるための制御実験を行った。単語表現からシーケンスを符号化するために,著者らは下流ネットワークアーキテクチャにおいて2つの符号器,すなわちCNNとBiLSTMを適用した。異なるデータセットに対する単語埋込みの影響を検討するために,単一ラベルとマルチラベル分類タスクの両方を含む平均サンプル長を変えて4つのベンチマーク分類データセットを選択した。信頼区間による評価結果は,下流エンコーダとしてのCNNが,特に文書文脈不感データセットに対して,ほとんどの状況でBiLSTMより優れていることを示した。本研究は,文書分類データセットのためのBiLSTM上のCNNの選択を推薦し,シーケンスの文脈は文章データセットとしてクラスメンバーシップの表示ではない。単語埋込みのために,複数の古典的埋込みの連結またはそれらのサイズの増加は,いくつかの場合のわずかな改善にもかかわらず,性能において統計的に有意な差をもたらさない。コンテキストベースの埋込みのために,ELMoとBERTの両方を研究した。結果は,特に長い文書データセットに対して,BERTがELMoを全体的に凌駕することを示した。古典的埋込みと比較して,両者は短いデータセットに対して改善された性能を達成し,一方,改善は長いデータセットでは観測されない。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , ,
, , 【Automatic Indexing@JST】

著者キーワード (3件)： , ,

自然語処理 , 人工知能

, , , ,

前のページに戻る