文献
J-GLOBAL ID:202002261000169569   整理番号:20A1632584

深層学習ベースのアラビア語テキストカテゴリー化に対する幹と単語埋込みの影響【JST・京大機械翻訳】

Impact of Stemming and Word Embedding on Deep Learning-Based Arabic Text Categorization
著者 (2件):
資料名:
巻:ページ: 127913-127928  発行年: 2020年 
JST資料番号: W2422A  ISSN: 2169-3536  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
文書分類は,情報検索における古典的問題であり,様々な応用において重要な役割を果たす。自動文書分類は,文書に対する1つ以上の事前定義カテゴリのコンテンツベース割当てとして定義できる。多くのアルゴリズムが提案され,一般的にこの問題を解くために実装されているが,アラビア文書の分類は,他の言語における類似の作業の遅れに遅れている。本論文では,アラビア文書を分類するための7つの深層学習ベースアルゴリズムを提案した。これらは,畳み込みニューラルネットワーク(CNN),CNN-LSTM(LSTM=Long Short-Termメモリ),CNN-GRU(GRU=Gated Recurent Units),BiLSTM(双方向LSTM),BiGRU,Att-LSTM(Attend-LSTM),Att-GRUである。そして単語表現のために,単語埋込み技術(Word2Vec)を適用した。6と8のカテゴリーを10倍交差検証を用いて,2つの大規模データセットに対して著者らのアプローチを試験した。著者らの目的は,分類がどのように茎形成戦略と単語埋込みによって影響を受けるかを研究することであった。最初に,異なる深層学習モデルによる文書分類に対する異なるステーミングアルゴリズムの影響を調べた。11の異なる茎形成アルゴリズムで実験し,根ベースおよび茎ベース,および茎形成を広く落下させた。異なるステマーを用いた分類結果に関するANOVA試験を実施し,結果が有意であるかどうかを保証した。この研究の結果は,茎ベースアルゴリズムが根ベースアルゴリズムと比較してわずかに良いことを示した。深層学習モデルの中で,注意機構と双方向学習はアラビアテキスト分類で優れた性能を与えた。最良の性能は,ステムベースアルゴリズムによるAtt-GRUモデルを用いて達成されたFスコア=97.96%であった。次に,単語埋込みのための異なる制御パラメータを検討した。Word2Vecでは,スキップグラムとバッグオブワード(CBOW)は,いずれのステム戦略でも良好に機能した。しかしながら,ステムベースのアルゴリズムを使用するとき,スキップグラムはより小さい次元のベクトルで良い結果を達成し,一方,CBOWは類似の性能を達成するためにより大きな次元ベクトルを必要とする。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  自然語処理 

前のページに戻る