深層学習ベースのアラビア語テキストカテゴリー化に対する幹と単語埋込みの影響【JST・京大機械翻訳】

Almuzaini Huda Abdulrahman; Azmi Aqil M.

文献

J-GLOBAL ID：202002261000169569 整理番号：20A1632584

深層学習ベースのアラビア語テキストカテゴリー化に対する幹と単語埋込みの影響【JST・京大機械翻訳】

Impact of Stemming and Word Embedding on Deep Learning-Based Arabic Text Categorization

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A1632584&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1632584&from=J-GLOBAL&jstjournalNo=W2422A") }}

著者 (2件)： ,
資料名：
巻： 8 ページ： 127913-127928 発行年： 2020年
JST資料番号： W2422A ISSN： 2169-3536 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

文書分類は,情報検索における古典的問題であり,様々な応用において重要な役割を果たす。自動文書分類は,文書に対する1つ以上の事前定義カテゴリのコンテンツベース割当てとして定義できる。多くのアルゴリズムが提案され,一般的にこの問題を解くために実装されているが,アラビア文書の分類は,他の言語における類似の作業の遅れに遅れている。本論文では,アラビア文書を分類するための7つの深層学習ベースアルゴリズムを提案した。これらは,畳み込みニューラルネットワーク(CNN),CNN-LSTM(LSTM=Long Short-Termメモリ),CNN-GRU(GRU=Gated Recurent Units),BiLSTM(双方向LSTM),BiGRU,Att-LSTM(Attend-LSTM),Att-GRUである。そして単語表現のために,単語埋込み技術(Word2Vec)を適用した。6と8のカテゴリーを10倍交差検証を用いて,2つの大規模データセットに対して著者らのアプローチを試験した。著者らの目的は,分類がどのように茎形成戦略と単語埋込みによって影響を受けるかを研究することであった。最初に,異なる深層学習モデルによる文書分類に対する異なるステーミングアルゴリズムの影響を調べた。11の異なる茎形成アルゴリズムで実験し,根ベースおよび茎ベース,および茎形成を広く落下させた。異なるステマーを用いた分類結果に関するANOVA試験を実施し,結果が有意であるかどうかを保証した。この研究の結果は,茎ベースアルゴリズムが根ベースアルゴリズムと比較してわずかに良いことを示した。深層学習モデルの中で,注意機構と双方向学習はアラビアテキスト分類で優れた性能を与えた。最良の性能は,ステムベースアルゴリズムによるAtt-GRUモデルを用いて達成されたFスコア=97.96%であった。次に,単語埋込みのための異なる制御パラメータを検討した。Word2Vecでは,スキップグラムとバッグオブワード(CBOW)は,いずれのステム戦略でも良好に機能した。しかしながら,ステムベースのアルゴリズムを使用するとき,スキップグラムはより小さい次元のベクトルで良い結果を達成し,一方,CBOWは類似の性能を達成するためにより大きな次元ベクトルを必要とする。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , ,
, , , , , , 【Automatic Indexing@JST】

パターン認識 , 自然語処理

, , , , ,

前のページに戻る