抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
文書分類は,情報検索における古典的問題であり,様々な応用において重要な役割を果たす。自動文書分類は,文書に対する1つ以上の事前定義カテゴリのコンテンツベース割当てとして定義できる。多くのアルゴリズムが提案され,一般的にこの問題を解くために実装されているが,アラビア文書の分類は,他の言語における類似の作業の遅れに遅れている。本論文では,アラビア文書を分類するための7つの深層学習ベースアルゴリズムを提案した。これらは,畳み込みニューラルネットワーク(CNN),CNN-LSTM(LSTM=Long Short-Termメモリ),CNN-GRU(GRU=Gated Recurent Units),BiLSTM(双方向LSTM),BiGRU,Att-LSTM(Attend-LSTM),Att-GRUである。そして単語表現のために,単語埋込み技術(Word2Vec)を適用した。6と8のカテゴリーを10倍交差検証を用いて,2つの大規模データセットに対して著者らのアプローチを試験した。著者らの目的は,分類がどのように茎形成戦略と単語埋込みによって影響を受けるかを研究することであった。最初に,異なる深層学習モデルによる文書分類に対する異なるステーミングアルゴリズムの影響を調べた。11の異なる茎形成アルゴリズムで実験し,根ベースおよび茎ベース,および茎形成を広く落下させた。異なるステマーを用いた分類結果に関するANOVA試験を実施し,結果が有意であるかどうかを保証した。この研究の結果は,茎ベースアルゴリズムが根ベースアルゴリズムと比較してわずかに良いことを示した。深層学習モデルの中で,注意機構と双方向学習はアラビアテキスト分類で優れた性能を与えた。最良の性能は,ステムベースアルゴリズムによるAtt-GRUモデルを用いて達成されたFスコア=97.96%であった。次に,単語埋込みのための異なる制御パラメータを検討した。Word2Vecでは,スキップグラムとバッグオブワード(CBOW)は,いずれのステム戦略でも良好に機能した。しかしながら,ステムベースのアルゴリズムを使用するとき,スキップグラムはより小さい次元のベクトルで良い結果を達成し,一方,CBOWは類似の性能を達成するためにより大きな次元ベクトルを必要とする。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】