アラビア語文書分類のためのイメージベース文字埋め込み

DAIF Mahmoud; KITADA Shunsuke; IYATOMI Hitoshi

文献

J-GLOBAL ID：202002259546511847 整理番号：20A0947313

アラビア語文書分類のためのイメージベース文字埋め込み

Image-based Character Embedding for Arabic Document Classification

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A0947313&from=J-GLOBAL&jstjournalNo=U0384A") }}

著者 (3件)： , ,
資料名：
巻： 26th ページ： ROMBUNNO.P2-33 (WEB ONLY) 発行年： 2020年
JST資料番号： U0384A ISSN： 2188-4420 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：英語 (EN)

本研究では,アラビア語テキスト分類のためのイメージベース文字埋め込みモデルを紹介した。古典的な技術を用いたアラビア語テキスト分類による問題は,複雑な形態素解析と手作りの特徴エンジニアリングに対するその依存性である。文字レベル埋め込みを用いることは,複雑な形態素解析と特徴エンジニアリングを必要としない。ここでは,テキストが文字イメージのアレイと,Class-balance lossとして表現される CE-CLCNNを用いた新しいアラビア語文書分類モデルを提案した。CE-CLCNNは,文字オートエンコーダ(CE)と文字レベルCNN(CLCNN)の2つの部分から成る。CEはイメージベースの文字埋め込みを符号化するために学習し,CLCNNはそれらの埋め込みを用いて文書を分類するために使用される。このシステムの有効性を試験するために2つのデータセットを作成した。一つ目はアラビア語のWikipedia タイトルデータセット(AWT)であり,二つ目はアラビア語のPoetryデータセット(APD)である。提案したモデルは,ADPデータセットに対してマイクロおよびマクロFスコアに対してそれぞれ21.23%および13.82%,AWTデータセットに対して4.02%および3.95%,古典的SVMよりも優れていた。著者らの知る限りでは,これは初めてイメージベースの文字埋め込みモデルを用いてアラビア語テキスト分類の問題への取り組みである。また,3種類のアラビアを含むデータセットについて,テキスト分類の深層学習モデルを始めてテストした。(翻訳著者抄録)

, , , , , , , , ,
, , , , , ,

自然語処理

, , , , ,

前のページに戻る