文献
J-GLOBAL ID:202002259546511847   整理番号:20A0947313

アラビア語文書分類のためのイメージベース文字埋め込み

Image-based Character Embedding for Arabic Document Classification
著者 (3件):
資料名:
巻: 26th  ページ: ROMBUNNO.P2-33 (WEB ONLY)  発行年: 2020年 
JST資料番号: U0384A  ISSN: 2188-4420  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本研究では,アラビア語テキスト分類のためのイメージベース文字埋め込みモデルを紹介した。古典的な技術を用いたアラビア語テキスト分類による問題は,複雑な形態素解析と手作りの特徴エンジニアリングに対するその依存性である。文字レベル埋め込みを用いることは,複雑な形態素解析と特徴エンジニアリングを必要としない。ここでは,テキストが文字イメージのアレイと,Class-balance lossとして表現される CE-CLCNNを用いた新しいアラビア語文書分類モデルを提案した。CE-CLCNNは,文字オートエンコーダ(CE)と文字レベルCNN(CLCNN)の2つの部分から成る。CEはイメージベースの文字埋め込みを符号化するために学習し,CLCNNはそれらの埋め込みを用いて文書を分類するために使用される。このシステムの有効性を試験するために2つのデータセットを作成した。一つ目はアラビア語のWikipedia タイトルデータセット(AWT)であり,二つ目はアラビア語のPoetryデータセット(APD)である。提案したモデルは,ADPデータセットに対してマイクロおよびマクロFスコアに対してそれぞれ21.23%および13.82%,AWTデータセットに対して4.02%および3.95%,古典的SVMよりも優れていた。著者らの知る限りでは,これは初めてイメージベースの文字埋め込みモデルを用いてアラビア語テキスト分類の問題への取り組みである。また,3種類のアラビアを含むデータセットについて,テキスト分類の深層学習モデルを始めてテストした。(翻訳著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理 

前のページに戻る