プレプリント
J-GLOBAL ID:202202205210837618   整理番号:22P0128330

テキスト分類におけるトポロジーデータ解析:付加情報による特徴の抽出【JST・京大機械翻訳】

Topological Data Analysis in Text Classification: Extracting Features with Additive Information
著者 (4件):
資料名:
発行年: 2020年03月29日  プレプリントサーバーでの情報更新日: 2020年03月29日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
トポロジーデータ分析の強度は高次元数値データに関する多くの研究で探索されてきたが,テキストにそれを適用するのはなお挑戦的な課題である。トポロジーデータ解析における一次目標は,数値データにおける形状を定義し定量化することであるので,テキストにおける形状を定義することは,ベクトル空間と概念空間の形状が情報検索と意味論に明らかに関連するにもかかわらず,はるかに挑戦的である。本論文では,テキストからのトポロジー特徴の抽出の2つの異なる方法,すなわち,単語埋め込みとTF-IDFベクトルの2つの最も一般的な方法,単語の根底にある表現として,検討した。単語埋込み空間からトポロジー特徴を抽出するため,高次元時系列としてテキスト文書の埋込みを解釈し,頂点が異なる埋込み次元に対応する基礎となるグラフのトポロジーを解析した。TF-IDF表現によるトポロジーデータ解析のために,頂点がテキスト文書における異なるブロックのTF-IDFベクトルから来るグラフのトポロジーを解析した。両事例において,異なる距離分解能の下で幾何学的構造を明らかにするために,ホモロジカルな持続性を適用した。これらの結果は,これらのトポロジー特徴が,従来のテキストマイニング法により捉えられないいくつかの排他的情報を運ぶことを示した。著者らの実験では,アンサンブルモデルにおける従来の特徴にトポロジー特徴を追加することを観察し,分類結果を改善した(5%まで)。一方,期待されるように,それ自身によるトポロジー的特徴は効果的な分類には十分でない。単語埋込みからのTDA特徴が,線形サポートベクトル分類器で得られたトップ結果から,数点の範囲内で実行されるように見えるので,それは十分であるかどうかを見ることは,未解決問題である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る