文献
J-GLOBAL ID:201802284632193184   整理番号:18A0645401

改良TF-IDFアルゴリズムと共起語に基づく主題語抽出アルゴリズム【JST・京大機械翻訳】

A method of extracting subj ect words based on improved TF-IDF algorithm and co-occurrence words
著者 (5件):
資料名:
巻: 53  号:ページ: 1072-1080  発行年: 2017年 
JST資料番号: C2593A  ISSN: 0469-5097  CODEN: NCHPAZ  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 中国 (CHN)  言語: 中国語 (ZH)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
情報主題の抽出は,ユーザ要求を迅速に位置付ける基本的タスクであり,主題語抽出には3つの主な問題がある。一つは語の重みの計算であり、二つ目は語間の関係の測量であり、三つ目はデータ次元の災害である。語の重みを計算する際に、まず、相互情報を用いて、共起語ペアを確定し、単語頻度、品詞、語位置情報との非線形組み合わせ、そして、語の重みに基づいて、文書-共起語行列を構築し、潜在的意味解析(Latent Semantic Analysis, LSA)モデルを構築した。この方法は,LSAモデルの特異値分解(SVD)を用いて,文書の共起語マトリックスを潜在的な意味空間に写像し,データ次元を低減するだけでなく,低次元の文書類似行列を獲得する。最終的に,文書類似性マトリックスをk-meansクラスタリングによってクラスタ化して,同じ種類の文書における単語の重みの最大数の前の共起語を選択して,それらの文章の主題語として使用することができた。TF-IDF(Term Frequency-Inverse Document Frequency)と共起語に基づく主題語を抽出する実験により、このアルゴリズムの精度はそれぞれ19%と10%向上した。Data from Wanfang. Translated by JST【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る