文献
J-GLOBAL ID:201802265007113562   整理番号:18A1033222

生物医学用語の意味論的関連性と類似性:WordD2VECの性能に対する生物医学刊行物の回復,サイズ,およびセクションの影響の調査【JST・京大機械翻訳】

Semantic relatedness and similarity of biomedical terms: examining the effects of recency, size, and section of biomedical publications on the performance of word2vec
著者 (3件):
資料名:
巻: 17  号:ページ: 95  発行年: 2017年 
JST資料番号: U7433A  ISSN: 1472-6947  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: イギリス (GBR)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
【背景】生物医学用語間の独立した意味論的関連性と類似性は,生物医学情報検索,情報抽出,および推薦システムのような様々な応用に大きな影響を及ぼす。本研究の目的は,大きな出版データから生物医学用語間の意味論的関連性と類似性を引き出すことにおける単語2vecの能力を調べることである。特に,著者らは,単語2vecの性能に及ぼす生物医学出版データのrecy,サイズ,およびセクションの影響に焦点を合わせた。【方法】著者らは,PubMedからの18777,129の論文とPubMed中央(PMC)からの766,326のフルテキスト論文の抽象化をダウンロードする。データセットを前処理し,リcen,サイズ,およびセクションによってサブセットにグループ化した。Word2vecモデルをこれらのサブテストで訓練した。単語2vecモデルから得られた生物医学用語間の余弦類似性を参照標準に対して比較した。異なるサブセットで訓練されたモデルの性能を比較し,リcen,サイズ,およびセクション効果を調べた。結果:最近のデータセットで訓練されたモデルは,性能を上げなかった。より大規模なデータセットで訓練されたモデルは,関連性タスクにおけるより小さなデータセットで訓練されたモデルより多くの生物医学用語を同定した(10%レベルで368から100%レベルで494まで),類似性タスク(10%レベルで374から100%レベルで491まで)。抽象的に訓練されたモデルは,参照標準とのより高い相関を持つ結果を示した。これは,論文体で訓練されたもの(類似性タスクで0.65対0.62,関連性タスクで0.66対0.59)よりも高い相関を持っている。しかし,後者は前者よりも多くの生物医学用語を同定した(すなわち,類似性タスクで344対498,関連性タスクで339対503)。結論:データセットのサイズを増加させることは,必ずしも性能を強化しない。データセットのサイズの増加は,より良い精度を保証しないが,生物医学用語のより多くの関係の同定をもたらすことができる。研究論文の要約として,論文体と比較して,抽出は精度で優れているが,識別可能な関係の範囲で失われている。Copyright 2018 The Author(s). All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
医用情報処理 
引用文献 (24件):
もっと見る

前のページに戻る