セマンティック・スコアリングを用いたリンクデータソースの分類

YUMUSAK Semih; DOGDU Erdogan; KODAZ Halife

文献

J-GLOBAL ID：201802267058952479 整理番号：18A0376307

セマンティック・スコアリングを用いたリンクデータソースの分類

Classification of Linked Data Sources Using Semantic Scoring

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0376307&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0376307&from=J-GLOBAL&jstjournalNo=U0469A") }}

著者 (3件)： , ,
資料名：
巻： E101.D 号： 1 ページ： 99-107(J-STAGE) 発行年： 2018年
JST資料番号： U0469A ISSN： 1745-1361 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：英語 (EN)

リンクデータセットはセマンティックWeb技術を使用して作成され,通常は大きく,そのようなデータセットの数が増えている。したがって,クエリ実行はコストがかかり,そのようなデータセット内のデータの内容がターゲットとするクエリに役立つはずである。本論文の目的は,リンクデータセットを知識内容で分類することである。LOD Cloud,LODStats,SPARQLESなどの初期のプロジェクトでは,コンテンツ,可用性,インフラストラクチャの観点からリンクデータソースを分析する。これらのプロジェクトでは,リンクデータセットは,主にVoIDボキャブラリを使用して分類およびタグ付けされ,コンテンツ,可用性およびインフラストラクチャに従って分析される。これらのプロジェクトにリストされているすべてのリンクデータソースは,分類またはタグ付けされているように見えるが,新しく到着したリンクデータセットの自動タグ付けおよび分類に関する研究は限られている。本稿では,セマンティックスコアリング手法を使用してリンクデータセットの自動分類に焦点を当てる。Datahub,LOD Cloud,LODStats,SPARQLES,およびSpEnDプロジェクトから1,328個のユニークなリンクデータセットのSPARQLエンドポイントを収集した。次に,rdfs:commentとrdfs:labelプロパティー値を使用して,これらのデータ・セット内のリソースのテキスト記述を照会した。これらのテキストは,すべてのSPARQLエンドポイントを別個のドキュメントと仮定して,文書分析手法と同様の方法で分析した。これに関して,筆者らは,単語とその意味的な近隣について,適応単語頻度逆文書頻度(tfidf)分析と組み合わせたWordNet意味関係ライブラリを使用した。WordNetデータベースでは,上位データ,下位データ,同音異義語,名詞データ,地域データ,及びトピックと使用意味論関係を使用して,リンクされたデータソース内のコメント/ラベルオブジェクトに関する情報を抽出した。上位語とトピックの意味的関係について,データセットを識別する単語を見つけ,リンクされたデータソースの自動分類とタグ付けに使用可能な,いくつかの重要な結果を得た。これらの言葉を使用することによって,我々は異なるスコアリング方法を用いて異なる分類装置を実験し,その結果,より良い分類精度結果が得られた。(翻訳著者抄録)

, , , , , , , , , , , ,
, , , , , , ,

著者キーワード (3件)： , ,

自然語処理

引用文献 (31件)：

[1] Kruskal-Wallis one-way analysis of variance, https://en.wikipedia.org/wiki/Kruskal-Wallis_one-way_analysis_of_variance
[2] Mann-Whitney U test, https://en.wikipedia.org/wiki/Mann-Whitney_U_test
[3] WordNet, https://en.wikipedia.org/wiki/WordNet
[4] M. Acosta, M.-E. Vidal, T. Lampo, J. Castillo, and E. Ruckhaus, ANAPSID: An adaptive query processing engine for SPARQL endpoints, In: Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol.7031, LNCS, pp.18-34, 2011. 10.1007/978-3-642-25073-6_2
[5] S. Auer, J. Demter, M. Martin, and J. Lehmann, “LODStats An Extensible Framework for High performance Dataset Analytics,” In: Knowledge Engineering and Knowledge Management, vol.7603, pp.353-362, Springer Berlin Heidelberg, 2012. 10.1007/978-3-642-33876-2_31

前のページに戻る