抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
リンクデータセットはセマンティックWeb技術を使用して作成され,通常は大きく,そのようなデータセットの数が増えている。したがって,クエリ実行はコストがかかり,そのようなデータセット内のデータの内容がターゲットとするクエリに役立つはずである。本論文の目的は,リンクデータセットを知識内容で分類することである。LOD Cloud,LODStats,SPARQLESなどの初期のプロジェクトでは,コンテンツ,可用性,インフラストラクチャの観点からリンクデータソースを分析する。これらのプロジェクトでは,リンクデータセットは,主にVoIDボキャブラリを使用して分類およびタグ付けされ,コンテンツ,可用性およびインフラストラクチャに従って分析される。これらのプロジェクトにリストされているすべてのリンクデータソースは,分類またはタグ付けされているように見えるが,新しく到着したリンクデータセットの自動タグ付けおよび分類に関する研究は限られている。本稿では,セマンティックスコアリング手法を使用してリンクデータセットの自動分類に焦点を当てる。Datahub,LOD Cloud,LODStats,SPARQLES,およびSpEnDプロジェクトから1,328個のユニークなリンクデータセットのSPARQLエンドポイントを収集した。次に,rdfs:commentとrdfs:labelプロパティー値を使用して,これらのデータ・セット内のリソースのテキスト記述を照会した。これらのテキストは,すべてのSPARQLエンドポイントを別個のドキュメントと仮定して,文書分析手法と同様の方法で分析した。これに関して,筆者らは,単語とその意味的な近隣について,適応単語頻度逆文書頻度(tfidf)分析と組み合わせたWordNet意味関係ライブラリを使用した。WordNetデータベースでは,上位データ,下位データ,同音異義語,名詞データ,地域データ,及びトピックと使用意味論関係を使用して,リンクされたデータソース内のコメント/ラベルオブジェクトに関する情報を抽出した。上位語とトピックの意味的関係について,データセットを識別する単語を見つけ,リンクされたデータソースの自動分類とタグ付けに使用可能な,いくつかの重要な結果を得た。これらの言葉を使用することによって,我々は異なるスコアリング方法を用いて異なる分類装置を実験し,その結果,より良い分類精度結果が得られた。(翻訳著者抄録)