抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ウェブページの類似ページには,1)完全に文が同一のページ,2)1つが他方に包含されるページ,3)部分を共有するページがある。本論文では,1億ページという大規模なウェブコレクションを対象とし,類似ページの検出手法を提案した。本手法は,i)ルールベースによるコンテンツ領域抽出,ii)Web全体での低頻度で長い文の抽出,iii)前記文を共有するページペアの分類という手順をとる。i)ではページをDOM(Document Object Model)木に変換してブロックに分割し,同じ深さのノードでHTML(Hypertext Markup Language)タグが一致しているものを連結したときに,リンクの割合が閾値以上で文の最長文字数が閾値以下のブロックを非コンテンツ領域とした。また,iii)ではページ間の文の重複率,包含率を用いて1)~3)に分類した後でURL(Uniform Resource Locator)の類似度,2ページ間のリンクを用い,a)ミラーページ,b)サイト内包含ページ,c)サイト内関連ページ,d)スパムページ,e)被リンクページ,f)引用/被引用ページ,g)盗作/被盗作ページ,h)文集合共有ページに分けた。実験ではa),b),c),h)は高い分類精度が得られたが,その他は40~80%程度となった。