抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本研究で提案するWebページ分割手法では,Webページを細分化ブロックという単位まで分割した後に,Webコンテンツの見出しとなるようなブロック(タイトルブロック)に着目して細分化ブロックの結合を行うことにより,Webページを意味的にまとまりのある単位へと分割する。既存のWebページ分割手法の多くが,面積や子ノード数など,コンテンツ量に依存する情報を用いて結合を行っていた。その結果,同一Webサイト内の同じレイアウトのWebページから異なる分割結果が得られるという問題が存在した。提案手法ではコンテンツ量に非依存な結合を行うために,タイトルブロックとそれに続くタイトルブロック以外のブロック(一般ブロック)を結合していく。そのためには,計算機によるタイトルブロックの抽出が課題となる。計算機によるタイトルブロックの自動抽出を行うために,機械学習によって分類器を生成した。J4.8アルゴリズムによる決定木学習によって生成した分類器により,F値77.8%,89.3%でタイトルブロックと一般ブロックの抽出に成功した。得られたタイトルブロックを用いて細分化ブロックの結合を行った結果,ニュースサイトのニュース記事部分に着目した場合,96.1%の精度でコンテンツ量に依存しない同一の分割結果が得られることを確認した。(著者抄録)