文献
J-GLOBAL ID:201202264993512677   整理番号:12A0592913

Webページ分割のための決定木学習を用いたタイトルブロック抽出

著者 (4件):
資料名:
巻: J95-D  号:ページ: 909-918  発行年: 2012年04月01日 
JST資料番号: S0757C  ISSN: 1880-4535  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本研究で提案するWebページ分割手法では,Webページを細分化ブロックという単位まで分割した後に,Webコンテンツの見出しとなるようなブロック(タイトルブロック)に着目して細分化ブロックの結合を行うことにより,Webページを意味的にまとまりのある単位へと分割する。既存のWebページ分割手法の多くが,面積や子ノード数など,コンテンツ量に依存する情報を用いて結合を行っていた。その結果,同一Webサイト内の同じレイアウトのWebページから異なる分割結果が得られるという問題が存在した。提案手法ではコンテンツ量に非依存な結合を行うために,タイトルブロックとそれに続くタイトルブロック以外のブロック(一般ブロック)を結合していく。そのためには,計算機によるタイトルブロックの抽出が課題となる。計算機によるタイトルブロックの自動抽出を行うために,機械学習によって分類器を生成した。J4.8アルゴリズムによる決定木学習によって生成した分類器により,F値77.8%,89.3%でタイトルブロックと一般ブロックの抽出に成功した。得られたタイトルブロックを用いて細分化ブロックの結合を行った結果,ニュースサイトのニュース記事部分に着目した場合,96.1%の精度でコンテンツ量に依存しない同一の分割結果が得られることを確認した。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
計算機システム開発 
引用文献 (8件):
もっと見る
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る