文献
J-GLOBAL ID:201602274333502474   整理番号:16A1232123

融合構造と内容特徴は,複数のWEBページ要素を抽出する.【JST・京大機械翻訳】

Extracting Textual Elements of Multi-types Webpages by Fusing Content and Structure Features of the Webpage
著者 (5件):
資料名:
巻: 39  号:ページ: 386-391  発行年: 2016年 
JST資料番号: C2975A  ISSN: 0253-2395  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 中国 (CHN)  言語: 中国語 (ZH)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ウェブページの設計構造とテキストコンテンツの関連特性に従って,本論文は,構造とコンテンツの特徴を統合するマルチタイプWEBページ要素抽出法を提案した。ページヘッダの要素とWEBページの内容との関係に従って,ページタイトルを抽出した。WEBページのWEBページの構造と内容の複数の特徴分類ページのDOMノードを抽出し、ノードの拡張、整合規則を定義して本文のブロックを獲得し、密度値と影響因子を導入して各候補ブロックから正文塊を識別する。発表時間とタイトル,本文との位置関係を利用して,正規表現により発表時間の抽出を実現する.中国のニュースサイト,ブログ,フォーラム,およびTieBaに関する実験結果は,この方法が効果的であることを示した。Data from the ScienceChina, LCAS.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
検索技術  ,  その他の情報処理 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る