特許
J-GLOBAL ID:200903041746315450

不正ハイパーリンク検出装置及びその方法

発明者:
出願人/特許権者:
代理人 (5件): 坂口 博 ,  市位 嘉宏 ,  上野 剛史 ,  太佐 種一 ,  上羽 秀敏
公報種別:公開公報
出願番号(国際出願番号):特願2006-006720
公開番号(公開出願番号):特開2007-188356
出願日: 2006年01月13日
公開日(公表日): 2007年07月26日
要約:
【課題】ハイパーリンクの意味的不整合を高精度で検出可能な不正ハイパーリンク検出装置を提供する。【解決手段】不正ハイパーリンク検出装置10は、リンク元のHTMLファイル26からテキストを抽出するリンク元テキスト抽出部12と、リンク先のHTMLファイル26からテキストを抽出するリンク先テキスト抽出部14と、抽出されたテキストを単語に分解する形態素解析部16と、品詞ごとに重み付けをする重み付け部18と、リンク元の単語がリンク先の単語に含まれる割合をリンク元からリンク先への整合率として算出し、リンク先の単語がリンク元の単語に含まれる割合をリンク先からリンク元への整合率として算出する整合率算出部20と、両整合率に応じてハイパーリンクの確からしさを示す関連度を算出する関連度算出部22手段と、整合率及び関連度をCSV形式で出力するCSV出力部24とを備える。【選択図】図1
請求項(抜粋):
ハイパーリンクの論理的不整合を検出する不正ハイパーリンク検出装置であって、 ハイパーリンク元のHTMLファイルの中からテキストを抽出する第1の抽出手段と、 ハイパーリンク先のHTMLファイルの中からテキストを抽出する第2の抽出手段と、 前記第1及び第2の抽出手段により抽出されたテキストを1又は2以上の単語に分解する形態素解析手段と、 前記形態素解析手段により得られた単語を参照し、ハイパーリンク元の単語がハイパーリンク先の単語に含まれる割合を第1の整合率として算出し、かつハイパーリンク先の単語がハイパーリンク元の単語に含まれる割合を第2の整合率として算出する整合率算出手段と、 前記整合率算出手段により算出された第1及び第2の整合率に応じてハイパーリンクの確からしさを示す関連度を算出する関連度算出手段とを備えたことを特徴とする不正ハイパーリンク検出装置。
IPC (2件):
G06F 12/00 ,  G06F 13/00
FI (3件):
G06F12/00 546B ,  G06F12/00 547H ,  G06F13/00 540F
Fターム (2件):
5B082BA09 ,  5B082FA07
引用特許:
出願人引用 (3件) 審査官引用 (3件)
引用文献:
前のページに戻る