特許
J-GLOBAL ID:200903084291038284

不要文字列抽出装置と、その方法及びプログラムと、それらを用いた装置

発明者:
出願人/特許権者:
代理人 (1件): 宇高 克己
公報種別:公開公報
出願番号(国際出願番号):特願2006-036059
公開番号(公開出願番号):特開2007-219580
出願日: 2006年02月14日
公開日(公表日): 2007年08月30日
要約:
【課題】Web文書から自動的に不要文字列を抽出することができる技術を提供すること。【解決手段】アンカーテキスト抽出手段11は、Web文書記憶部21に格納されたそれぞれのWeb文書からアンカーテキストに該当する文字列を取り出し、参照先URL毎にアンカーテキストを参照元文書数又は参照元サイト数で集計してアンカー記憶部22に格納する。不要文字列抽出手段12は、アンカー記憶部22に格納されたアンカーテキストを同一の参照先URL毎に取り出し、同一の参照先URLを有するn個のアンカーテキストの中で最大の参照元文書数又は参照元サイト数を有するアンカーテキストa1とそれ以外のアンカーテキストa2〜anとを比較し、アンカーテキストa2〜anのうち、アンカーテキストa1と同一の文字列を有するアンカーテキストのうち、アンカーテキストa1の文字列以外の文字列を不要文字列として抽出する。【選択図】図1
請求項(抜粋):
アンカーテキストの不要文字列を抽出する不要文字列抽出装置であって、 参照先URLが同一のアンカーテキストのうち、所定の参照元文書数又は参照元サイト数のアンカーテキストaの文字列と、参照元文書数又は参照元サイト数が前記所定の参照元文書数又は参照元サイト数以下であって前記アンカーテキストaの文字列を含む他のアンカーテキストの文字列とを比較し、前記アンカーテキストaの文字列以外の文字列を不要文字列として抽出する不要文字列抽出手段を有することを特徴とする不要文字列抽出装置。
IPC (1件):
G06F 17/21
FI (1件):
G06F17/21 570D
Fターム (4件):
5B009QA03 ,  5B009QA12 ,  5B009SA03 ,  5B009VA02

前のページに戻る