Pat
J-GLOBAL ID:200903084291038284

不要文字列抽出装置と、その方法及びプログラムと、それらを用いた装置

Inventor:
Applicant, Patent owner:
Agent (1): 宇高 克己
Gazette classification:公開公報
Application number (International application number):2006036059
Publication number (International publication number):2007219580
Application date: Feb. 14, 2006
Publication date: Aug. 30, 2007
Summary:
【課題】Web文書から自動的に不要文字列を抽出することができる技術を提供すること。【解決手段】アンカーテキスト抽出手段11は、Web文書記憶部21に格納されたそれぞれのWeb文書からアンカーテキストに該当する文字列を取り出し、参照先URL毎にアンカーテキストを参照元文書数又は参照元サイト数で集計してアンカー記憶部22に格納する。不要文字列抽出手段12は、アンカー記憶部22に格納されたアンカーテキストを同一の参照先URL毎に取り出し、同一の参照先URLを有するn個のアンカーテキストの中で最大の参照元文書数又は参照元サイト数を有するアンカーテキストa1とそれ以外のアンカーテキストa2〜anとを比較し、アンカーテキストa2〜anのうち、アンカーテキストa1と同一の文字列を有するアンカーテキストのうち、アンカーテキストa1の文字列以外の文字列を不要文字列として抽出する。【選択図】図1
Claim (excerpt):
アンカーテキストの不要文字列を抽出する不要文字列抽出装置であって、 参照先URLが同一のアンカーテキストのうち、所定の参照元文書数又は参照元サイト数のアンカーテキストaの文字列と、参照元文書数又は参照元サイト数が前記所定の参照元文書数又は参照元サイト数以下であって前記アンカーテキストaの文字列を含む他のアンカーテキストの文字列とを比較し、前記アンカーテキストaの文字列以外の文字列を不要文字列として抽出する不要文字列抽出手段を有することを特徴とする不要文字列抽出装置。
IPC (1):
G06F 17/21
FI (1):
G06F17/21 570D
F-Term (4):
5B009QA03 ,  5B009QA12 ,  5B009SA03 ,  5B009VA02

Return to Previous Page