Pat
J-GLOBAL ID:200903003136874599

同義語彙獲得方法及び装置及びプログラム

Inventor:
Applicant, Patent owner:
Agent (2): 伊東 忠彦 ,  石原 隆治
Gazette classification:公開公報
Application number (International application number):2005362386
Publication number (International publication number):2007164635
Application date: Dec. 15, 2005
Publication date: Jun. 28, 2007
Summary:
【課題】ハイパーテキストから、特定のクラスの語彙の同義語を自動的に獲得する。【解決手段】本発明は、キーワードと該キーワードの上位概念語が入力されると、それらを含み関連性が高い文書を取得し、文書中でキーワードがアンカーテキスト中に含まれるリンクのリンク先の文書を特定し、文書に対するリンクであり、キーワードを含むアンカーテキストを有するリンクを特定し、特定された特定の文書へのリンクに含まれる参照文字列を抽出し、キーワードと、同じクラスのキーワードをアンカーテキストとするリンクによって、参照されている文書集合へのリンクのアンカーテキストを解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、その出現頻度を用いて、アンカーテキストを解析し、該アンカーテキストの中で一般的な部分文字列を除去する。【選択図】図1
Claim (excerpt):
HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、 キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると、該上位概念語とそれぞれのキーワードを含み関連性が高い文書を取得するキーワード検索ステップと、 文書特定手段が、前記キーワード検索ステップで取得した文書中で、前記キーワードがアンカーテキスト中に含まれるリンクのリンク先の文書を特定する文書特定ステップと、 リンク検索手段が、前記キーワード検索取得ステップで取得した前記文書に対するリンクであり、前記キーワードをアンカーテキストに含むリンクを特定するリンク検索ステップと、 アンカーテキスト特定手段が、前記リンク検索ステップで特定された文書へのリンクに含まれる参照文字列を抽出するアンカーテキスト特定ステップと、 クラス別アンカーテキスト文字列統計解析手段が、前記キーワードと同じクラスのキーワードをアンカーテキストとするリンクによって、参照されている文書集合へのリンクのアンカーテキストを解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、アンカーテキスト解析結果として記憶手段に格納するクラス別アンカーテキスト文字列統計解析ステップと、 アンカー文字列クリーニング手段が、前記記憶手段に格納された前記部分文字列の出現頻度に基づいて、前記アンカーテキストを解析し、該アンカーテキストの中で一般的な部分文字列を除去するアンカー文字列クリーニングステップと、 を行うことを特徴とする同義語彙獲得方法。
IPC (2):
G06F 17/30 ,  G06F 17/28
FI (5):
G06F17/30 170A ,  G06F17/30 210Z ,  G06F17/30 320D ,  G06F17/30 419B ,  G06F17/28 U
F-Term (9):
5B075ND03 ,  5B075ND36 ,  5B075NK35 ,  5B075PR04 ,  5B075QP03 ,  5B075UU06 ,  5B091AB17 ,  5B091CA02 ,  5B091CA12
Patent cited by the Patent:
Cited by applicant (2)
Article cited by the Patent:
Return to Previous Page