特許
J-GLOBAL ID:200903003136874599
同義語彙獲得方法及び装置及びプログラム
発明者:
,
,
出願人/特許権者:
代理人 (2件):
伊東 忠彦
, 石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2005-362386
公開番号(公開出願番号):特開2007-164635
出願日: 2005年12月15日
公開日(公表日): 2007年06月28日
要約:
【課題】ハイパーテキストから、特定のクラスの語彙の同義語を自動的に獲得する。【解決手段】本発明は、キーワードと該キーワードの上位概念語が入力されると、それらを含み関連性が高い文書を取得し、文書中でキーワードがアンカーテキスト中に含まれるリンクのリンク先の文書を特定し、文書に対するリンクであり、キーワードを含むアンカーテキストを有するリンクを特定し、特定された特定の文書へのリンクに含まれる参照文字列を抽出し、キーワードと、同じクラスのキーワードをアンカーテキストとするリンクによって、参照されている文書集合へのリンクのアンカーテキストを解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、その出現頻度を用いて、アンカーテキストを解析し、該アンカーテキストの中で一般的な部分文字列を除去する。【選択図】図1
請求項(抜粋):
HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、
キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると、該上位概念語とそれぞれのキーワードを含み関連性が高い文書を取得するキーワード検索ステップと、
文書特定手段が、前記キーワード検索ステップで取得した文書中で、前記キーワードがアンカーテキスト中に含まれるリンクのリンク先の文書を特定する文書特定ステップと、
リンク検索手段が、前記キーワード検索取得ステップで取得した前記文書に対するリンクであり、前記キーワードをアンカーテキストに含むリンクを特定するリンク検索ステップと、
アンカーテキスト特定手段が、前記リンク検索ステップで特定された文書へのリンクに含まれる参照文字列を抽出するアンカーテキスト特定ステップと、
クラス別アンカーテキスト文字列統計解析手段が、前記キーワードと同じクラスのキーワードをアンカーテキストとするリンクによって、参照されている文書集合へのリンクのアンカーテキストを解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、アンカーテキスト解析結果として記憶手段に格納するクラス別アンカーテキスト文字列統計解析ステップと、
アンカー文字列クリーニング手段が、前記記憶手段に格納された前記部分文字列の出現頻度に基づいて、前記アンカーテキストを解析し、該アンカーテキストの中で一般的な部分文字列を除去するアンカー文字列クリーニングステップと、
を行うことを特徴とする同義語彙獲得方法。
IPC (2件):
FI (5件):
G06F17/30 170A
, G06F17/30 210Z
, G06F17/30 320D
, G06F17/30 419B
, G06F17/28 U
Fターム (9件):
5B075ND03
, 5B075ND36
, 5B075NK35
, 5B075PR04
, 5B075QP03
, 5B075UU06
, 5B091AB17
, 5B091CA02
, 5B091CA12
引用特許:
引用文献:
前のページに戻る