同義語彙獲得方法及び装置及びプログラム

Inventor： , ,
Applicant, Patent owner：
Agent (2)：伊東忠彦 , 石原隆治
Gazette classification：公開公報
Application number (International application number)：2005362386
Publication number (International publication number)：2007164635
Application date： Dec. 15, 2005
Publication date： Jun. 28, 2007
Summary：

【課題】ハイパーテキストから、特定のクラスの語彙の同義語を自動的に獲得する。【解決手段】本発明は、キーワードと該キーワードの上位概念語が入力されると、それらを含み関連性が高い文書を取得し、文書中でキーワードがアンカーテキスト中に含まれるリンクのリンク先の文書を特定し、文書に対するリンクであり、キーワードを含むアンカーテキストを有するリンクを特定し、特定された特定の文書へのリンクに含まれる参照文字列を抽出し、キーワードと、同じクラスのキーワードをアンカーテキストとするリンクによって、参照されている文書集合へのリンクのアンカーテキストを解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、その出現頻度を用いて、アンカーテキストを解析し、該アンカーテキストの中で一般的な部分文字列を除去する。【選択図】図1

Claim (excerpt)：

HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると、該上位概念語とそれぞれのキーワードを含み関連性が高い文書を取得するキーワード検索ステップと、文書特定手段が、前記キーワード検索ステップで取得した文書中で、前記キーワードがアンカーテキスト中に含まれるリンクのリンク先の文書を特定する文書特定ステップと、リンク検索手段が、前記キーワード検索取得ステップで取得した前記文書に対するリンクであり、前記キーワードをアンカーテキストに含むリンクを特定するリンク検索ステップと、アンカーテキスト特定手段が、前記リンク検索ステップで特定された文書へのリンクに含まれる参照文字列を抽出するアンカーテキスト特定ステップと、クラス別アンカーテキスト文字列統計解析手段が、前記キーワードと同じクラスのキーワードをアンカーテキストとするリンクによって、参照されている文書集合へのリンクのアンカーテキストを解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、アンカーテキスト解析結果として記憶手段に格納するクラス別アンカーテキスト文字列統計解析ステップと、アンカー文字列クリーニング手段が、前記記憶手段に格納された前記部分文字列の出現頻度に基づいて、前記アンカーテキストを解析し、該アンカーテキストの中で一般的な部分文字列を除去するアンカー文字列クリーニングステップと、を行うことを特徴とする同義語彙獲得方法。

IPC (2)：

G06F 17/30 , G06F 17/28

FI (5)：

G06F17/30 170A , G06F17/30 210Z , G06F17/30 320D , G06F17/30 419B , G06F17/28 U

F-Term (9)：

5B075ND03 , 5B075ND36 , 5B075NK35 , 5B075PR04 , 5B075QP03 , 5B075UU06 , 5B091AB17 , 5B091CA02 , 5B091CA12

Patent cited by the Patent：

Cited by applicant (2)

ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
Gazette classification：公開公報 Application number：特願2004-013398 Applicant：日本電信電話株式会社
分類装置、分類方法、分類プログラム及びそのプログラムを記録した記録媒体
Gazette classification：公開公報 Application number：特願2002-136536 Applicant：日本電信電話株式会社

Article cited by the Patent：

Cited by examiner (1)

ウェブを利用した関連用語の自動収集

Return to Previous Page