ENGLISH 使い方
文献、特許、研究者などの科学技術情報サイト

この特許と内容が近い特許

この特許と内容が近い研究者

この特許と内容が近い文献

この特許と内容が近い研究課題

この特許の発明者または出願人と推定される研究者

この特許を引用している特許

特許
J-GLOBAL ID:201103036905639526

同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

クリップ
発明者:
出願人/特許権者:
代理人 (2件): 伊東 忠彦 ,  石原 隆治
公報種別:特許公報
出願番号(国際出願番号):特願2005-362386
公開番号(公開出願番号):特開2007-164635
特許番号:特許第4143085号
出願日: 2005年12月15日
公開日(公表日): 2007年06月28日
請求項(抜粋):
【請求項1】 HTMLやXMLを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、 キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索ステップと、 文書特定手段が、前記キーワード検索ステップで取得した文書中で、前記検索における前記キーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定ステップと、 リンク検索手段が、前記キーワード検索ステップで取得した前記文書から、前記キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索ステップと、 アンカーテキスト特定手段が、前記文書特定ステップならびに前記リンク検索ステップで特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定ステップと、 クラス別アンカーテキスト文字列統計解析手段が、前記アンカーテキスト特定ステップで抽出されたアンカーテキストを前記記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析ステップと、 アンカー文字列クリーニング手段が、前記アンカーテキスト統計情報データベースに格納された前記部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、前記キーワードにおける出現確率のエントロピーが前記キーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニングステップと、 を行うことを特徴とする同義語彙獲得方法。
IPC (1件):
G06F 17/30 ( 200 6.01)
FI (4件):
G06F 17/30 320 D ,  G06F 17/30 170 A ,  G06F 17/30 210 Z ,  G06F 17/30 419 B
引用文献:
前のページに戻る