特許
J-GLOBAL ID:200903022471701865
用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
発明者:
出願人/特許権者:
代理人 (1件):
三好 秀和 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-257364
公開番号(公開出願番号):特開平11-096177
出願日: 1997年09月22日
公開日(公表日): 1999年04月09日
要約:
【要約】【課題】 単語の種々の関係を認定できるオントロジを生成して広い対象領域にわたる大量の文書の処理に必要とされる情報を含む用語辞書を生成し得る用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体を提供する。【解決手段】 文書の各単語の位置情報と共に格納し、同一単語が含まれることに関する一次統計量を計算し(ステップS13)、該一次統計量に基づいて関連単語を選択し(ステップS15)、関連単語の対象領域を表す単語のノードから各関連単語のノードにリンクを張ったグラフを生成し(ステップS17)、該グラフの各2ノードの組合せについて共起統計量を計算し(ステップS19)、各組合せの2つの単語の類似度を計算し(ステップS21)、共起統計量と類似度に基づきグラフを変換し、関係ラベルを付与し(ステップS23)、オントロジとして生成し、用語辞書を生成する。
請求項(抜粋):
文書に用いられている単語の意味および使われ方を記憶した用語辞書を生成する用語辞書生成方法であって、文書を読み込んで単語の列に分解し、該単語列の中の個々の単語を該単語の文書中の位置情報とともに格納し、前記単語列に含まれる単語について、該単語列に同一単語が含まれることに関する統計量を一次統計量として計算し、この計算された各単語の一次統計量に基づいて、対象領域に関連の深い単語を関連単語として選択し、この選択した関連単語の各々をノードとし、対象領域を代表的に表す単語のノードから前記関連単語の各々のノードに対してそれぞれ有向リンクを張ったグラフを生成し、この生成されたグラフのノードのあらゆる2つのノードの組合せについて、各組合せの2つの単語の前記位置情報に基づいて該2つの単語の同時出現についての統計量である共起統計量を計算し、前記各組合せの2つのノードに対応する2つの単語の類似度を計算し、前記共起統計量および類似度に基づいて前記グラフを変換し、リンクに関係ラベルを付与することを特徴とする用語辞書生成方法。
IPC (4件):
G06F 17/30
, G06F 17/22
, G06F 17/27
, G06F 17/28
FI (8件):
G06F 15/40 370 J
, G06F 15/20 514 U
, G06F 15/20 550 F
, G06F 15/38 C
, G06F 15/401 320 Z
, G06F 15/403 320 D
, G06F 15/403 330 C
, G06F 15/403 350 C
前のページに戻る