特許
J-GLOBAL ID:200903039452961414

膨大な文書データからの知識抽出方法、その装置及び媒体

発明者:
出願人/特許権者:
代理人 (1件): 坂口 博 (外4名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-239674
公開番号(公開出願番号):特開2001-084250
出願日: 1999年08月26日
公開日(公表日): 2001年03月30日
要約:
【要約】【課題】 キーワードの出現順序に着目したデータマイニング手法では、同一のものとして扱われてしまい、より細かく分類して知識抽出できない文書があった。また、順序を無視した共起関係のみを扱うマイニング手法でも誤って全く異なる意味の知識を同一のものとして知識抽出してしまう場合があった。更に抽出された知識が人間にとって理解が困難であった。【解決手段】 本発明は、言語特徴分析装置によって言語解析装置の精度向上のために文書データから分野依存辞書を作成し、言語解析装置によって共起関係と係り受けを考慮した構文木を作成し、パターン抽出装置が、この構文木を用いることによって適切に頻出パターン(即ち、知識)を抽出・出力する。
請求項(抜粋):
大量の文書データからの知識抽出を行う方法において、形態素解析技術により1つの文書から単語を切り出し単語間にある係り受けの関係を推定し係り受け関係から構文木を構築するステップと、構築された構文木の中で多くの構文木に含まれている頻出パターンをパターンの制約に基づいて発見するステップと、発見された頻出パターンへの代入にマッチする文書を検索するステップと、を含むことを特徴とする知識抽出方法。
IPC (4件):
G06F 17/30 ,  G06F 9/44 550 ,  G06F 17/27 ,  G06F 17/28
FI (6件):
G06F 15/40 370 A ,  G06F 9/44 550 N ,  G06F 15/38 E ,  G06F 15/38 U ,  G06F 15/40 380 A ,  G06F 15/401 330 Z
Fターム (13件):
5B075ND03 ,  5B075NK31 ,  5B075NK32 ,  5B075NK43 ,  5B075PP24 ,  5B075PR04 ,  5B075UU40 ,  5B091AA15 ,  5B091CA02 ,  5B091CA05 ,  5B091CC01 ,  5B091CC02 ,  5B091CC05
引用特許:
審査官引用 (2件)

前のページに戻る