Pat
J-GLOBAL ID:200903039452961414

膨大な文書データからの知識抽出方法、その装置及び媒体

Inventor:
Applicant, Patent owner:
Agent (1): 坂口 博 (外4名)
Gazette classification:公開公報
Application number (International application number):1999239674
Publication number (International publication number):2001084250
Application date: Aug. 26, 1999
Publication date: Mar. 30, 2001
Summary:
【要約】【課題】 キーワードの出現順序に着目したデータマイニング手法では、同一のものとして扱われてしまい、より細かく分類して知識抽出できない文書があった。また、順序を無視した共起関係のみを扱うマイニング手法でも誤って全く異なる意味の知識を同一のものとして知識抽出してしまう場合があった。更に抽出された知識が人間にとって理解が困難であった。【解決手段】 本発明は、言語特徴分析装置によって言語解析装置の精度向上のために文書データから分野依存辞書を作成し、言語解析装置によって共起関係と係り受けを考慮した構文木を作成し、パターン抽出装置が、この構文木を用いることによって適切に頻出パターン(即ち、知識)を抽出・出力する。
Claim (excerpt):
大量の文書データからの知識抽出を行う方法において、形態素解析技術により1つの文書から単語を切り出し単語間にある係り受けの関係を推定し係り受け関係から構文木を構築するステップと、構築された構文木の中で多くの構文木に含まれている頻出パターンをパターンの制約に基づいて発見するステップと、発見された頻出パターンへの代入にマッチする文書を検索するステップと、を含むことを特徴とする知識抽出方法。
IPC (4):
G06F 17/30 ,  G06F 9/44 550 ,  G06F 17/27 ,  G06F 17/28
FI (6):
G06F 15/40 370 A ,  G06F 9/44 550 N ,  G06F 15/38 E ,  G06F 15/38 U ,  G06F 15/40 380 A ,  G06F 15/401 330 Z
F-Term (13):
5B075ND03 ,  5B075NK31 ,  5B075NK32 ,  5B075NK43 ,  5B075PP24 ,  5B075PR04 ,  5B075UU40 ,  5B091AA15 ,  5B091CA02 ,  5B091CA05 ,  5B091CC01 ,  5B091CC02 ,  5B091CC05
Patent cited by the Patent:
Cited by examiner (2)

Return to Previous Page