Pat
J-GLOBAL ID:200903074195039363

文書情報抽出方法及び装置並びに文書抽出処理プログラムを記憶した記憶媒体

Inventor:
Applicant, Patent owner:
Agent (1): 鈴木 喜三郎 (外2名)
Gazette classification:公開公報
Application number (International application number):1997128986
Publication number (International publication number):1998320409
Application date: May. 19, 1997
Publication date: Dec. 04, 1998
Summary:
【要約】【課題】 文書のある一部を抽出したり2つの文書の差分を取ったりする場合、文書を細分化しすぎると処理しにくいものとなるため、文書内容のあるまとまりをコンテンツとして抽出することが望まれる。【解決手段】 ある文書の文書内容から段落を検出し、その段落ごとに文書内容の切り分けを行い、それぞれの段落単位で形態素解析を行った後、その形態素解析結果を基に特徴要素を抽出し(ステップs1)、その特徴要素とその特徴要素を含む段落との関係を表す特徴テーブルを作成して(ステップs2)、その特徴テーブルに基づいて、前記文書を意味的なまとまりごとのコンテンツに分類して表示し(ステップs3)、ユーザからのコンテンツ選択指示を受けたとき(ステップs4)、その選択されたコンテンツに属する段落の文書内容を出力する(ステップs5,s6)。
Claim (excerpt):
ある文書の文書内容から段落を検出し、その段落ごとに内容の特徴を表す特徴要素を抽出し、その特徴要素とその特徴要素を含む段落との関係を表す特徴テーブルを作成して、その特徴テーブルに基づいて、前記文書を意味的なまとまりごとの複数のコンテンツに分類して出力することを特徴とする文書情報抽出方法。
IPC (2):
G06F 17/30 ,  G06F 17/27
FI (4):
G06F 15/401 320 A ,  G06F 15/20 550 Z ,  G06F 15/38 D ,  G06F 15/401 310 D

Return to Previous Page