特許
J-GLOBAL ID:200903074195039363
文書情報抽出方法及び装置並びに文書抽出処理プログラムを記憶した記憶媒体
発明者:
出願人/特許権者:
代理人 (1件):
鈴木 喜三郎 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-128986
公開番号(公開出願番号):特開平10-320409
出願日: 1997年05月19日
公開日(公表日): 1998年12月04日
要約:
【要約】【課題】 文書のある一部を抽出したり2つの文書の差分を取ったりする場合、文書を細分化しすぎると処理しにくいものとなるため、文書内容のあるまとまりをコンテンツとして抽出することが望まれる。【解決手段】 ある文書の文書内容から段落を検出し、その段落ごとに文書内容の切り分けを行い、それぞれの段落単位で形態素解析を行った後、その形態素解析結果を基に特徴要素を抽出し(ステップs1)、その特徴要素とその特徴要素を含む段落との関係を表す特徴テーブルを作成して(ステップs2)、その特徴テーブルに基づいて、前記文書を意味的なまとまりごとのコンテンツに分類して表示し(ステップs3)、ユーザからのコンテンツ選択指示を受けたとき(ステップs4)、その選択されたコンテンツに属する段落の文書内容を出力する(ステップs5,s6)。
請求項(抜粋):
ある文書の文書内容から段落を検出し、その段落ごとに内容の特徴を表す特徴要素を抽出し、その特徴要素とその特徴要素を含む段落との関係を表す特徴テーブルを作成して、その特徴テーブルに基づいて、前記文書を意味的なまとまりごとの複数のコンテンツに分類して出力することを特徴とする文書情報抽出方法。
IPC (2件):
FI (4件):
G06F 15/401 320 A
, G06F 15/20 550 Z
, G06F 15/38 D
, G06F 15/401 310 D
前のページに戻る