Pat
J-GLOBAL ID:200903046814129360
文切り装置
Inventor:
Applicant, Patent owner:
Agent (1):
境 廣巳
Gazette classification:公開公報
Application number (International application number):1993096694
Publication number (International publication number):1994290209
Application date: Mar. 31, 1993
Publication date: Oct. 18, 1994
Summary:
【要約】【目的】 文書を一文ずつに文切りする文切り装置に於いて、表部分及びグラフ部分に記述された文書の文切りを精度良く行なう。【構成】 原文テキストは入力手段10によって記憶手段20に格納される。レイアウト解析手段30は記憶手段20に記憶された原文テキスト中の表部分,グラフ部分を抽出する。テキスト抽出手段40は表部分,グラフ部分に存在するテキストを、1文とみなせる単位毎に抽出する。解析手段50はテキスト抽出手段40が抽出した1文とみなせる単位毎に、形態素解析,構文解析を行ない、1文とみなせる単位の各行間の接続コスト及び修飾の有無を求める。判定手段60は各行間の接続コスト及び修飾の有無に基づいて1文とみなせる単位の各行が連続するか否かを判定する。文分割/結合手段70は判定手段60の判定結果に基づいて上記1文とみなせる単位の文切りを行なう。
Claim (excerpt):
原文テキスト中の表部分及びグラフ部分を抽出するレイアウト解析手段と、該レイアウト解析手段が抽出した表部分及びグラフ部分に存在するテキストを、1文とみなせる単位毎に抽出するテキスト抽出手段と、該テキスト抽出手段が抽出した1文とみなせる単位毎に形態素解析及び構文解析を行ない、前記1文とみなせる単位の各行間の接続コスト及び修飾の有無を求める解析手段と、該解析手段が求めた各行間の接続コスト及び修飾の有無に基づいて前記1文とみなせる単位の各行が連続するか否かを判定する判定手段と、該判定手段の判定結果に基づいて前記1文とみなせる単位を文切りする文分割/結合手段とを備えたことを特徴とする文切り装置。
IPC (2):
G06F 15/38
, G06F 15/20 514
Return to Previous Page