特許
J-GLOBAL ID:200903046814129360

文切り装置

発明者:
出願人/特許権者:
代理人 (1件): 境 廣巳
公報種別:公開公報
出願番号(国際出願番号):特願平5-096694
公開番号(公開出願番号):特開平6-290209
出願日: 1993年03月31日
公開日(公表日): 1994年10月18日
要約:
【要約】【目的】 文書を一文ずつに文切りする文切り装置に於いて、表部分及びグラフ部分に記述された文書の文切りを精度良く行なう。【構成】 原文テキストは入力手段10によって記憶手段20に格納される。レイアウト解析手段30は記憶手段20に記憶された原文テキスト中の表部分,グラフ部分を抽出する。テキスト抽出手段40は表部分,グラフ部分に存在するテキストを、1文とみなせる単位毎に抽出する。解析手段50はテキスト抽出手段40が抽出した1文とみなせる単位毎に、形態素解析,構文解析を行ない、1文とみなせる単位の各行間の接続コスト及び修飾の有無を求める。判定手段60は各行間の接続コスト及び修飾の有無に基づいて1文とみなせる単位の各行が連続するか否かを判定する。文分割/結合手段70は判定手段60の判定結果に基づいて上記1文とみなせる単位の文切りを行なう。
請求項(抜粋):
原文テキスト中の表部分及びグラフ部分を抽出するレイアウト解析手段と、該レイアウト解析手段が抽出した表部分及びグラフ部分に存在するテキストを、1文とみなせる単位毎に抽出するテキスト抽出手段と、該テキスト抽出手段が抽出した1文とみなせる単位毎に形態素解析及び構文解析を行ない、前記1文とみなせる単位の各行間の接続コスト及び修飾の有無を求める解析手段と、該解析手段が求めた各行間の接続コスト及び修飾の有無に基づいて前記1文とみなせる単位の各行が連続するか否かを判定する判定手段と、該判定手段の判定結果に基づいて前記1文とみなせる単位を文切りする文分割/結合手段とを備えたことを特徴とする文切り装置。
IPC (2件):
G06F 15/38 ,  G06F 15/20 514

前のページに戻る