特許
J-GLOBAL ID:200903056282156793
文書解析装置及び方法
発明者:
,
出願人/特許権者:
,
代理人 (1件):
鈴江 武彦 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-168882
公開番号(公開出願番号):特開平11-015826
出願日: 1997年06月25日
公開日(公表日): 1999年01月22日
要約:
【要約】【課題】複数のブロックに分割されてしまった文章を結合して1文章として正しく解析できるようにする。【解決手段】入力装置101により入力されたレイアウト情報付き文書中の各テキストブロック毎に、そのブロックとそのブロックに連続する可能性のある他の各テキストブロックのそれぞれ末尾文と先頭文を結合した文をレイアウト解析部102にて生成して形態素解析部191による形態素解析を行わせる。ブロック再構成部106は、1つのテキストブロックとそのブロックに連続する可能性のある他の各テキストブロックのそれぞれ末尾文と先頭文を結合した文に対する形態素解析の結果得られる各評価値をもとに、そのテキストブロックに連続すると判定されるテキストブロックを検出して、該当する2ブロックを1つのブロックに再構成する。
請求項(抜粋):
入力されたレイアウト情報付き文書を形態素解析して単語単位に分割する文書解析装置において、入力された文字列を最も自然な単語列に分割し、その単語列がどの程度自然な並びであるかを数値化した評価値により表す形態素解析処理を行う形態素解析手段と、前記レイアウト情報付き文書中の各テキストブロック毎に、そのテキストブロックの末尾文を切り出すと共に、そのテキストブロック以外の全てのテキストブロックの先頭文を順次切り出し、そのテキストブロックと他のテキストブロックとの各2ブロックの組み合わせ毎に、前記切り出した末尾文及び先頭文を結合した文字列を生成して当該文字列に対する前記形態素解析手段による形態素解析処理を行わせるレイアウト解析手段と、前記レイアウト情報付き文書中の各テキストブロックについて、そのテキストブロックと他のテキストブロックとの各2ブロックの組み合わせ毎に前記レイアウト解析手段により生成された前記末尾文及び先頭文を結合した文字列に対する前記形態素解析手段による前記形態素解析処理で得られる各評価値をもとに、そのテキストブロックに連続すると判定されるテキストブロックを検出して、該当する2ブロックを1つのブロックに再構成するブロック再構成手段とを具備することを特徴とする文書解析装置。
IPC (3件):
G06F 17/27
, G06F 17/21
, G06F 17/28
FI (3件):
G06F 15/38 E
, G06F 15/20 530 A
, G06F 15/38 W
引用特許:
審査官引用 (1件)
-
文書認識装置
公報種別:公開公報
出願番号:特願平5-105685
出願人:松下電器産業株式会社
前のページに戻る