特許
J-GLOBAL ID:200903018722956348

目次抽出におけるロバスト性向上

発明者:
出願人/特許権者:
代理人 (2件): 吉田 研二 ,  石田 純
公報種別:公開公報
出願番号(国際出願番号):特願2007-035660
公開番号(公開出願番号):特開2007-226792
出願日: 2007年02月16日
公開日(公表日): 2007年09月06日
要約:
【課題】目次内項目と見出し等とのリンク付けをより正確に行えるようにする。【解決手段】フラグメンタ12は文書10を断片化してテキスト断片及びそのページ内位置を抽出する。セレクタ30はテキスト断片群14のうち目次領域134内の実質蝟集体を目次候補とする。リンクアイデンティファイア20は条件130例えば基準書式を満足しないテキスト断片をそのページ内位置に基づき候補から除外する。セレクタ34は当該実質蝟集体中のテキスト断片を目次内項目としその項目から他のテキスト断片例えば見出しにリンクする目次110を認識する。バリデータ160は目次110内の各項目及びそのリンク先見出しの有効性を見出し分布に係る有効性確認条件162に従い確認し、セレクタ34はリムーバ164によって認識結果から除外された無効なリンクに係るテキスト断片を候補から除外して目次を再認識する。【選択図】図1
請求項(抜粋):
文書から複数個のテキスト断片を抽出するテキスト断片化手段と、 目次内テキスト断片らしきテキスト断片の蝟集体を認識する目次領域認識手段と、 (i)上記蝟集体の中から目次内項目らしきテキスト断片の実質蝟集体を認識し(ii)それ以外のテキスト断片の中から各目次内項目のリンク先らしきテキスト断片を認識する目次抽出手段と、 を備える文書内目次認識装置。
IPC (1件):
G06F 17/21
FI (2件):
G06F17/21 501T ,  G06F17/21 530A
Fターム (3件):
5B009NA01 ,  5B009QA06 ,  5B009SA03
引用特許:
出願人引用 (1件)

前のページに戻る