Pat
J-GLOBAL ID:200903058887258639
文書処理システム、文書処理方法、プログラムおよび記憶媒体
Inventor:
Applicant, Patent owner:
Agent (5):
別役 重尚
, 村松 聡
, 後藤 夏紀
, 池田 浩
, 二宮 浩康
Gazette classification:公開公報
Application number (International application number):2005036863
Publication number (International publication number):2006221569
Application date: Feb. 14, 2005
Publication date: Aug. 24, 2006
Summary:
【課題】 見開きのように1枚の論理ページと見なされる複数枚の物理ページからなる1枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関連するメタデータを高い精度で抽出することができる文書処理システムを提供する。 【解決手段】 互いに隣り合う2枚の物理ページを1枚の論理ページとするページ単位でのページ画像が入力され、入力されたページ画像のマルチメディアデータ領域とテキストデータ領域のそれぞれに関するレイアウトが解析される(S201)。次いで、レイアウトの解析結果に基づいた物理ページを対象とする解析および論理ページを対象とする解析とにより、入力されたページ画像の論理構造が解析される(S202)。そして、入力されたページ画像の論理構造と物理ページ構成および論理ページ構成とに基づいてページ画像に含まれるマルチメディアデータに関するメタデータが抽出される(S203)。【選択図】 図2
Claim (excerpt):
マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力する文書入力手段と、
前記文書入力手段を介して入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、
前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析手段と、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、
前記入力されたページ毎にページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段と
を備えることを特徴とする文書処理システム。
IPC (2):
FI (3):
G06F17/30 220B
, G06F17/30 170G
, G06K9/00 S
F-Term (9):
5B064AA01
, 5B064AA07
, 5B064BA01
, 5B075ND03
, 5B075ND16
, 5B075ND40
, 5B075NS00
, 5B075PP10
, 5B075UU06
Patent cited by the Patent:
Return to Previous Page