特許
J-GLOBAL ID:200903000683984022

文書変換方法および文書変換装置

発明者:
出願人/特許権者:
代理人 (6件): 深見 久郎 ,  森田 俊雄 ,  仲村 義平 ,  堀井 豊 ,  野田 久登 ,  酒井 將行
公報種別:公開公報
出願番号(国際出願番号):特願2002-197343
公開番号(公開出願番号):特開2004-038756
出願日: 2002年07月05日
公開日(公表日): 2004年02月05日
要約:
【課題】静的ドキュメント形式のデータから動的ドキュメント形式のデータへの高精度の変換を実現できる文書変換方法を提供する。【解決手段】入力した静的ドキュメントデータから、各文字の文字情報を抽出し(S11)、抽出した文字情報に基づいて複数の領域分割候補を作成する(S12)。領域分割候補ごとに各領域内の行抽出を行ない、抽出された行を探索して文字列を作成する(S13)。1つの領域分割候補における全文字列の遷移確率を計算し(S14)、領域分割候補ごとの遷移確率に基づいて、最も全文字列の遷移確率が高い領域を最適な領域として領域決定する(S15)。最適領域に対して再び各領域内の行抽出を行ない、抽出された行を探索して正解の文章を作成する(S16)。このことで、静的ドキュメントデータが正解の文章を含む動的ドキュメントデータに変換される。【選択図】 図3
請求項(抜粋):
文字の位置情報を含むドキュメントデータを文字の位置情報を含まないドキュメントデータへ変換する文書変換方法であって、 前記文字の位置情報を含むドキュメントデータより、各文字の前記位置情報を含む文字情報を抽出する文字情報抽出ステップと、 前記抽出された前記文字の位置情報に基づいて、前記ドキュメントデータを複数の領域に分割する分割候補を作成する領域分割候補作成ステップと、 前記作成された領域分割候補ごとに、前記抽出された前記各文字の位置情報に基づいて行を抽出し、前記抽出した行を探索して文字列を作成する文字列作成ステップと、 前記作成された文字列の遷移確率値を計算する文字列確率計算ステップと、 前記計算結果に基づいて、前記作成された領域分割候補より最適な領域を決定する領域決定ステップと、 前記決定した最適な領域の結果に基づいて、前記各文字の位置情報を含まないテキスト文章を作成する文章作成ステップとを備える、文書変換方法。
IPC (1件):
G06F17/21
FI (1件):
G06F17/21 570L
Fターム (2件):
5B009NA01 ,  5B009TA11

前のページに戻る