文書認識装置

発明者：
出願人/特許権者：
代理人 (1件)：小田富士雄 (外1名)
公報種別：公開公報
出願番号（国際出願番号）：特願平3-167830
公開番号（公開出願番号）：特開平5-108876
出願日： 1991年06月12日
公開日（公表日）： 1993年04月30日
要約：

【要約】【目的】異なる言語が混在している文書に対しても、簡単な方法で精度のよい認識結果を得ることができる文書認識装置を提供すること。【構成】 2値化手段(図1の1)は、文書画像内の文字行を2値化する。2値反転計数手段(図1の41)は、2値化手段によって2値化された文字行に対してその文字行の縦ないしは横方向に反転回数を計数する。文字種識別手段(図1の42)は、2値反転計数手段によって計数された2値反転回数の総計が所定の閾値以上、未満であるかどうかにより文字種の識別を行う。

請求項（抜粋）：

文書画像を認識する文書認識装置において、文書画像を2値化する2値変換手段と、該2値変換手段によって2値化された文書画像内の文字行に対して該文字行の一方向に反転回数を計数する2値反転計数手段と、該2値反転計数手段によって計数された2値反転回数の分布から文字種の識別を行う文字種識別手段とを有することを特徴とする文書認識装置。【発明の詳細な説明】【0001】【産業上の利用分野】本発明は文書画像内における文字行の文字種識別を行う文書認識装置に関する。【0002】【従来の技術】紙の文書に印刷されている文字や図形を認識し、ワープロ等の文書編集装置等に入力するための文書認識装置に関する研究が行われている。文字認識技術はその中の1要素技術であり、古くから研究が行われている。英文のみを対象とした英文用文字認識装置と、日本文と英文両方を認識対象としている和文用文字認識装置とを比較した場合、英文のみの対象に対しては、明らかに英文用文字認識装置の方が認識率は優れている。これは、英文の場合は文字種が少ないこと、そして、アルファベットは日本語の文字のように左右に分離した要素で構成されている文字(たとえば、“化“ は“イ“と“ヒ“の要素で構成されている)がなく、文字切り出しの誤りがないことが理由として上げられる。実際の文書においては、日本文と英文が混在している場合は多い。しかし、操作者が文書内を英文/和文に切り分け、それぞれ英文用文字認識装置, 和文用文字認識装置の対象とすることはたいへん煩雑である。また、全てを和文用文字認識装置の対象とすることは、英文の箇所に対しては良い認識率を得ることができない。そこで、?@1つの対象文書を2つの認識装置(英文用/和文用)の対象とし、認識の確からしさの高い方を採用する手法はきわめて容易に考えられる解決策である。また、?AA.Lawrence Spitzは黒画素の分布特徴より英/日の識別を行っている。(Electric Publishing 90 , Cambridge Univercity Press , Recognition Processing for MultilingualDocuments , p.193〜205 )【0003】【発明が解決しようとする課題】しかしながら、上記?@の方法は常に2つのうち1つを無駄な結果として捨てており、文字認識装置を無駄に作動させていることになる。たとえば、漢字“日“の文字を和文用文字認識装置で処理した場合には漢字の“日“, 確からしさが95%の結果となり、英文用文字認識装置で処理した場合には英字の“B“,確からしさ70%の結果になったとする。この場合、確からしさは和文用文字認識装置の結果の方が高いので、“日“を認識結果として採用すれば正確な認識結果が得られる。しかし、英文用文字認識装置の結果は使用されないことになるので、結果的には英文用文字認識装置に無駄な処理を行わせたことになる。また、この処理を順番に、たとえば和文用文字認識装置の処理を行ってから、英文用文字認識装置の処理を行う、ということを行っていたのでは、英文用文字認識装置での処理時間の分だけ余分に必要となる。また、上記?Aの方法は複雑で効率が悪く、文字列内の黒画素の縦方向の分布特徴を利用しているために、規則正しく並んでいる英文に対しては日本文と誤って判別する場合がある。【0004】本発明は以上のような点に鑑みてなされたもので、その目的とするところは、異なる言語が混在している文書に対しても、簡単な方法で精度のよい認識結果を得ることができる文書認識装置を提供することにある。【0005】【課題を解決するための手段】本発明では上記課題を解決するために、文書画像を認識する文書認識装置において、文書画像を2値化する2値変換手段(図1の1)と、この2値変換手段によって2値化された文書画像内の文字行に対して該文字行の縦ないしは横方向に反転回数を計数する2値反転計数手段(図1の41)と、この2値反転計数手段によって計数された2値反転回数の分布から文字種の識別を行う文字種識別手段(図1の42)とを有する。【0006】【作用】2値化手段(図1の1)は、文書画像内の文字行を2値化する。2値反転計数手段(図1の41)は、2値化手段によって2値化された文字行に対してその文字行の縦ないしは横方向に反転回数を計数する。文字種識別手段(図1の42)は、2値反転計数手段によって計数された2値反転回数の分布から文字種の識別を行う。これにより、自動的に文字行に対して文字種の識別ができるようになり、文字種が混在している文書でも、文字種に応じてそれぞれの文字種専用の文字認識装置が使用可能となる。例えば英語と日本語が混在している文章においては、英語の行に関しては英文用文字認識装置を単独に用いた場合と同等な認識率を得ることができ、また日本語の行に関しては和文用文字認識装置を単独に用いた場合と同等な認識率を得ることができる。【0007】【実施例】第2図は文書認識装置全体の概要を示すものである、この装置は、画像入力部1、イメージメモリ2、文字行抽出部3、文字種判定部4、認識結果格納メモリ5、文書解析部6、英文用文字認識部(OCR : Optical Character Reader)7、和文用文字認識部(OCR)8、格納部9、文書ファイル格納装置10、制御/操作部11からなっている。イメージスキャナ等の画像入力部1から紙の文書の画像(原画像)をデジタル入力し、その原画像を2値化してイメージメモリ2に格納しておく。この際、制御/操作部11を通して原画像を表示装置111に表示し、操作者に対して正規の入力画像であるか、または画質等の確認を求め、再入力させることも可能である。【0008】文字行抽出部3は入力された文書画像から文字行を抽出する。まず、イメージメモリ2上に格納されている画像を、図3(a)のように画像の横方向をX軸、縦方向をY軸に座標指定し、次にX軸方向、つまり文字行方向の黒画素の頻度を計数し、図3(b)のようなヒストグラムを作成する。このヒストグラムにおいて、Y軸上に立つ各々のピークは画像上の夫々文字行に対応する。すなわち、ヒストグラムにおける各々のピークのY座標値の上端値は画像上の各々の文字行におけるY座標値の上端値と一致する。また、このヒストグラムにおける各々のピークのY軸方向の幅は、各々の文字行の高さに相当する。次に、図3(a)の画像上における各々文字行の左端と右端の黒画素のX座標を取り出し、文字行の左端のX座標と幅を決定する。これらの処理によって、文字行の左上端のXY座標,幅,高さが計算される。文字行抽出の結果は図4に示すような認識結果格納メモリ5内の認識結果格納表51に格納する。この認識結果格納表51には文字行の左上のX, Y座標と幅,高さを表内の第1,2,3,4列(x,y, w, h)に対応させて格納する。また、この際に文字行を抽出した結果、たとえば文字行の矩形枠を原画像上に描画した結果を制御/操作部11を通して、表示装置111に表示し、操作者に対して確認を求め、キーボード112やポインティングデバイス113を用いて修正することも可能である。抽出された各々の文字行が英語(つまり、アルファベットや数字のみで書かれている行)または日本語(つまり、漢字,ひらがな,カタカナを含んだ行であり、アルファベットおよび数字を含む場合もある)の行であるかを文字種判定部4により判定する。【0009】文字種判定部4の処理内容を図6のフローチャートに沿って説明する。2値反転計数部41では、図5に示すように、行内をY軸方向(縦方向)に走査した場合の反転回数を計数し、X座標軸上にその回数分布を作成する。そして、その行における回数の総計を計算する(ステップ61)。文字種識別部42では、2値反転計数部41により計数されたY軸方向の反転回数の総計が閾値b以上であるかどうかを調べる(ステップ62)。反転回数の総計が閾値b以上であれば日本語と判定し、認識結果格納表51内の英/日欄に “J(日本語)“の記号を記入する(ステップ63)。反転回数の総計が閾値b未満の場合には、文字行の幅が閾値a(たとえば、全文字行の幅の平均値の80%以上の長さ)以上であるかどうかを調べる(ステップ64)。文字行の幅が閾値a以上の場合は、英語であると判定し、認識結果格納表51内の英/日欄に “E(英語)“ の記号を記入する(ステップ65)。【0010】文字行の幅が閾値a未満の場合、直前の行があるかどうか調べる(ステップ66)。ある場合は直前の行の種類(英/日)と同一にする(ステップ67)。直前の行の種類は認識結果格納表51の英/日欄をコピーする。直前の行がない場合(つまり、先頭の行の場合)、または直前の行が離れている場合(段の先頭の場合)には、認識結果格納表51内の英/日欄に“?(英/日識別不可)“記号を記入しておく(ステップ68)。この英/日識別不可の行は、次の文書解析部6によって、英/日の決定が行われる。文書解析部6では、英/日判別不可能行の修正と、誤って判別された行の修正を行う。英/日判別不可能と判別された行は、その直後の行の種類(英/日)と同一言語である場合がほとんどであるという経験的事実より、認識結果格納表51内の英/日欄内で“?“記号が記入されている行、すなわち英/日判別不可能行に対しては、その文字行の種類を直後の行の種類(英/日)と同一言語とする。次に、前後の行は同一言語であるがその行は違う言語と判別している場合は誤って判別していることが多いという経験的事実より、前後の行が同一言語であるがその行は違う言語として判別している場合には、その前後の行と同一言語とする。【0011】上記文書解析部6によって判別された結果を格納している認識結果格納メモリ5内における認識結果格納表51の情報にしたがって、イメージメモリ2内の文書画像について英文行は英文用文字認識部7で認識し、日本文行は和文用文字認識部8で認識する。認識結果は、認識結果格納表51内の該当する行の認識結果欄に格納する。格納部9では、認識結果格納表51内の認識結果を利用して文書を作成し、文書ファイル格納装置10に格納する。なお、文書内の段落作成は、認識結果格納表51内の各文字行の位置を利用し、近い文字行間隔であって、かつ同じ種類(認識結果格納表51の第5列の“英/日“列)の行同士を合わせて、1つの段落を形成すことによって行う。そして、同一段落内の文字行の認識結果文字列を、各文字行の座標で上から順につないで、文書内の1つの段落として文書ファイル格納装置10に格納する。【0012】以上、本発明の実施例を詳述したが、本発明は前記実施例に限定されるものではなく、特許請求の範囲に記載された本発明を逸脱することなく、種々の変更が可能である。(1)本実施例の2値反転計数部41では、反転回数の総計を計数しているが、各Y軸における反転回数の最大値を文字種識別の特徴として取り出すことも可能である。(2)X方向もしくはY方向の反転回数によって特徴付けられる言語同士、例えば、日本語とフランス語、ドイツ語、スペイン語等のアルファベットを用いる言語が識別可能であることはいうまでもない。それ以外にも、中国語とアルファベットを用いる言語、ハングル文字とアルファベットを用いる言語、アラビア語と日本語、アラビア語と中国語、およびアラビア語とハングル文字等においても、英語と日本語の場合と同様に識別可能である。この場合はそれらの言語用の文字認識部を設ければよい。【0013】【発明の効果】以上述べたように本発明では、自動的に文字行に対して文字種の識別ができるので、文字種が混在している文書でも、それぞれの文字種専用の文書認識装置を使用可能となる。例えば英語と日本語が混在している文章においては、英語の行に関しては英文用文字認識装置を単独に用いた場合と同等な認識率を得ることができ、また日本語の行に関しては和文用文字認識装置を単独に用いた場合と同等な認識率を得ることができるため、総合的な認識率を向上させることができるという効果を有する。さらに、操作者に対する負荷を軽減することもでき、2つの文字認識装置に余分な動作をさせることもなくなる、という効果を有する。

IPC (2件)：

G06K 9/20 320 , G06K 9/62

引用特許：

審査官引用 (2件)

特開昭62-259194
特開平3-290773

前のページに戻る