特許
J-GLOBAL ID:200903017622497358

イメージ文書のキーワード抽出方法

発明者:
出願人/特許権者:
代理人 (1件): 高野 明近 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-194211
公開番号(公開出願番号):特開2001-022773
出願日: 1999年07月08日
公開日(公表日): 2001年01月26日
要約:
【要約】【課題】 OCRにより変換されたテキストに誤りがあっても、抽出するキーワードには許容範囲の誤りしかないことを保証するキーワード抽出方法を提供する。【解決手段】 プレーンテキスト・確信度ファイル生成部6aは、OCRによる文字認識時に生成されたOCR結果ファイル5に含まれる文字情報の候補のなかから、第1候補の文字情報に含まれる文字コードと確信度情報とを抜き出し、プレーンテキスト6cと確信度ファイル6bとを生成する。キーワード抽出ユニット6eは、得られたプレーンテキストの形態解析及びキーワード抽出を行ってキーワードリスト6gを生成する。キーワード検証部6fは、得られたキーワードリスト6gの上位のキーワードから、予め設定されたしきい値に基づいて一文字ずつ文字を誤認しているかどうかを判断し、誤認の文字数の割合が所定条件以上であると判断されたキーワードをキーワードリスト6gから外す処理を行う。
請求項(抜粋):
イメージ文書のOCR文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたOCR結果ファイルを入力し、該文字情報の候補のなかから、第1候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するステップと、得られた前記プレーンテキストの形態解析及びキーワード抽出を行ってキーワードリストを生成するステップとを有することを特徴とするイメージ文書のキーワード抽出方法。
FI (2件):
G06F 15/401 310 A ,  G06F 15/40 370 B
Fターム (7件):
5B075ND07 ,  5B075NK02 ,  5B075NK13 ,  5B075NK32 ,  5B075PQ02 ,  5B075PQ22 ,  5B075UU06
引用特許:
審査官引用 (6件)
  • 情報処理方法及び装置
    公報種別:公開公報   出願番号:特願平6-134194   出願人:キヤノン株式会社
  • 特開昭62-285189
  • 特開平4-328682
全件表示

前のページに戻る