特許
J-GLOBAL ID:200903006921740666

文書情報抽出方法および文書情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

発明者:
出願人/特許権者:
公報種別:公開公報
出願番号(国際出願番号):特願平10-246520
公開番号(公開出願番号):特開2000-067080
出願日: 1998年08月18日
公開日(公表日): 2000年03月03日
要約:
【要約】【課題】 レイアウト情報を加味したキーワードを抽出することにより,信頼度の高いキーワード抽出および文書検索を実現すること。【解決手段】 文書画像を入力するステップS201と,文書画像からレイアウト情報を抽出するステップS202と,ステップS202で抽出した文字領域について文字認識を行い文字コード列を取得するステップS203と,文字コード列から言語解析によりキーワードを抽出し,複数のレイアウト情報に基づいてキーワードに重み付けを行うステップS204と,を含む。
請求項(抜粋):
文書画像を入力する画像入力工程と,前記文書画像からレイアウト情報を抽出するレイアウト情報抽出工程と,前記レイアウト情報抽出工程で抽出した文字領域について文字認識を行い文字コード列を取得する文字認識工程と,前記文字コード列から言語解析によりキーワードを抽出し,複数のレイアウト情報に基づいてキーワードに重み付けを行うキーワード抽出工程と,を含み,前記キーワードの表示・閲覧により対象文書を抽出することを特徴とする文書情報抽出方法。
IPC (2件):
G06F 17/30 ,  G06T 1/00
FI (2件):
G06F 15/401 310 A ,  G06F 15/62 330 D
Fターム (9件):
5B050BA10 ,  5B050BA16 ,  5B050EA03 ,  5B050EA10 ,  5B050GA08 ,  5B075ND03 ,  5B075NK32 ,  5B075PQ02 ,  5B075UU05
引用特許:
審査官引用 (7件)
全件表示

前のページに戻る