Pat
J-GLOBAL ID:201103070674438267

文書処理装置及び文書処理方法

Inventor:
Applicant, Patent owner:
Agent (8): 鈴江 武彦 ,  河野 哲 ,  中村 誠 ,  蔵田 昌俊 ,  峰 隆司 ,  福原 淑弘 ,  村松 貞男 ,  橋本 良郎
Gazette classification:特許公報
Application number (International application number):2005284885
Publication number (International publication number):2007094855
Patent number:4521343
Application date: Sep. 29, 2005
Publication date: Apr. 12, 2007
Claim (excerpt):
【請求項1】 文書構造を有する入力文書から、汎用的な固有表現を抽出するとともに、抽出された汎用的な固有表現について予め定義されているカテゴリを示す意味分類名情報を得る第1の抽出手段と、 前記入力文書から、前記入力文書の意味役割を特徴付ける意味役割語を抽出するとともに、抽出された意味役割語について予め定義されているカテゴリを示す意味役割情報を得る第2の抽出手段と、 前記入力文書を解析して基本的な文書構造である木構造に関する情報を求める解析手段と、 前記入力文書から抽出された各々の汎用的な固有表現及び各々の意味役割語についてそれぞれ、当該汎用的な固有表現又は意味役割語のスコアを求めるとともに、当該汎用的な固有表現又は意味役割語が前記木構造において出現する形態が、予め定められた出現する形態(該出現する形態として、少なくとも、前記木構造において兄弟ノードの先頭に出現する形態、前記木構造においてテキストノード中に単独で出現する形態、及び前記木構造において見出しタグ中に出現する形態が予め定められている。)のいずれかに該当するものについては、当該汎用的な固有表現又は意味役割語のスコアを、当該形態に応じた方法で増加させる補正を行い、複数の文書タイプのそれぞれについて予め定義された、当該文書タイプを有する文書中に出現すると期待される汎用的な固有表現に対応する意味分類名情報及び当該文書タイプを有する文書中に出現すると期待される意味役割語に対応する意味役割情報が記載された文書モデルの各々を対象として、当該文書モデルに記載されている意味分類名情報及び意味役割情報と、前記入力文書から得られた前記意味分類名情報及び前記意味役割情報との間の類似度を、当該意味分類名情報に対応する汎用的な固有表現について求められた前記スコア及び当該意味役割情報に対応する意味役割語について求められた前記スコアの総和を計算することによって求め、各々の文書タイプに係る前記文書モデルについてそれぞれ求められた類似度に基づいて、前記入力文書の文書タイプを選択する選択手段と、 前記入力文書について選択された前記文書タイプに基づいて、前記入力文書の部分構造を検出する検出手段と、 前記文書タイプに対して予め定義されている意味タグを、前記入力文書から検出された前記部分構造に付与する付与手段とを備えたことを特徴とする文書処理装置。
IPC (2):
G06F 17/21 ( 200 6.01) ,  G06F 17/30 ( 200 6.01)
FI (4):
G06F 17/21 550 A ,  G06F 17/21 501 T ,  G06F 17/30 170 A ,  G06F 17/30 220 B
Patent cited by the Patent:
Cited by applicant (2) Cited by examiner (2)

Return to Previous Page