Pat
J-GLOBAL ID:200903014113964185
文書処理装置、単語抽出装置及び単語抽出方法
Inventor:
,
,
Applicant, Patent owner:
Agent (1):
服部 毅巖
Gazette classification:公開公報
Application number (International application number):2000112348
Publication number (International publication number):2000331032
Application date: Oct. 31, 1996
Publication date: Nov. 30, 2000
Summary:
【要約】【課題】 有益な関連語を的確に利用者に提示できるようにする。【解決手段】 検索手段3は、検索条件入力手段2により入力された検索条件により検索する。キーワード特定手段4は、検索された文書内の単語のうち、任意の単語を関連語探索単語とし、関連語探索単語以外の単語を関連語候補とする。同時出現確率算出手段5は、検出された文書における関連語探索単語と関連語候補内の一つの単語との同時出現確率を求める。第1の単独出現確率算出手段6は、全文書における関連語探索単語の単独出現確率を求める。第2の単独出現確率算出手段7は、全文書における関連語候補内各単語の単独出現確率を求める。計算手段8は、関連語探索単語の単独出現確率と関連語候補の単独出現確率との積または和を計算する。単語抽出手段9は、同時出願確率および計算手段8により計算された値との比率に応じて、単語を抽出する。
Claim (excerpt):
文書を識別する文書識別子およびその文書内に含まれる単語とを組にして記憶している文書情報記憶手段と、前記文書情報記憶手段に記憶されている文書に対する検索条件を入力する検索条件入力手段と、前記検索条件入力手段により入力された検索条件に適合する文書を前記文書情報記憶手段より検索する検索手段と、前記検索手段により検索された文書内に含まれる単語のうち、任意の単語を関連語探索単語とし、前記関連語探索単語以外の単語を関連語候補とするキーワード特定手段と、前記関連語探索単語と前記関連語候補中の一つの単語とが、前記検索手段により検索された文書の中の一つの文書内に含まれる確率である同時出現確率を、前記関連語候補中の単語ごとに求める同時出現確率算出手段と、前記関連語探索単語が、前記文書情報記憶手段に記憶されている文書の中の一つの文書内に含まれる確率を求める第1の単独出現確率算出手段と、前記関連語候補中の一つの単語が前記文書情報記憶手段に記憶されている文書の中の一つの文書内に含まれる確率を、前記関連語候補中の単語ごとに求める第2の単独出現確率算出手段と、前記第1の単独出現確率算出手段により求められた確率と、第2の単独出現確率算出手段により求められた確率との積または和を、前記関連語候補中の単語ごとに計算する計算手段と、前記関連語候補中の単語ごとに、同時出現確率算出手段により求められた前記同時出現確率と前記計算手段により計算された値との比率を求め、各単語の比率に応じて単語を抽出する単語抽出手段と、を具備することを特徴とする文書処理装置。
IPC (3):
G06F 17/30 210
, G06F 17/30 320
, G06F 17/30 350
FI (3):
G06F 17/30 210 A
, G06F 17/30 320 D
, G06F 17/30 350 C
Patent cited by the Patent:
Return to Previous Page