Pat
J-GLOBAL ID:200903012513321825
時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Inventor:
,
Applicant, Patent owner:
Agent (1):
伊東 忠彦
Gazette classification:公開公報
Application number (International application number):2005175538
Publication number (International publication number):2006350656
Application date: Jun. 15, 2005
Publication date: Dec. 28, 2006
Summary:
【課題】 任意の文体で記述した日記や感想などの砕けた文体の文書を対象とし、同一の題材を扱った文書を集約する。【解決手段】 本発明は、入力文書を解析して、文書中の語である一般ワード及び、一般ワードの出現位置情報を獲得し、入力文書中において、軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワードを集計し、高頻度のキーワードを選別し、選別されたキーワードを含む文書を部分集合に分割し、部分集合内の文書の中で、キーワード周辺の予め定められた範囲内に出現する一般ワードを集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定し、部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定する。【選択図】 図1
Claim (excerpt):
文書解析手段と、キーワード抽出手段と、キーワード集計手段と、部分集合生成手段と、部分集合判定手段と、総合判定手段と、を有する装置において、時刻情報が付与された多数の文書の中で、同一の話題について記述された文書を集約し、かつ、集約した文書群を代表する中心的なキーワードである軸キーワードも同時に獲得する時系列文書集約方法であって、
前記文書解析手段が、入力文書を解析して、文書中の語である一般ワード及び、該一般ワードの出現位置情報を獲得し、一般ワード格納手段に格納する一般ワード抽出ステップと、
前記キーワード抽出手段が、前記入力文書中において、前記軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワード格納手段に格納するキーワード抽出ステップと、
前記キーワード集計手段が、前記キーワード格納手段に格納されている前記キーワードを集計し、高頻度のキーワードを選別するキーワード選別ステップと、
前記部分集合生成手段が、前記キーワード選別ステップで選別されたキーワードを含む文書を文書格納手段から取得して、該文書のそれぞれに対し、前記時刻情報度に基づいて、部分集合に分割する部分集合生成ステップと、
部分集合判定手段が、前記部分集合内の文書の中で、前記キーワード周辺の予め定められた範囲内に出現する一般ワードを前記一般ワード格納手段から取得して、集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定する部分集合判定ステップと、
総合判定手段が、前記部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定する総合判定ステップと、
を、行うことを特徴とする時系列文書集約方法。
IPC (1):
FI (4):
G06F17/30 220Z
, G06F17/30 210A
, G06F17/30 210D
, G06F17/30 220A
F-Term (7):
5B075ND03
, 5B075NK02
, 5B075NK21
, 5B075NK31
, 5B075NR02
, 5B075NR12
, 5B075UU06
Patent cited by the Patent:
Article cited by the Patent:
Cited by examiner (1)
-
Web検索結果とその周辺情報の近似的内包表現とその視覚化
Return to Previous Page