特許
J-GLOBAL ID:200903012513321825
時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
発明者:
,
出願人/特許権者:
代理人 (1件):
伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願2005-175538
公開番号(公開出願番号):特開2006-350656
出願日: 2005年06月15日
公開日(公表日): 2006年12月28日
要約:
【課題】 任意の文体で記述した日記や感想などの砕けた文体の文書を対象とし、同一の題材を扱った文書を集約する。【解決手段】 本発明は、入力文書を解析して、文書中の語である一般ワード及び、一般ワードの出現位置情報を獲得し、入力文書中において、軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワードを集計し、高頻度のキーワードを選別し、選別されたキーワードを含む文書を部分集合に分割し、部分集合内の文書の中で、キーワード周辺の予め定められた範囲内に出現する一般ワードを集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定し、部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定する。【選択図】 図1
請求項(抜粋):
文書解析手段と、キーワード抽出手段と、キーワード集計手段と、部分集合生成手段と、部分集合判定手段と、総合判定手段と、を有する装置において、時刻情報が付与された多数の文書の中で、同一の話題について記述された文書を集約し、かつ、集約した文書群を代表する中心的なキーワードである軸キーワードも同時に獲得する時系列文書集約方法であって、
前記文書解析手段が、入力文書を解析して、文書中の語である一般ワード及び、該一般ワードの出現位置情報を獲得し、一般ワード格納手段に格納する一般ワード抽出ステップと、
前記キーワード抽出手段が、前記入力文書中において、前記軸キーワードの候補となるキーワード及び該キーワードの出現位置情報を取得し、キーワード格納手段に格納するキーワード抽出ステップと、
前記キーワード集計手段が、前記キーワード格納手段に格納されている前記キーワードを集計し、高頻度のキーワードを選別するキーワード選別ステップと、
前記部分集合生成手段が、前記キーワード選別ステップで選別されたキーワードを含む文書を文書格納手段から取得して、該文書のそれぞれに対し、前記時刻情報度に基づいて、部分集合に分割する部分集合生成ステップと、
部分集合判定手段が、前記部分集合内の文書の中で、前記キーワード周辺の予め定められた範囲内に出現する一般ワードを前記一般ワード格納手段から取得して、集計した結果に基づいて、該部分集合の内の文書が、同一話題について記述されているか否かを判定する部分集合判定ステップと、
総合判定手段が、前記部分集合毎の判定結果を統合し、該キーワードが話題の軸であるか否かを最終的に判定する総合判定ステップと、
を、行うことを特徴とする時系列文書集約方法。
IPC (1件):
FI (4件):
G06F17/30 220Z
, G06F17/30 210A
, G06F17/30 210D
, G06F17/30 220A
Fターム (7件):
5B075ND03
, 5B075NK02
, 5B075NK21
, 5B075NK31
, 5B075NR02
, 5B075NR12
, 5B075UU06
引用特許:
引用文献:
出願人引用 (1件)
-
Web検索結果とその周辺情報の近似的内包表現とその視覚化
審査官引用 (1件)
-
Web検索結果とその周辺情報の近似的内包表現とその視覚化
前のページに戻る