特許
J-GLOBAL ID:200903032418301230

文書処理装置および文書処理方法

発明者:
出願人/特許権者:
代理人 (3件): 亀谷 美明 ,  金本 哲男 ,  萩原 康司
公報種別:公開公報
出願番号(国際出願番号):特願2005-284585
公開番号(公開出願番号):特開2007-094838
出願日: 2005年09月29日
公開日(公表日): 2007年04月12日
要約:
【課題】 文書から重要部分を高速に抽出する文書処理装置を提供する。【解決手段】 文書処理装置100は,分割部155と文ハッシュ計算部165と分割文ハッシュテーブル170aと文ハッシュ検索部175と抽出部180とを含んで構成される。分割文ハッシュテーブル170aには,ハッシュ値と出現頻度とが蓄積されている。分割部155は,入力文書を各文に分割する。文ハッシュ計算部165は,ハッシュ関数を用いて分割された各文からハッシュ値を求める。文ハッシュ検索部175は,求められた各文のハッシュ値と分割文ハッシュテーブル170aに記憶されたハッシュ値とをマッチング処理し,一致したハッシュ値に対応する出現度数を検出する。抽出部180は,検出された出現頻度に基づいて,各文のハッシュ値のうちから1または2以上のハッシュ値を選択し,選択されたハッシュ値に対する各文を入力文書の要約として抽出する。【選択図】 図2
請求項(抜粋):
所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶する記憶部と; 文書を所定の条件に基づいて複数の文字列に分割する分割部と; 前記所定の規則に基づいて,前記分割された各文字列から各文字列固有の計算値をそれぞれ求める計算部と; 前記計算部により求められた各計算値と前記記憶部に記憶されている計算値とを比較することにより,前記求められた各計算値に対応する出現頻度をそれぞれ検出する検索部と; 前記検出された各計算値に対応する出現頻度に基づいて,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を前記文書の要約として抽出する抽出部と;を備える文書処理装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 220A ,  G06F17/30 170A ,  G06F17/30 340B
Fターム (5件):
5B075ND03 ,  5B075NK45 ,  5B075NS01 ,  5B075PR04 ,  5B075UU06
引用特許:
出願人引用 (1件)
  • 要約自動作成方式
    公報種別:公開公報   出願番号:特願平5-040860   出願人:エヌ・ティ・ティ・データ通信株式会社
審査官引用 (5件)
全件表示

前のページに戻る