特許
J-GLOBAL ID:201203009209646330
テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
発明者:
,
出願人/特許権者:
代理人 (4件):
中尾 直樹
, 中村 幸雄
, 義村 宗洋
, 草野 卓
公報種別:公開公報
出願番号(国際出願番号):特願2010-254028
公開番号(公開出願番号):特開2012-104041
出願日: 2010年11月12日
公開日(公表日): 2012年05月31日
要約:
【課題】複数の回答文書を要約する際に、携帯端末など表示字数が制限される環境において少数派の回答が要約結果に反映されないことを回避し、様々なバリエーションの回答を要約に含めて出力可能とする。【解決手段】複数の1以上の文で構成された文書からなるテキストデータについて、各文書を複数のクラスタに分類し、前記クラスタ内の文書に含まれる各単語列に対しスコアを付与し、前記クラスタ内の各文について、文に含まれる単語列のスコアを合計して文のスコアを計算する。そして、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加する。すべてのクラスタを一巡した場合は再度最も文書数が多いクラスタに戻り同様の処理を行う。これらの処理を所定の要約長に到達するまで行う。【選択図】図1
請求項(抜粋):
複数の1以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類するクラスタリング部と、
前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する単語スコア計算部と、
前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する文スコア計算部と、
文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する文選択部と、
を備えるテキストデータ要約装置。
IPC (2件):
FI (4件):
G06F17/30 220A
, G06F17/30 210D
, G06F17/30 170A
, G06F17/21 550A
Fターム (4件):
5B075NR12
, 5B075NS01
, 5B075QM05
, 5B109QA05
引用特許:
引用文献:
前のページに戻る