Pat
J-GLOBAL ID:201203009209646330

テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム

Inventor:
Applicant, Patent owner:
Agent (4): 中尾 直樹 ,  中村 幸雄 ,  義村 宗洋 ,  草野 卓
Gazette classification:公開公報
Application number (International application number):2010254028
Publication number (International publication number):2012104041
Application date: Nov. 12, 2010
Publication date: May. 31, 2012
Summary:
【課題】複数の回答文書を要約する際に、携帯端末など表示字数が制限される環境において少数派の回答が要約結果に反映されないことを回避し、様々なバリエーションの回答を要約に含めて出力可能とする。【解決手段】複数の1以上の文で構成された文書からなるテキストデータについて、各文書を複数のクラスタに分類し、前記クラスタ内の文書に含まれる各単語列に対しスコアを付与し、前記クラスタ内の各文について、文に含まれる単語列のスコアを合計して文のスコアを計算する。そして、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加する。すべてのクラスタを一巡した場合は再度最も文書数が多いクラスタに戻り同様の処理を行う。これらの処理を所定の要約長に到達するまで行う。【選択図】図1
Claim (excerpt):
複数の1以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類するクラスタリング部と、 前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する単語スコア計算部と、 前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する文スコア計算部と、 文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する文選択部と、 を備えるテキストデータ要約装置。
IPC (2):
G06F 17/30 ,  G06F 17/21
FI (4):
G06F17/30 220A ,  G06F17/30 210D ,  G06F17/30 170A ,  G06F17/21 550A
F-Term (4):
5B075NR12 ,  5B075NS01 ,  5B075QM05 ,  5B109QA05
Patent cited by the Patent:
Cited by examiner (2)
Article cited by the Patent:
Return to Previous Page