特許
J-GLOBAL ID:201203095784631135

重要語句抽出装置及び方法及びプログラム

発明者:
出願人/特許権者:
代理人 (2件): 伊東 忠彦 ,  石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2010-130405
公開番号(公開出願番号):特開2011-257878
出願日: 2010年06月07日
公開日(公表日): 2011年12月22日
要約:
【課題】 ごく僅かな文書にしか出現しない非重要語を抽出することなく、重要語を抽出する。【解決手段】 本発明は、「タイトル」「本文」「コメント」などの、文書において異なる役割を持つ文章群を「セクション」として定義し、複数のセクションから構成される訓練文書の集合を基に、入力文書から、前記入力文書中に語句が出現するセクション数と、前記訓練集合と前記入力文書から算出する残差逆文書頻度を用いて、前記入力文書の重要な語句を抽出する。【選択図】 図1
請求項(抜粋):
異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置であって、 前記訓練文書集合を記憶する訓練文書集合記憶手段と、 前記入力文書を語句の集合に分解する形態素解析手段と、 前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計手段と、 前記訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出手段と、 前記セクション頻度集計手段の集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出手段と、 前記重要度算出手段の算出結果を基に、前記入力文書の重要語句を所定の個数出力する重要語句出力手段と、 を有することを特徴とする重要語句抽出装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 210A ,  G06F17/30 170A
Fターム (3件):
5B075ND03 ,  5B075NK32 ,  5B075PR04
引用特許:
出願人引用 (5件)
全件表示

前のページに戻る