特許
J-GLOBAL ID:200903080374494618
テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体
発明者:
,
出願人/特許権者:
代理人 (2件):
金田 暢之
, 伊藤 克博
公報種別:公開公報
出願番号(国際出願番号):特願2002-204434
公開番号(公開出願番号):特開2004-046621
出願日: 2002年07月12日
公開日(公表日): 2004年02月12日
要約:
【課題】テキストの多重トピックス抽出を良好に行なう。【解決手段】任意のテキストをテキスト前処理部1に入力し、語彙中の単語の頻度を算出し、単語頻度ベクトルを作成し、該頻度ベクトルに基づいて、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現する。次に、モデルパラメータ推定部2において該単語頻度ベクトルとテキストの帰属トピックスベクトルを用いて確率モデルのパラメータを学習する。トピックスが未知のテキストに対して、テキスト前処理部4で単語頻度ベクトルを算出し、多重トピックス予測部5で、該単語頻度ベクトルから、学習済みの確率モデルのパラメータを用いて、該テキストの帰属する多重トピックスを抽出する。【選択図】 図1
請求項(抜粋):
任意のテキストから、該テキストが帰属する1つまたは複数のトピックスを抽出する方法であって、
テキストを予め定めた全語彙に渡る単語の頻度で表現するステップと、
該単語頻度情報に基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現するステップと、
前記単語頻度情報と前記テキストが帰属するトピックス情報の組からなる学習データで前記確率モデルのパラメータを学習し、学習結果の確率モデルのパラメータを記憶装置に保存するステップと、
トピックスが未知のテキストに対し単語頻度情報を算出するステップと、
トピックスが未知のテキスト中の単語頻度情報から前記記憶装置に保存されている学習済みの確率モデルのパラメータを用いて該テキストの帰属する多重トピックスを抽出するステップとを有する、テキストの多重トピックス抽出方法。
IPC (2件):
FI (4件):
G06F17/30 210D
, G06F17/30 170A
, G06F17/30 210A
, G06F17/27 Z
Fターム (7件):
5B075ND03
, 5B075NK32
, 5B075NR12
, 5B091AA15
, 5B091CA02
, 5B091EA01
, 5B091EA24
引用特許:
前のページに戻る