特許
J-GLOBAL ID:201103054394250364
カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
発明者:
,
,
出願人/特許権者:
代理人 (2件):
伊東 忠彦
, 石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2010-012397
公開番号(公開出願番号):特開2011-150603
出願日: 2010年01月22日
公開日(公表日): 2011年08月04日
要約:
【課題】 予めカテゴリ分けされた文書群からカテゴリの主題を示す語句を抽出し、抽出された語句を利用して文書に対して階層的なタグを付与する。【解決手段】 本発明は、本文とタイトルで出現割合が異なる語句をカテゴリの主題として抽出し、カテゴリの主題を示す語句と、各文書のカテゴリとカテゴリの主題はカテゴリが上位、カテゴリの主題が下位の階層関係であることから、文書がどのカテゴリに属するのかの尤もらしさを示すカテゴリタグスコアと、そのカテゴリに属する文書の主題の語句が、今着目している文書に対して適切かどうかを示すカテゴリ主題タグスコアを求め、これらのスコアの組み合わせの中から適切なものを抽出し、抽出した組み合わせに対応するカテゴリとカテゴリ主題語句を階層的にタグとして文書に付与する。【選択図】 図1
請求項(抜粋):
予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出装置であって、
文書を語句の集合に分解する形態素解析手段と、
前記形態素解析結果の各カテゴリに属する文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
前記形態素解析結果の各カテゴリに属する文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
前記第1の記憶手段に格納されている前記タイトル中語句統計情報手段の集計結果と、前記第2の記憶手段に格納されている前記全文中語句統計情報集計手段の集計結果との比較結果に基づいて、カテゴリ毎に主題を表す語句を1つ以上抽出する主題語句抽出手段と、
を有することを特徴とするカテゴリ主題語句抽出装置。
IPC (3件):
G06F 17/21
, G06F 17/27
, G06F 17/30
FI (4件):
G06F17/21 550A
, G06F17/27 Z
, G06F17/30 220B
, G06F17/30 170A
Fターム (11件):
5B075ND03
, 5B075NK04
, 5B075NK43
, 5B075NR05
, 5B075QM08
, 5B075UU06
, 5B091AA15
, 5B091CA02
, 5B091CA12
, 5B109QA04
, 5B109QA05
引用特許:
引用文献:
前のページに戻る