特許
J-GLOBAL ID:200903079598948357

関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

発明者:
出願人/特許権者:
代理人 (2件): 伊東 忠彦 ,  石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2007-340871
公開番号(公開出願番号):特開2009-163399
出願日: 2007年12月28日
公開日(公表日): 2009年07月23日
要約:
【課題】分析対象語句の関連キーワードを広範囲から精度良く抽出する。【解決手段】本発明は、外部から関連話題を抽出する対象となる分析対象キーワードに基づいて文書DBにアクセスし、分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出し、分析対象キーワードに興味を持つ発信者によって作成された文書集合を、文書DBから抽出し、抽出された文書集合を解析し、該文書集合に出現する語句を分析対象キーワードに関連する処理対象語句として抽出し、処理対象語句の出現回数を求め、発信者単位で該出現回数の偏りに基づいて、該処理対象語句と分析対象キーワードとの関連度を算出し、算出された関連度に基づいて、関連キーワードとなる分析対象語句を決定する。【選択図】図1
請求項(抜粋):
大量の文書情報から入力された分析対象キーワードの関連キーワードを抽出して出力する関連キーワード抽出方法であって、 関連発信者抽出手段が、外部から関連話題を抽出する対象となる分析対象キーワードを受け付けるキーワード受付ステップと、 前記関連発信者抽出手段が、発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源にアクセスし、前記分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出ステップと、 関連語句候補抽出手段が、前記関連発信者抽出ステップで得られた前記分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として前記情報源にアクセスして抽出する文書集合抽出ステップと、 前記関連語句抽出手段が、前記文書集合抽出ステップで抽出された文書集合を解析し、該文書集合に出現する語句を分析対象キーワードに関連する処理対象語句として抽出する語句抽出ステップと、 関連度算出手段が、前記処理対象語句の出現回数を求め、発信者単位で該出現回数の偏りに基づいて、該処理対象語句と前記分析対象キーワードとの関連度を算出する関連度算出ステップと、 関連キーワード抽出手段が、前記関連度算出ステップで算出された前記関連度に基づいて、関連キーワードとなる分析対象語句を決定する関連キーワード抽出ステップと、 を行うことを特徴とする関連キーワード抽出方法。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 210A ,  G06F17/30 340B ,  G06F17/30 340A
Fターム (5件):
5B075ND03 ,  5B075NK02 ,  5B075NK31 ,  5B075PP22 ,  5B075PR04
引用特許:
出願人引用 (1件) 審査官引用 (2件)

前のページに戻る