特許
J-GLOBAL ID:201003069512079330
重要キーワード抽出装置及び方法及びプログラム
発明者:
,
,
出願人/特許権者:
代理人 (2件):
伊東 忠彦
, 石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2009-048550
公開番号(公開出願番号):特開2010-204866
出願日: 2009年03月02日
公開日(公表日): 2010年09月16日
要約:
【課題】 キーワードそのものの固有の重要性を算出でき、文書内の出現頻度等に左右されずに重要キーワードを頑健に抽出する。【解決手段】 本発明は、Web文書の主要コンテンツの抽出を行い、文書内のテキストからキーワード候補を抽出し、抽出されたキーワードの重要度を算出し、順序付けを行う。主要コンテンツは、文字量、句読点の量、タグ量、リンク数等を求め、コンテンツの主要部を特定し、コンテンツの主要部のみに対し、Wikipedia(登録商標)のリンク構造や検索クエリからキーワードの重要度を決定する。【選択図】 図1
請求項(抜粋):
Web文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出装置であって、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
オンライン百科辞典に代表される、文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記Web文書内の前記重要キーワード候補に重み付けを行う出現頻度算出手段と、
知名度や話題性が高く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように前記重要キーワード候補の重要度を算出し、第1の記憶手段に格納するキーワード重要度算出手段と、
前記重要キーワード候補の重要度に基づいて、前記Web文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段に格納する位置情報算出手段と、
前記第1の記憶手段に格納されている重要キーワード候補の重要度及び前記第2の記憶手段に格納されている前記出現位置キーワード重要度を乗算した値に基づいて、重要度付きのキーワード集合を出力するキーワード出力手段と、を有し、
前記主要コンテンツ抽出手段は、
前記Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割手段と、
前記セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出手段と、
前記セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段と、
主要コンテンツと判断された部位を結合して前記主要コンテンツとして出力する主要コンテンツ出力手段を含み、
前記特徴量抽出手段は、
前記Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とする手段を含み、
前記出現頻度算出手段は、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて前記重要キーワード候補に重み付けする手段、
または、
前記重要キーワード候補の前記Web文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該キーワード候補に重み付けする手段、
のいずれかを有することを特徴とする重要キーワード抽出装置。
IPC (2件):
FI (3件):
G06F17/30 220Z
, G06F17/30 180Z
, G06F17/21 550A
Fターム (9件):
5B075KK03
, 5B075ND16
, 5B075NK02
, 5B075NK32
, 5B075PR04
, 5B075PR08
, 5B075QT10
, 5B109QA03
, 5B109QA04
引用文献:
前のページに戻る