特許
J-GLOBAL ID:200903021642699515
情報抽出方法及び情報抽出装置
発明者:
出願人/特許権者:
代理人 (1件):
二瓶 正敬
公報種別:公開公報
出願番号(国際出願番号):特願2004-345563
公開番号(公開出願番号):特開2006-155275
出願日: 2004年11月30日
公開日(公表日): 2006年06月15日
要約:
【課題】 インターネットなどに分散している種々の情報の中から、任意のキーワードと関連の深い属性に係る情報(属性情報)を、精度良く抽出する。【解決手段】 ユーザが、所望の情報を得るためのキーワード(例えば、施設名)及び属性(例えば、住所)を入力する。キーワードは、インターネット上の既存の検索サービス提供サーバに送信され、このキーワードを含むインターネット上のWebページのURLリスト(検索結果)を受けて、このURLリストに記載されているWebページを取得する。形態素解析部105が、Webページの形態素解析を行った後、属性抽出部107が、正規表現を利用してWebページ内の属性情報を特定する。そして、特徴量演算部108が、Webページ内の各属性情報に係る特徴量を演算し、この特徴量に基づいて、属性情報判断部109が、キーワードと関連の深い属性情報を所望の情報(施設の実際の住所)として抽出する。【選択図】 図2
請求項(抜粋):
1つのテキストデータ内又は複数のテキストデータに分散している情報から、所望の情報を抽出するための情報抽出方法であって、
前記所望の情報を抽出するためのキーワード及び属性を取得する検索クエリ取得ステップと、
少なくとも前記キーワードが含まれる前記テキストデータを取得するテキストデータ取得ステップと、
前記テキストデータ取得ステップで取得した前記テキストデータに含まれる前記属性に係る情報を特定する属性情報候補特定ステップと、
前記テキストデータ内において、前記属性情報候補特定ステップで特定した前記属性に係る情報の特徴量を演算する特徴量演算ステップと、
前記特徴量演算ステップで演算した前記特徴量に基づいて、前記所望の情報に該当する前記属性に係る情報を特定する属性情報判断ステップとを、
有する情報抽出方法。
IPC (1件):
FI (3件):
G06F17/30 220Z
, G06F17/30 110F
, G06F17/30 170A
Fターム (5件):
5B075ND03
, 5B075NK02
, 5B075NK35
, 5B075NK46
, 5B075PP22
引用特許:
出願人引用 (1件)
-
キーワード抽出
公報種別:公開公報
出願番号:特願2001-036577
出願人:セイコーエプソン株式会社
審査官引用 (5件)
全件表示
引用文献:
前のページに戻る