特許
J-GLOBAL ID:201303054547796021

商品情報抽出ルール生成方法、装置、及びプログラム

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人太陽国際特許事務所
公報種別:公開公報
出願番号(国際出願番号):特願2012-003163
公開番号(公開出願番号):特開2013-143021
出願日: 2012年01月11日
公開日(公表日): 2013年07月22日
要約:
【課題】人手によるルールの作成や学習データの生成を必要とせず、低いメンテナンスコストで商品情報抽出ルールを生成することができるようにする。【解決手段】ページ間共通箇所特定部25によって、商品詳細情報ページ群のうちの所定割合以上の商品詳細情報ページにおいて、同一文字列が同一箇所に共通して出現するページ間共通箇所を特定する。商品属性値抽出箇所判定部27によって、商品属性毎に、商品属性値抽出箇所候補、及び該商品属性値抽出箇所候補の周辺から特定されたページ間共通箇所と、商品属性の前記商品属性特徴とを比較することによって、商品属性値抽出箇所候補が商品属性の属性値の抽出箇所であるか否かを判定する。商品情報抽出ルール生成部28によって、商品属性毎に判定された属性値の抽出箇所の各々と商品属性の商品属性名とのペアを、商品情報抽出ルールとして生成する。【選択図】図1
請求項(抜粋):
商品属性特徴受付手段によって、商品属性毎に、前記商品属性の属性値の周辺に出現する文字列の特徴、前記属性値の少なくとも一部として出現する文字列の特徴、及び前記属性値の出現位置に関するページ構造情報の特徴の少なくとも一つを含む商品属性特徴を受け付けるステップと、 ページ受付手段によって、商品の詳細情報が記載された抽出対象となる複数の商品詳細情報ページからなる商品詳細情報ページ群を受け付けるステップと、 ページ間共通箇所特定手段によって、前記商品詳細情報ページ群のうちの所定割合以上の商品詳細情報ページにおいて、対応する箇所に対応する文字列又は画像が共通して出現するページ間共通箇所を特定するステップと、 商品属性値抽出箇所判定手段によって、前記商品属性毎に、前記商品詳細情報ページ群に出現する文字列及び該文字列の出現箇所を商品属性値抽出箇所候補として、前記商品属性値抽出箇所候補、及び該商品属性値抽出箇所候補の周辺から特定された前記ページ間共通箇所と、前記商品属性の前記商品属性特徴とを比較することによって、前記商品属性値抽出箇所候補が前記商品属性の属性値の抽出箇所であるか否かを判定するステップと、 商品情報抽出ルール生成手段によって、前記商品属性毎に判定された前記属性値の抽出箇所の各々と前記商品属性の商品属性名とのペアを、商品詳細情報ページから商品に関する情報を抽出する際に用いられる商品情報抽出ルールとして生成するステップと、 を含む商品情報抽出ルール生成方法。
IPC (2件):
G06F 17/30 ,  G06Q 30/06
FI (4件):
G06F17/30 220Z ,  G06F17/30 210A ,  G06F17/30 210D ,  G06F17/60 310E

前のページに戻る