特許
J-GLOBAL ID:201303057575710026
同義語抽出装置、方法、及びプログラム
発明者:
,
,
,
,
出願人/特許権者:
代理人 (1件):
特許業務法人太陽国際特許事務所
公報種別:公開公報
出願番号(国際出願番号):特願2012-027809
公開番号(公開出願番号):特開2013-164751
出願日: 2012年02月10日
公開日(公表日): 2013年08月22日
要約:
【課題】サイトにおける商品の記述に含まれる単語の同義語を精度よく抽出する。【解決手段】短期的セッション抽出部21によって、各単語について、短期的セッションを抽出する。共起頻度抽出部22によって、各単語について、短期的セッション全体において、単語との共起頻度を各単語について抽出する。IDF抽出部23によって、単語毎に、単語との共起頻度が所定値以上となる各単語について、単語IDFを抽出する。同義語出力部40によって、単語毎に、単語の同義語候補から、単語IDFが閾値以下となる単語を除いて、単語の同義語として出力する。【選択図】図1
請求項(抜粋):
サイトにおける商品の記述に含まれる単語の同義語を抽出する同義語抽出装置であって、
入力された、セッション毎の、少なくとも1つの閲覧商品、及び各閲覧商品の記述に含まれる単語群を含むセッション情報に基づいて、抽出対象の各単語w1について、前記抽出対象の単語w1を含む閲覧商品が所定個以上あるセッションを抽出するセッション抽出手段と、
前記抽出対象の各単語w1について前記セッション抽出手段によって抽出されたセッションのセッション情報に基づいて、前記抽出対象の単語w1毎に、前記抽出対象の単語w1について抽出されたセッション全体において各単語w2が出現するセッションの数を、前記抽出対象の単語w1との共起頻度として抽出する共起頻度抽出手段と、
前記抽出対象の各単語w1について前記共起頻度抽出手段によって抽出された前記抽出対象の単語w1との共起頻度に基づいて、前記抽出対象の単語w1毎に、前記抽出対象の単語w1との共起頻度が抽出された各単語w2について、前記共起頻度が第1閾値以上となる前記抽出対象の単語w1の数の逆数である単語IDFを抽出するIDF抽出手段と、
前記抽出対象の単語w1毎に、前記抽出対象の単語w1について抽出された前記単語IDFが第2閾値以下となる単語w2を除く、前記抽出対象の単語w1との共起頻度が前記第1閾値以上となる単語w2を、前記抽出対象の単語w1の同義語として出力する同義語抽出手段と、
を含む同義語抽出装置。
IPC (2件):
FI (4件):
G06F17/30 320D
, G06F17/30 110C
, G06F17/30 210A
, G06F17/27 Z
Fターム (3件):
5B091AA15
, 5B091AB17
, 5B091CA12
引用特許: