特許
J-GLOBAL ID:201903017612763979

表セル検索装置、方法、及びプログラム

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人太陽国際特許事務所
公報種別:特許公報
出願番号(国際出願番号):特願2016-098692
公開番号(公開出願番号):特開2017-207853
特許番号:特許第6480380号
出願日: 2016年05月17日
公開日(公表日): 2017年11月24日
請求項(抜粋):
【請求項1】 HTML文書に含まれる表形式データから、前記表形式データに含まれる知識を抽出してインデキシングし、キーワード集合あるいは自然文により与えられた検索クエリに直接回答可能な表セルを検索スコアによりランキングして返却する表セル検索装置であって、 前記HTML文書の集合から、tableタグにより記述された表形式データからなる表形式データ集合を取得する表形式データ抽出部と、 前記表形式データの各々について、前記表形式データに関連する表関連情報を、前記表形式データを含む前記HTML文書から抽出する表関連情報抽出部と、 前記表形式データの各々について、前記表形式データの構造及び内容に基づいて、前記表形式データを、前記表形式データに関して予め定められた、縦リスト、横リスト、縦属性、横属性、及び行列のいずれかの表のタイプに分類する表タイプ分類部と、 前記表形式データの各々について、前記表形式データの構造及び内容に基づいて、前記表形式データの表に含まれる各行及び各列のタイプを分類する行列タイプ分類部と、 前記表形式データの各々について、前記表関連情報抽出部により抽出された前記表関連情報、前記表タイプ分類部における分類結果、及び前記行列タイプ分類部における分類結果に基づいて、前記表のタイプに応じて予め定められた抽出規則に従って、前記表形式データから抽出されるエンティティ、属性、及び属性値を含む表内情報と、前記表関連情報との組から構成されるセル知識を抽出し、抽出した前記セル知識を検索データベースに格納する表内知識抽出部と、 与えられた検索クエリであるキーワード集合あるいは自然文について、検索クエリ内の属性に対応するキーワードにラベルを付与するクエリ解釈部と、 前記クエリ解釈部によって前記ラベルが付与された前記検索クエリに基づいて、前記検索データベースから前記検索クエリに対応する前記セル知識を出力する知識検索部と、 前記知識検索部の出力に基づいて、ユーザに検索結果を返却する検索結果生成部と、 を含む表セル検索装置。
IPC (2件):
G06F 16/30 ( 201 9.01) ,  G06F 16/00 ( 201 9.01)
FI (3件):
G06F 17/30 170 A ,  G06F 17/30 230 Z ,  G06F 17/30 180 Z
引用特許:
審査官引用 (1件)
引用文献:
前のページに戻る