特許
J-GLOBAL ID:202003004557588107
抽出システムおよびプログラム
発明者:
,
,
,
,
,
,
,
出願人/特許権者:
,
,
代理人 (1件):
中野 寛也
公報種別:公開公報
出願番号(国際出願番号):特願2018-244861
公開番号(公開出願番号):特開2020-107051
出願日: 2018年12月27日
公開日(公表日): 2020年07月09日
要約:
【課題】テーマに関連する抽出対象を抽出するユーザの作業負担の軽減、作業効率の向上、抽出結果の適正化を図ることができる抽出システムを提供する。【解決手段】抽出システム10では、テーマの単語と他の単語との間の類似度Swordを用いて、テーマに関連する関連単語を決定した後、各関連単語の類似度Swordと、各抽出対象の特徴を示す固有テキストデータとの照合により得られた適合率であるテキストデータ基準関連度Pwordとを用いて、各関連単語の修正関連度SPwordを算出し、この修正関連度SPwordの大小で着目単語を決定し、固有テキストデータにおける各着目単語やテーマ単語についての単語別出現回数COUNTwordを求め、これらを用いて各抽出対象についての抽出対象・テーマ関連度FSを算出する。【選択図】図1
請求項(抜粋):
組織、人物、物品、商品、サービス、事象、若しくはその他の抽出対象を抽出し、または抽出作業を支援する処理を実行するコンピュータにより構成された抽出システムであって、
テーマの単語の入力を受け付ける処理を実行するテーマ入力受付手段と、
学習用のテキストデータを用いて単語間の関連性を学習する学習処理で得られた学習結果データを記憶するモデル記憶手段と、
複数の前記抽出対象の各々について用意された前記抽出対象の特徴を示す固有テキストデータを、抽出対象識別情報と関連付けて記憶する固有テキストデータ記憶手段と、
前記モデル記憶手段に記憶された前記学習結果データを用いて、前記テーマ入力受付手段により受け付けた前記テーマの単語と他の単語との間の類似度を算出し、この類似度の大きさで順位付けした単語のうち、予め定められた数の上位の単語、または、閾値に対する類似度の大きさで選択した単語を、関連単語として決定する処理を実行する類似度算出手段と、
この類似度算出手段により決定した各関連単語、および、前記テーマの単語について、前記固有テキストデータ記憶手段に記憶された前記固有テキストデータとの照合を行うことにより、前記各関連単語および/または前記テーマの単語を含む前記固有テキストデータに関連付けられた抽出対象識別情報を抽出し、前記テーマの単語についての照合で抽出した抽出対象の集合に対する、前記各関連単語についての照合で抽出した抽出対象の集合の適合率を算出し、算出した各適合率を、前記各関連単語についてのテキストデータ基準関連度とする処理を実行するテキストデータ基準関連度算出手段と、
前記類似度算出手段により算出した前記各関連単語についての前記類似度と、前記テキストデータ基準関連度算出手段により算出した前記各関連単語についてのテキストデータ基準関連度とを用いて、前記各関連単語についての修正関連度を算出し、この修正関連度の大きさで順位付けした前記各関連単語のうち、予め定められた数の上位の単語、または、閾値に対する修正関連度の大きさで選択した単語を、着目単語として決定する処理を実行する修正関連度算出手段と、
この修正関連度算出手段により決定した各着目単語、および、前記テーマの単語について、それぞれの単語が、前記テキストデータ基準関連度算出手段により抽出した各抽出対象識別情報と関連付けられて前記固有テキストデータ記憶手段に記憶された前記固有テキストデータの中に出現する単語別出現回数を求め、前記各着目単語についての単語別出現回数に前記各着目単語についての前記修正関連度を乗じた値またはこの値に前記各着目単語の重み係数を乗じた値、並びに、前記テーマの単語についての単語別出現回数またはこの単語別出現回数に前記テーマの単語の重み係数を乗じた値を合計することにより、各抽出対象についてのテーマへの関連度を示す抽出対象・テーマ関連度を算出する処理を実行する抽出対象・テーマ関連度算出手段と、
この抽出対象・テーマ関連度算出手段により算出した前記抽出対象・テーマ関連度の大きさで定まる順位に従って抽出対象を並べるか、当該順位に従って前記抽出対象・テーマ関連度および対応する抽出対象を並べるか、当該順位に従った並び順とすることなく前記抽出対象・テーマ関連度および対応する抽出対象の組合せを示すか、予め定められた数の上位の抽出対象を選択して示すか、ユーザにより指定された特定の順位の抽出対象を選択して示すか、またはこれらに加えて、抽出対象についての前記固有テキストデータの少なくとも一部を示す状態で、画面表示、印刷、音声出力、ファイル出力、データ送信、若しくはこれらの組合せ、またはその他の出力形式による出力処理を実行する出力手段と
を備えたことを特徴とする抽出システム。
IPC (2件):
FI (4件):
G06F17/30 220Z
, G06F17/30 320D
, G06F17/30 210A
, G06Q40/06
Fターム (1件):
前のページに戻る