特許
J-GLOBAL ID:202103002313491840

専門用語抽出装置、専門用語抽出方法及びプログラム

発明者:
出願人/特許権者:
代理人 (3件): 木村 満 ,  武山 敦史 ,  森川 泰司
公報種別:公開公報
出願番号(国際出願番号):特願2020-186260
公開番号(公開出願番号):特開2021-192212
出願日: 2020年11月09日
公開日(公表日): 2021年12月16日
要約:
【課題】テキストデータから専門用語を抽出する精度を向上させた専門用語抽出装置、専門用語抽出方法及びプログラムを提供する。【解決手段】専門用語抽出装置100は、文書のテキストデータを取得するテキストデータ取得部151と、テキストデータ取得部151により取得されたテキストデータからNグラムのチャンクを抽出するNグラム抽出部153と、Nグラム抽出部153で生成されたNグラムのチャンクから体言を認識することで専門用語の候補語を抽出し、抽出された候補語のテキストデータにおける出現頻度をカウントする候補語判別部154と、候補語判別部154でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて、当該候補語が専門用語に該当するかどうかを判別する専門用語判別部155と、専門用語判別部155で専門用語として判別された候補語を記憶部140に登録する専門用語登録部156と、を備える。【選択図】図1
請求項(抜粋):
文書のテキストデータを取得するテキストデータ取得部と、 前記テキストデータ取得部により取得されたテキストデータからNグラムのチャンクを抽出するNグラム抽出部と、 前記Nグラム抽出部で生成されたNグラムのチャンクから体言を認識することで専門用語の候補語を抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別部と、 前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて、当該候補語が専門用語に該当するかどうかを判別する専門用語判別部と、 前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する専門用語登録部と、 を備える専門用語抽出装置。
IPC (1件):
G06F 40/279
FI (1件):
G06F40/279
Fターム (1件):
5B091AB08
引用文献:
審査官引用 (2件)
  • Web文書集合からの専門用語獲得
  • 土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察

前のページに戻る