特許
J-GLOBAL ID:201603002938842489

用語抽出装置、方法、及びプログラム

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人太陽国際特許事務所
公報種別:公開公報
出願番号(国際出願番号):特願2014-248131
公開番号(公開出願番号):特開2016-110441
出願日: 2014年12月08日
公開日(公表日): 2016年06月20日
要約:
【課題】特定の専門分野に関する文書から専門用語を抽出することができる。【解決手段】辞書用語抽出部30が、用語辞書40に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、調整部34でペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、分類器用語抽出部32が、分類器42に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、調整部34で算出したペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、抽出された病状に関する用語の候補文字列を比較して、一致していない候補文字列の各々に対してペナルティスコアを算出することを、反復判定部36により病状に関する用語の候補文字列が一致するまで繰り返す。【選択図】図2
請求項(抜粋):
入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置であって、 複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する辞書用語抽出部と、 あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する分類器用語抽出部と、 前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する調整部と、 前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返す反復判定部と、を含み、 前記辞書用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、 前記分類器用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する 用語抽出装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 210A ,  G06F17/30 170A ,  G06F17/30 210D
引用特許:
出願人引用 (4件)
全件表示

前のページに戻る