特許
J-GLOBAL ID:200903006104592043

固有表現抽出装置、その方法、プログラム及び記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 吉田 精孝
公報種別:公開公報
出願番号(国際出願番号):特願2007-254451
公開番号(公開出願番号):特開2009-086911
出願日: 2007年09月28日
公開日(公表日): 2009年04月23日
要約:
【課題】無意味な空白や記号、想定外の事例による処理誤りのない固有表現抽出処理を実現する。【解決手段】入力文を形態素解析して生成した形態素列から、不要形態素認定処理部22及び形態素候補作成処理部51で不要形態素を除去して固有表現抽出を行う対象となる形態素のみからなる形態素候補データを生成し、ユーザ辞書参照処理部54でユーザ辞書を参照してユーザ辞書侯補データを生成し、前向き制御処理部65で形態素候補データ中の各形態素について確率モデル及びユーザ辞書侯補データを参照してユーザ辞書由来のスコアを反映した固有表現識別子に対する最大途中確率値を求め、候補探索処理部71で最終的に文頭から文末までの確率値が最大となるような一連の形態素と固有表現識別子の組である固有表現付形態素候補を生成し、不要形態素復元処理部41で前記除去された不要形態素を復元する。【選択図】図1
請求項(抜粋):
入力文から該入力文に含まれる固有表現を抽出する装置であって、 入力文を形態素解析して形態素列を生成する形態素解析部と、 固有表現抽出処理の対象外とする形態素である不要形態素に関する不要形態素処理規則を参照して前記形態素列中の不要形態素を認定し、該不要形態素処理規則で規定する前処理を実施して不要形態素認定済データを生成する前処理フィルタと、 前記不要形態素認定済データから固有表現抽出を行う対象となる形態素のみからなる形態素候補データを生成し、確率モデルを参照して全ての固有表現識別子に対する確率値を求め、該確率値を利用して途中確率データを固有表現付形態素候補毎に求め、さらにある固有表現付形態素候補について最大の途中確率値となるものを最大途中確率値として残した最大途中確率データを求め、最終的に文頭から文末までの確率値が最大となるような一連の形態素と固有表現識別子の組である固有表現付形態素候補を生成する固有表現抽出部と、 前記不要形態素認定済データを参照し、前記不要形態素処理規則で規定する後処理を実施して前処理フィルタで不要形態素と認定された形態素を前記固有表現付形態素候補に復元する後処理フィルタとを備えた ことを特徴とする固有表現抽出装置。
IPC (2件):
G06F 17/27 ,  G06F 17/30
FI (3件):
G06F17/27 E ,  G06F17/30 220Z ,  G06F17/30 210A
Fターム (7件):
5B075ND03 ,  5B075NK32 ,  5B075UU40 ,  5B091AA11 ,  5B091AB06 ,  5B091AB15 ,  5B091CA02
引用特許:
出願人引用 (2件) 審査官引用 (2件)

前のページに戻る