特許
J-GLOBAL ID:201003070052481168

固有表現抽出装置、その方法およびプログラム

発明者:
出願人/特許権者:
代理人 (3件): 吉田 精孝 ,  長内 行雄 ,  柳 順一郎
公報種別:公開公報
出願番号(国際出願番号):特願2008-302526
公開番号(公開出願番号):特開2010-128774
出願日: 2008年11月27日
公開日(公表日): 2010年06月10日
要約:
【課題】固有表現抽出モデル更新のための学習効果の高い正解データを低コストで作成すること。【解決手段】タグ信頼度付与処理部12により、形態素解析済の大規模形態素解析済テキストから固有表現抽出モデルを用いて各形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、タググラフ展開処理部22により、タグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成し、コンテキスト抽出処理部24により、タググラフ付テキストに対し、前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に形態素列を対応付けて自動タグ修正済テキストを生成する。【選択図】図1
請求項(抜粋):
形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから固有表現抽出モデルの更新に利用できる正解データとしての自動タグ修正済テキストを生成する装置であって、 予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを記憶する固有表現抽出モデル記憶部と、 固有表現である文字列についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストを記憶する固有表現リスト記憶部と、 入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部に記憶された固有表現抽出モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成するタグ信頼度付与処理部と、 タグ信頼度付与処理部で生成されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するタググラフ展開処理部と、 タググラフ展開処理部で生成されたタググラフ付テキストに対し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成するコンテキスト抽出処理部とを備えた ことを特徴とする固有表現抽出装置。
IPC (2件):
G06F 17/27 ,  G06F 17/30
FI (4件):
G06F17/27 Z ,  G06F17/30 220Z ,  G06F17/30 170A ,  G06F17/30 210A
Fターム (5件):
5B075ND03 ,  5B075NK32 ,  5B075NR05 ,  5B091BA02 ,  5B091CA02
引用特許:
審査官引用 (3件)

前のページに戻る