特許
J-GLOBAL ID:200903040048053677

大規模タグ付きコーパス作成方法、その装置およびプログラム

発明者:
出願人/特許権者:
代理人 (1件): 吉田 精孝
公報種別:公開公報
出願番号(国際出願番号):特願2007-264472
公開番号(公開出願番号):特開2009-093481
出願日: 2007年10月10日
公開日(公表日): 2009年04月30日
要約:
【課題】固有表現抽出の精度を向上させるために有用な大規模タグ付きコーパスを、人手による作業量を少なく、コストをかけずに作成すること。【解決手段】小規模固有表現モデル記憶部12に記憶された、人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルを用いて、大規模タグ付きコーパス記憶部11内の単語情報付き単語列に対し、デコーダ16により確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ自動付与するとともに、タグ信頼度付与手段14により単語単位に推定された固有表現タグ毎の信頼度を算出し、リジェクタ18にてタグ信頼度が予め設定した値以下であり、不許可と判定された固有表現タグのみ、修正・登録手段19により手作業で修正する。【選択図】図4
請求項(抜粋):
コンピュータを用いて、単語情報付き単語列の大規模な集合よりなる大規模タグなしコーパスから単語情報及び固有表現タグ付き単語列の大規模な集合よりなる大規模タグ付きコーパスを作成する方法であって、 コンピュータに、 大規模タグなしコーパス記憶部から単語情報付き単語列を読み出し、小規模固有表現モデル記憶部に記憶された、人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルを用いて確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ付与して単語情報及び固有表現タグ付き単語列を生成して単語列一時記憶部に記憶する固有表現抽出工程と、 前記読み出された単語情報付き単語列に対して、小規模固有表現モデル記憶部に記憶された小規模固有表現モデルを用いて単語単位に推定された固有表現タグ毎の信頼度を算出し、タグ信頼度記憶部に記憶するタグ信頼度付与工程と、 単語列一時記憶部から単語情報及び固有表現タグ付き単語列を読み出すとともに、タグ信頼度記憶部から当該単語情報及び固有表現タグ付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を読み出し、該信頼度に基づき、前記単語情報及び固有表現タグ付き単語列中の固有表現タグを許可するか不許可とするかを単語単位に判定する信頼度判定工程と、 不許可と判定された固有表現タグを含まない単語情報及び固有表現タグ付き単語列をそのまま大規模タグ付きコーパス記憶部に登録し、不許可と判定された固有表現タグを含む単語情報及び固有表現タグ付き単語列を表示部に表示し、該不許可と判定された固有表現タグを入力部から入力された固有表現タグに修正し、修正後の単語情報及び固有表現タグ付き単語列を大規模タグ付きコーパス記憶部に登録する手作業修正工程とを実行させる ことを特徴とする大規模タグ付きコーパス作成方法。
IPC (1件):
G06F 17/28
FI (1件):
G06F17/28 U
Fターム (2件):
5B091AA11 ,  5B091CA02
引用特許:
出願人引用 (2件) 審査官引用 (2件)
引用文献:
前のページに戻る