特許
J-GLOBAL ID:200903063152128271

固有表現抽出方法および装置並びにそれらに用いるプログラム

発明者:
出願人/特許権者:
代理人 (2件): 作田 康夫 ,  井上 学
公報種別:公開公報
出願番号(国際出願番号):特願2004-201272
公開番号(公開出願番号):特開2006-023968
出願日: 2004年07月08日
公開日(公表日): 2006年01月26日
要約:
【課題】固有表現抽出の従来方式において、大量の教師データの作成および抽出した固有表現候補から正しい固有表現を判別する作業にかかる人手の作業量は膨大である。本発明はこの人手の作業量を軽減するために、対象文書から固有表現を抽出する作業における人手の作業部分を支援する。【解決手段】抽出規則を逐次的に学習する方式を採用し、教師データとなる候補を作業者に提示することで教師データの作成にかかる作業量を軽減する。また、固有表現候補の判別には、その候補に関連する参考資料を作業者に提示して判別の支援を行う。【選択図】図1
請求項(抜粋):
複数の文書から固有表現を抽出する固有表現抽出方法であって、少なくとも一つ以上の固有表現を含む第1のユーザ入力を受け付けるステップと、上記第1のユーザ入力に含まれる固有表現いずれとも異なる単語を複数の文書から一つ以上抽出し、該抽出した単語の少なくとも一部を表示するステップと、上記表示した単語の少なくとも一部を選択する第2のユーザ入力を受け付けるステップと、上記第1のユーザ入力と上記第2のユーザ入力から規則性を学習して一つ以上の規則を生成し、該生成した規則を用いて上記複数の文書から一つ以上の固有表現候補を抽出し、該抽出した固有表現候補の少なくとも一部を表示する ステップと、上記表示した固有表現候補の少なくとも一部を選択する第3のユーザ入力を受け付けるステップと、上記第3のユーザ入力で選択された固有表現候補を抽出済み固有表現として記憶し、かつ該固有表現候補の抽出に用いた一つ以上の規則を併せて記憶するステップと、からなることを特徴とする固有表現抽出方法。
IPC (3件):
G06F 19/00 ,  G06F 17/30 ,  G06N 3/08
FI (4件):
G06F19/00 130 ,  G06F17/30 170A ,  G06F17/30 220Z ,  G06N3/08 Z
Fターム (4件):
5B075ND03 ,  5B075NS10 ,  5B075QP01 ,  5B075UU06
引用特許:
出願人引用 (2件)

前のページに戻る