特許
J-GLOBAL ID:201703006047742605

文書分析システム、方法およびプログラム

発明者:
出願人/特許権者:
代理人 (2件): 池田 憲保 ,  佐々木 敬
公報種別:特許公報
出願番号(国際出願番号):特願2013-104646
公開番号(公開出願番号):特開2014-225172
特許番号:特許第6210194号
出願日: 2013年05月17日
公開日(公表日): 2014年12月04日
請求項(抜粋):
【請求項1】 文書から曖昧性を持つ表現を抽出する文書分析システムであって、 対象とする文書もしくは文書群の入力を受け付ける文書入力部と、 文書もしくは文書群を構成する文章に使用されている各単語とその使用箇所に関する単語情報の抽出を行う文書解析部と、 曖昧性を持つ可能性のある曖昧語の文字列と曖昧語毎の曖昧性の異なる用例の特徴と用例毎の曖昧さの程度である曖昧度とを蓄積する曖昧用例データベースと、 前記単語情報に基づき、文書中の曖昧語の有無を前記曖昧用例データベースに問合せ、曖昧語が有る場合は、所定の曖昧性分析ルールに基づき、前記単語情報から各曖昧語の用例の特徴を判別し、前記曖昧用例データベースに問合せることで、曖昧語とその曖昧度、および文書内での存在位置を、それぞれ各曖昧語に関する曖昧用例情報として抽出する用例分析部と、 該曖昧用例情報から、入力された文書中の全曖昧語について抽出した曖昧度が一定値以下の曖昧語を曖昧でない用例の曖昧語として、その個数を集計し、所定のノイズ情報指標化ルールに基づき、ノイズ指標として算出するノイズ指標算出部と、 前記曖昧性分析ルール毎に、前記曖昧性分析ルールを文書に適用した際の曖昧語の用例の分類精度を収集して蓄積する分類精度データベースと、 前記ノイズ指標、および特定の単語に関する前記曖昧性分析ルールの問い合わせに対して前記分類精度データベースから得られる分類精度を利用し、所定の曖昧性分析条件変更ルールに基づき、各曖昧語について曖昧性を分析する条件を変更する曖昧性分析条件変更部と、 該変更した曖昧性の分析条件に基づき、各曖昧語の曖昧性を判定する曖昧性判定部と、 該曖昧性判定部で曖昧性が閾値以上と判定した各曖昧語について、対応する曖昧度および文書内での存在位置を曖昧性情報として出力する曖昧情報出力部と、 を備えたことを特徴とする文書分析システム。
IPC (1件):
G06F 17/27 ( 200 6.01)
FI (1件):
G06F 17/27 640
引用特許:
審査官引用 (5件)
全件表示
引用文献:
前のページに戻る