特許
J-GLOBAL ID:200903064015953474

文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

発明者:
出願人/特許権者:
代理人 (3件): 澤田 俊夫 ,  宮田 正昭 ,  山田 英治
公報種別:公開公報
出願番号(国際出願番号):特願2007-135165
公開番号(公開出願番号):特開2008-293070
出願日: 2007年05月22日
公開日(公表日): 2008年12月04日
要約:
【課題】専門用語からの精度の高い用語(形態素)抽出を実現する。【解決手段】例えば医療分野などの専門分野における用語、例えば形態素としての用語抽出を行なう構成において、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行し、文書データベースの格納文書を検索し、抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成して、生成した用語テキストを解析対象として、第一用語抽出手段の抽出した用語候補の出現頻度に依存した評価を行い、出現頻度の高い用語候補を出力用語として選択する。本構成によりノイズ成分の少ない形態素として最適な専門用語の抽出を効率的に行なうことが可能となる。【選択図】図1
請求項(抜粋):
文書中の用語の抽出処理を実行する用語抽出手段であり、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出手段と、 文書データベースに格納された文書集合を検索し、前記第一用語抽出手段の抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成手段と、 前記用語再構成手段の生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出手段と、 を有することを特徴とする文書解析システム。
IPC (2件):
G06F 17/30 ,  G06F 17/28
FI (3件):
G06F17/30 210A ,  G06F17/30 340B ,  G06F17/28 U
Fターム (6件):
5B075ND03 ,  5B075NK32 ,  5B075PR04 ,  5B075UU26 ,  5B091AB08 ,  5B091CA02
引用特許:
出願人引用 (4件)
全件表示

前のページに戻る