特許
J-GLOBAL ID:200903035470466786

パターンセット生成システム及び記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 鈴木 正剛
公報種別:公開公報
出願番号(国際出願番号):特願平9-230092
公開番号(公開出願番号):特開平11-066242
出願日: 1997年08月26日
公開日(公表日): 1999年03月09日
要約:
【要約】【課題】 パターンマッチングにより名称を特定する際に、自動的に学習データを解析して使用するパターンセットを生成することができるようにする。【解決手段】 データ変換部11において、学習データを学習データ格納部12から取り込んで個々の形態素の品詞を解析し、名称タグ内で形態素毎にその品詞の種類が示された名称タグ付き形態素データに変換し、パターン候補作成部13により、学習データから形態素列の品詞の組み合わせを抽出し、この品詞の組み合わせをパターン候補としてパターン候補格納部14に登録する。さらに、パターン候補評価部15により、パターン候補に適合する形態素列を学習データから抽出し、その学習データ中に出現する形態素列の頻度とその名称である頻度を数えて評価値を求め、この評価値に基づいてパターン候補をパターンとしてパターン格納部16に登録することでパターンセットを作成する。
請求項(抜粋):
名称の種類、名詞の開始及び終了を表す名称タグがそれぞれ当該名称の前後に挿入された、正解データの集合である学習データを取り込んで形態素解析を行うことにより、前記学習データを、名称タグ内で形態素毎にその品詞の種類が示された名称タグ付き形態素データに変換するデータ変換手段と、このデータ変換手段により名称タグ付き形態素データに変換された学習データから前記名称タグに挟まれた形態素列の品詞の組み合わせを抽出し、この抽出された品詞の組み合わせをパターン候補とするパターン候補作成手段と、このパターン候補作成手段で作成されたパターン候補のそれぞれについて、当該パターン候補に適合する形態素列を前記名称タグ付き形態素データから抽出して、その前記名称タグ付き形態素データ中に出現する形態素列の頻度とそれが特定の属性をもつ名称である頻度とを数え、両頻度を基にして所定の評価値を求めることでパターンとしての確からしさを統計的に評価するパターン候補評価手段とを備え、前記パターン候補評価手段の評価結果に基づいて個々のパターン候補をパターンとして採択するかどうかを決定することを特徴とするパターンセット生成システム。
FI (2件):
G06K 9/72 C ,  G06K 9/72 E

前のページに戻る