特許
J-GLOBAL ID:200903025491816820

形態素解析装置

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-056115
公開番号(公開出願番号):特開平10-254874
出願日: 1997年03月11日
公開日(公表日): 1998年09月25日
要約:
【要約】【課題】 分かち書きされていない入力文に対して単語又は非単語の判断を行って単語毎に分割し、自動的に品詞を付与することができる形態素解析装置を提供する。【解決手段】 決定木学習装置10はそれぞれ二分木形式の木構造を有し、品詞付与のための品詞決定木と単語分割のための単語決定木とを生成する。単語分割及び品詞付与装置11は入力されるテキストデータに基づいて単語決定木を用いてそのリーフノードに付与された単語カテゴリーの頻度確率の中で上位複数個の頻度確率を選択して各単語候補に対して付与し、テキストデータに基づいて品詞決定木を用いてそのリーフノードに付与された品詞カテゴリーの頻度確率の中で上位複数個の頻度確率を選択して各単語候補に対して付与し、テキストデータの単語列において最大の結合確率を有する単語分割された単語と品詞の組み合わせの列を、正解の列として決定して出力する。
請求項(抜粋):
単語列からなる品詞付与済みテキストデータに基づいて、各単語の綴りの特徴と、文章内の使われ方による特徴と、単語の相互情報量を用いた階層的な分類とを含む複数の属性を用いて、上記各属性の属性値に依存して分割されるような二分木形式の木構造を有し品詞付与のための第1の決定木を生成し、上記生成された第1の決定木の分割されないノードであるリーフノードに対して複数の品詞に対する頻度確率を計算して付与することにより、品詞カテゴリーの頻度確率付き第1の決定木を生成する第1の決定木学習手段と、上記テキストデータに基づいて、各単語の綴りの特徴と、後続する文字の特徴と、前につながる品詞の特徴と、単語の相互情報量を用いた階層的な分類とを含む複数の属性を用いて、上記各属性の属性値に依存して分割されるような二分木形式の木構造を有し単語分割のための第2の決定木を生成し、上記生成された第2の決定木の分割されないノードであるリーフノードに対して単語及び非単語に対する頻度確率を計算して付与することにより、単語カテゴリーの頻度確率付き第2の決定木を生成する第2の決定木学習手段と、入力される単語列からなるテキストデータに基づいて、上記第2の決定木学習手段によって生成された単語カテゴリーの頻度確率付き第2の決定木を用いて、上記第2の決定木のリーフノードに付与された単語カテゴリーの頻度確率の中で上位複数n個の頻度確率を選択して上記テキストデータの各単語候補に対して付与するとともに、上記入力される単語列からなるテキストデータに基づいて、上記第1の決定木学習手段によって生成された品詞カテゴリーの頻度確率付き第1の決定木を用いて、上記第1の決定木のリーフノードに付与された品詞カテゴリーの頻度確率の中で上位複数n個の頻度確率を選択して上記テキストデータの各単語候補に対して付与し、上記テキストデータの単語列において最大の結合確率を有する単語分割された単語と品詞の組み合わせの列を、正解の単語分割された単語と品詞の組み合わせの列として決定して出力する単語分割及び品詞付与手段とを備えたことを特徴とする形態素解析装置。

前のページに戻る