特許
J-GLOBAL ID:200903054982623276

日本語形態素解析装置及び日本語形態素解析方法

発明者:
出願人/特許権者:
代理人 (1件): 伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願平6-061527
公開番号(公開出願番号):特開平7-271792
出願日: 1994年03月30日
公開日(公表日): 1995年10月20日
要約:
【要約】【目的】 本発明の目的は、単語分割と品詞付与の組を、入力文が未知語を含む場合でも最も尤もらしい候補から順に任意の数だけ出力できるので、高い精度をもち、頑強でかつ柔軟なインタフェースを持つ日本語形態素解析装置及び日本語形態素解析方法を提供することである。【構成】 本発明は、統計的な言語モデルである品詞付けモデルに基づいて、多重マルコフ過程の縮退、前向き動的計画法、内路向きA* 探索を用いて、二回探索することにより、辞書に未登録の単語の形態素解析も含めて実現する。
請求項(抜粋):
与えれた日本語の入力文を形態素解析する装置であって、連続する3つの品詞の組において直前の2つの品詞が与えられた時の3つ目の品詞の確率である品詞三つ組確率と、品詞が与えられた時の単語の確率である品詞別単語出力確率から、文を構成する単語列と各単語に付与された品詞列の同時確率を与える品詞付けモデルと、単語に分割され、かつ、品詞が付与された文の集合から、品詞三つ組確率と品詞別単語出力確率を推定する品詞付けモデル推定手段と、該品詞三つ組確率を記憶する品詞三つ組確率テーブルと、該品詞別単語出力確率を記憶する品詞別単語出力確率テーブルと、文頭からある単語に至るまでの単語列と品詞列の同時確率の最大値を記憶する最適経路スコアテーブルと、該最適経路スコアテーブルに記憶されている該文頭からある単語に至るまでの単語列と品詞列の同時確率の最大値を、該単語を含む直前の2つの単語に付与された品詞の組が異なる場合毎に、該単語を含む直前の3つの単語に付与された品詞三つ組確率、該単語の品詞別単語出力確率、及び文頭からその単語の直前の単語に至るまでの単語列と品詞列の同時確率の最大値から求め、該最適経路スコアテーブルに記録する前向き探索手段と、単語列と品詞列の同時確率を最大化するような入力文の単語分割及び品詞付与の候補を、文末からある単語に至るまでの単語列と品詞列の同時確率の最大値、及び該最適経路スコアテーブルに記録された、文頭からその単語に至るまでの単語列と品詞列の同時確率の最大値から、最も尤もらしい候補から順番に任意の個数だけ求める後向き探索手段とを有し、該品詞三つ組確率と該品詞別単語出力確率から構成される該品詞付けモデルに基づいて、まず、該前向き探索手段を用いて、文頭からある単語までの単語列と品詞列の同時確率の最大値を該最適経路スコアテーブルに記憶し、該最適経路スコアテーブルの値に基づいて該後向き探索手段を用いて最も尤もらしい順番に任意の個数の形態素解析候補、即ち、単語列と品詞列の組を求めることを特徴とする日本語形態素解析装置。

前のページに戻る