特許
J-GLOBAL ID:201103010872235700

形態素解析装置

発明者:
出願人/特許権者:
代理人 (1件): 入戸野 巧 (外2名)
公報種別:特許公報
出願番号(国際出願番号):特願平11-221412
公開番号(公開出願番号):特開2001-051996
特許番号:特許第3369127号
出願日: 1999年08月04日
公開日(公表日): 2001年02月23日
請求項(抜粋):
【請求項1】 日本語の形態素解析を行う形態素解析装置であって、入力テキストの部分文字列と照合する単語を単語辞書から検索して単語候補として生成する単語辞書照合手段と、単語を構成する文字の種類及びその変化に基づいて単語タイプが定義された単語タイプ定義テーブルを参照して、単語タイプのいずれか任意の文字列を分類し、分類された単語タイプを判定する単語タイプ判定手段と、品詞別の単語タイプ出現頻度が定義されている単語タイプ頻度テーブルを参照して、品詞別に単語タイプ出現確率を求める単語タイプ確率確定手段と、単語品詞及び単語タイプ別の平均単語長が定義されている平均単語長テーブルを参照し、平均単語長をポワソン分布で近似することにより、品詞及び単語タイプ別に任意の長さの単語長確率を求める単語長確率推定手段と、品詞及び単語タイプ別の文字ngram頻度が定義されている文字ngram頻度を参照して、品詞及び単語タイプ及び単語長別に任意の文字列の単語表記確率を求める単語表記確率推定手段と、からなる未知語モデルと、前記未知語モデルの前記単語タイプ判定手段を用いて、前記単語辞書照合手段において、前記単語辞書と照合しない入力テキストの部分文字列から未知語である可能性があるものを未知語候補として選択する未知語候補同定手段と、前記未知語モデルの前記単語タイプ判定手段、単語長確率推定手段、単語表記確率推定手段を用いて未知語候補の品詞単語出現確率を推定する未知語候補確率推定手段と、前記単語辞書照合手段により求められた前記単語候補、及び、前記未知語候補照合手段により求められた前記未知語候補のすべての組み合わせについて、単語ngram頻度が定義されている単語ngram頻度テーブルを参照して求められた単語ngram確率及び、前記未知語候補確率推定手段により求められた前記品詞別単語出現確率を用いて同時確率が最大となる単語列を求める最適単語列探索手段とを有することを特徴とする形態素解析装置。
IPC (1件):
G06F 17/27
FI (1件):
G06F 17/27 E
引用特許:
出願人引用 (2件) 審査官引用 (2件)

前のページに戻る