特許
J-GLOBAL ID:200903026383103473
日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
発明者:
出願人/特許権者:
代理人 (1件):
伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願平8-101496
公開番号(公開出願番号):特開平9-288673
出願日: 1996年04月23日
公開日(公表日): 1997年11月04日
要約:
【要約】【課題】 辞書に登録されていない単語が入力文に含まれている場合でも、確率が高い順番に入力文を構成する単語列を提示可能とし、訓練テキスト集合における単語仮説の頻度の期待値が大きい順番に任意の個数の単語仮説を辞書未登録語として提示可能とする。【解決手段】 本発明は、確率が高い順番に任意の個数の形態素解析候補を求め、1つの文に対する複数の形態素解析候補とその確率から単語の頻度の期待値を求め、入力文が辞書未登録語であっても、確率が高い順番に形態素解析候補が提示でき、提示された形態素候補をも用いて、かつ、処理対象となる日本語テキストにおける辞書未登録語を頻度の期待値が大きい順に提示する。
請求項(抜粋):
日本語の形態素解析を行う日本語形態素解析方法において、日本語文が入力されると、単語2つ組確率から文を構成する単語列の同時確率を与える単語分割モデルと、単語長確率と単語内文字二つ組確率から単語を構成する文字列の同時確率を与える単語モデルに基づいて、前記日本語文を構成する単語列の候補を、確率が高い順番に任意の個数求め、文を構成する単語列の候補を単語列の同時確率が高い順番に任意の個数提示することを特徴とする日本語形態素解析方法。
IPC (2件):
FI (2件):
G06F 15/38 E
, G06F 15/20 522 L
前のページに戻る