Pat
J-GLOBAL ID:200903026383103473

日本語形態素解析方法と装置及び辞書未登録語収集方法と装置

Inventor:
Applicant, Patent owner:
Agent (1): 伊東 忠彦
Gazette classification:公開公報
Application number (International application number):1996101496
Publication number (International publication number):1997288673
Application date: Apr. 23, 1996
Publication date: Nov. 04, 1997
Summary:
【要約】【課題】 辞書に登録されていない単語が入力文に含まれている場合でも、確率が高い順番に入力文を構成する単語列を提示可能とし、訓練テキスト集合における単語仮説の頻度の期待値が大きい順番に任意の個数の単語仮説を辞書未登録語として提示可能とする。【解決手段】 本発明は、確率が高い順番に任意の個数の形態素解析候補を求め、1つの文に対する複数の形態素解析候補とその確率から単語の頻度の期待値を求め、入力文が辞書未登録語であっても、確率が高い順番に形態素解析候補が提示でき、提示された形態素候補をも用いて、かつ、処理対象となる日本語テキストにおける辞書未登録語を頻度の期待値が大きい順に提示する。
Claim (excerpt):
日本語の形態素解析を行う日本語形態素解析方法において、日本語文が入力されると、単語2つ組確率から文を構成する単語列の同時確率を与える単語分割モデルと、単語長確率と単語内文字二つ組確率から単語を構成する文字列の同時確率を与える単語モデルに基づいて、前記日本語文を構成する単語列の候補を、確率が高い順番に任意の個数求め、文を構成する単語列の候補を単語列の同時確率が高い順番に任意の個数提示することを特徴とする日本語形態素解析方法。
IPC (2):
G06F 17/27 ,  G06F 17/22
FI (2):
G06F 15/38 E ,  G06F 15/20 522 L

Return to Previous Page