Pat
J-GLOBAL ID:200903049095825014

サンプルテキスト基調言語自動識別方法

Inventor:
Applicant, Patent owner:
Agent (1): 中島 淳 (外1名)
Gazette classification:公開公報
Application number (International application number):1999350916
Publication number (International publication number):2000194696
Application date: Dec. 10, 1999
Publication date: Jul. 14, 2000
Summary:
【要約】【課題】 ショートワード及びN-グラム技法を用いる新たな自動言語識別方法を提供する。【解決手段】 テキストデータ10は基調言語を有するサンプルテキストを定義する。集合14は確率データ12により確率を示される自然言語の全体集合を表し、データ12がN-グラム確率データを含む言語の第1部分集合と、単語確率データを含む言語の第2部分集合を含む。各言語のN-グラム確率データは、該言語が基調言語である場合にテキストでのN-グラムの発生率を示し、単語確率データは同様に単語の発生率を示す。データ10及び12は、第1と第2の部分集合の重複部分である第3部分集合の言語のサンプル確率を示すサンプル確率データ20の自動取得に使用される。データ20は言語識別データ26の自動取得に使用され、データ26はデータ20が最高確率を示す第3部分集合内の言語を識別する。
Claim (excerpt):
サンプルテキストの基調言語である可能性の高い自然言語を自動的に識別する方法であって、(A)サンプルテキストを定義しているテキストデータと、複数の自然言語から成る集合の各言語のための確率データとを、前記集合の少なくとも2つの言語の各言語ごとに、前記サンプルテキストが前記言語で発生する確率を示しているサンプル確率データを自動的に取得するために使用するステップと、(B)言語に属するサンプル確率データが最も高い確率を示す言語を識別する言語識別データを自動的に取得するために前記サンプル確率データを使用するステップと、を含み、前記言語の1つ又は複数を含む第1の部分集合の各言語の前記確率データはN-グラム確率データを含み、前記言語の1つ又は複数を含む第2の部分集合の各言語の前記確率データは単語確率データを含み、前記第1の部分集合の各言語のための前記N-グラム確率データは、前記言語がテキストの基調言語である場合に、複数のN-グラムから成る集合の各N-グラムごとに、該N-グラムが前記テキスト内で発生する確率を示し、前記第2の部分集合の各言語のための前記単語確率データは、前記言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、該単語が前記テキスト内で発生する確率を示し、ここにおいて(A)は、(A1)前記言語の第3の部分集合の各言語のためのサンプル確率データを自動的に取得するステップ、を含み、前記第3の部分集合及び前記第1の部分集合に属する少なくとも1つの言語のために、前記サンプル確率データは前記言語のN-グラム確率データからの情報を含み、前記第3の部分集合及び前記第2の部分集合に属する少なくとも1つの言語のために、前記サンプル確率データは前記言語の単語確率データからの情報を含む、サンプルテキスト基調言語自動識別方法。
IPC (2):
G06F 17/27 ,  G06F 17/28
FI (2):
G06F 15/38 D ,  G06F 15/38 Z

Return to Previous Page