Pat
J-GLOBAL ID:200903020667534883

言語識別処理方法

Inventor:
Applicant, Patent owner:
Agent (1): 合田 潔 (外2名)
Gazette classification:公開公報
Application number (International application number):1994323363
Publication number (International publication number):1995262188
Application date: Dec. 26, 1994
Publication date: Oct. 13, 1995
Summary:
【要約】 (修正有)【目的】 格納又は送信文書の言語又はジャンルの識別用処理。【構成】 対象言語/ジャンルの単語出現頻度テーブル(WFT)には、対象言語の一般的な単語が含まれ、WFT内の各単語コードは、関連の正規化出現頻度値(NFO)を有し、NFOの使用で言語/ジャンル検出能力が向上する。複数のWFTには複数のアキュムレータが関連付けられ、すべてのアキュムレータは、初期設定処理開始前にゼロに設定される。言語/ジャンル識別処理は、入力文書から一連の単語を受け取り、WFT内のすべての単語と比較し、その単語の関連NFOを関連アキュムレータ内の現行合計に加算する。文書の単語を読み取った後で、すべてのアキュムレータの合計が蓄積して言語識別値になる。文書の終わりに達するか、所定の数の単語を受け取ると、処理を停止し、最大合計を含むアキュムレータに関連する言語/ジャンルが、識別された言語になる。
Claim (excerpt):
コンピュータでコード化した文書のテキストからその文書で使用される言語またはジャンルを識別するための機械処理方法において、その文書から一連のコード化単語を読み取るステップと、読取りステップによって得られた各コード化単語を、対象言語にそれぞれ関連する複数の単語出現頻度テーブル(WFT)内の単語と比較するステップであって、各WFTがそれぞれの言語から統計処理された最も頻繁に使用される単語(以下、一般単語とも呼ばれる)を含み、WFT内の各単語が関連単語の出現頻度値を収容するための関連頻度フィールドを有するステップと、それぞれの言語の単語出現頻度アキュムレータ(WFA)を各WFTに関連付け、文書を読み取る前に各WFAを所定の値にリセットするステップと、読み取られた単語と一致する各一般単語に関連する頻度フィールドに格納されている出現頻度値を出力するステップと、一致が発生したWFTに関連するWFAに出力された出現頻度値を入力するステップと、累計量を生成するために、WFA内に含まれる現行合計に出現頻度値を加算するステップと、読取りステップが終了したときに、すべてのWFAのうちで最大累計量を有するWFAを検出するステップと、読取り中の文書の言語を、最大累計値を有すると検出されたWFAに関連する言語として識別するステップとを含む機械処理方法。
Patent cited by the Patent:
Cited by examiner (2)
  • 特開昭63-278174
  • 特開昭59-103171

Return to Previous Page