Pat
J-GLOBAL ID:200903049885092440

文献を識別し、検索し、分類する方法

Inventor:
Applicant, Patent owner:
Agent (1): 大谷 幸太郎 (外1名)
Gazette classification:公開公報
Application number (International application number):1992301549
Publication number (International publication number):1994110948
Application date: Oct. 15, 1992
Publication date: Apr. 22, 1994
Summary:
【要約】【目的】 与えられた文献の記載言語を識別する方法を提供する。【構成】 既知言語の参照文献の文字をn個づつ、例えば2個づつに分解(これをn-グラムという)して、n-グラム列を作り、また未識別文献についても同じくn-グラムに分解する。各n-グラムに対し、ウェ-トを割当て、参照文献相互に含まれる共通性を示す要因、及び各未識別文献の共通性を示す要因を数値化し、n-グラムから共通性を除去する。未識別文献を既知言語の各参照文献と比較し、類似性の程度を示す点数を演算し、類似性の点数に基づいて、未識別言語が既知言語の何であるかを識別する。この方法は文献又は論題を識別し、検索し、又は分類する方法に適用できる。
Claim (excerpt):
次のステツプから成る、テキストの言語を決定する方法。(a)nが少くとも1の値をもち、各n-グラムがテキスト本体のn個の連続した文字/スペ-スの位置の内容から成る複数のn-グラムに上記テキスト本体を分解すること、(b)前記各n-グラムを、各n-グラムの組が異なる言語を表わす複数のn-グラムの組と比較すること、(c)特定のn-グラムの組に対するステツプ(b)の合致率が、そのn-グラムの組に対する所定値に少くとも等しく、かつ他のn-グラムの組に対するステツプ(b)の合致率よりも大きいとき、上記テキスト本体の言語を上記特定のn-グラムの組の言語で書かれたものとして識別すること。
IPC (2):
G06F 15/401 ,  G06F 15/40 500

Return to Previous Page