特許
J-GLOBAL ID:200903049885092440

文献を識別し、検索し、分類する方法

発明者:
出願人/特許権者:
代理人 (1件): 大谷 幸太郎 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平4-301549
公開番号(公開出願番号):特開平6-110948
出願日: 1992年10月15日
公開日(公表日): 1994年04月22日
要約:
【要約】【目的】 与えられた文献の記載言語を識別する方法を提供する。【構成】 既知言語の参照文献の文字をn個づつ、例えば2個づつに分解(これをn-グラムという)して、n-グラム列を作り、また未識別文献についても同じくn-グラムに分解する。各n-グラムに対し、ウェ-トを割当て、参照文献相互に含まれる共通性を示す要因、及び各未識別文献の共通性を示す要因を数値化し、n-グラムから共通性を除去する。未識別文献を既知言語の各参照文献と比較し、類似性の程度を示す点数を演算し、類似性の点数に基づいて、未識別言語が既知言語の何であるかを識別する。この方法は文献又は論題を識別し、検索し、又は分類する方法に適用できる。
請求項(抜粋):
次のステツプから成る、テキストの言語を決定する方法。(a)nが少くとも1の値をもち、各n-グラムがテキスト本体のn個の連続した文字/スペ-スの位置の内容から成る複数のn-グラムに上記テキスト本体を分解すること、(b)前記各n-グラムを、各n-グラムの組が異なる言語を表わす複数のn-グラムの組と比較すること、(c)特定のn-グラムの組に対するステツプ(b)の合致率が、そのn-グラムの組に対する所定値に少くとも等しく、かつ他のn-グラムの組に対するステツプ(b)の合致率よりも大きいとき、上記テキスト本体の言語を上記特定のn-グラムの組の言語で書かれたものとして識別すること。
IPC (2件):
G06F 15/401 ,  G06F 15/40 500

前のページに戻る