特許
J-GLOBAL ID:200903079528255010

言語を特定する方法およびシステム

発明者:
出願人/特許権者:
代理人 (1件): 坂口 博 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-259483
公開番号(公開出願番号):特開平10-124513
出願日: 1997年09月25日
公開日(公表日): 1998年05月15日
要約:
【要約】【課題】 文書が書かれている言語を複数の候補言語の各々におけるもっとも頻繁に使用される語のセットを使用することによって特定する。【解決手段】 もっとも頻繁に使用される語の各セットは、もっとも頻繁に使用される語の各セットにおける文字対にしたがって、それぞれの候補言語に対するワード・テーブルのそれぞれのセットに記憶される。好ましい実施の形態において、各ワード・テーブルはN×Nビットのテーブルであり、各ビットは候補言語の1つにおけるもっとも頻繁に使用される語の1つの特定の場所での所与の文字対を表している。文書からの語をワード・テーブルに記憶されているもっとも頻繁に使用されている語と比較する。文書からの語と、ワード・テーブルの各個別のセットに記憶されている語との間のマッチの数のカウントが、各個別の言語に対して維持される。文書の言語はマッチ数がもっとも大きいそれぞれの候補言語である。
請求項(抜粋):
複数の候補言語の各々においてもっとも頻繁に使用される語のセットを選択するステップと、もっとも頻繁に使用される語の各セットをもっとも頻繁に使用される語の各セットにおける文字対にしたがって、それぞれの候補言語に対するワード・テーブルのそれぞれのセットに記憶するステップと、文書からの語を前記ワード・テーブルに記憶されているもっとも頻繁に使用される語と比較するステップと、文書からの語と前記ワード・テーブルの各個別のセットに記憶されている語との間のマッチの数をカウントするステップと、文書の言語をマッチ数がもっとも大きいそれぞれの候補言語として特定するステップとを備えている文書が書かれている言語を特定する方法。

前のページに戻る