特許
J-GLOBAL ID:200903000206511287

自然言語統計データベース装置

発明者:
出願人/特許権者:
代理人 (1件): 工藤 宣幸
公報種別:公開公報
出願番号(国際出願番号):特願平9-350651
公開番号(公開出願番号):特開平11-184866
出願日: 1997年12月19日
公開日(公表日): 1999年07月09日
要約:
【要約】【課題】 大量のテキストデータから精度の高いN-gramデータを効率良く抽出して格納する。【解決手段】 複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN-gramデータを作成するN-gramデータ処理手段と、作成されたN-gramデータを格納するN-gramデータ記憶手段とを有する自然言語統計データベース装置に関する。入力テキストファイルの先頭と末尾にN-1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN-1文字の特殊文字を付加してN-gramデータ処理手段に与える特殊文字付加手段を有する。
請求項(抜粋):
複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN-gramデータを作成するN-gramデータ処理手段と、作成されたN-gramデータを格納するN-gramデータ記憶手段とを有する自然言語統計データベース装置において、入力テキストファイルの先頭と末尾にN-1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN-1文字の特殊文字を付加して上記N-gramデータ処理手段に与える特殊文字付加手段を有することを特徴とする自然言語統計データベース装置。
IPC (4件):
G06F 17/30 ,  G06F 17/18 ,  G06F 17/28 ,  G06F 17/27
FI (5件):
G06F 15/40 370 A ,  G06F 15/36 Z ,  G06F 15/38 C ,  G06F 15/38 D ,  G06F 15/401 320 Z
引用特許:
出願人引用 (2件) 審査官引用 (1件)

前のページに戻る