特許
J-GLOBAL ID:200903006790621291

分散型リアルタイム音声認識システム

発明者:
出願人/特許権者:
代理人 (1件): 野▲崎▼ 照夫
公報種別:公表公報
出願番号(国際出願番号):特願2001-537046
公開番号(公開出願番号):特表2003-517158
出願日: 2000年11月10日
公開日(公表日): 2003年05月20日
要約:
【要約】ユーザによって発声されたクエリーを認識するために音声認識及び言語学的処理を含み、クライアント(150)及びサーバ(180)に分散されたリアルシステム(100)が開示される。システム(100)は、クライアント(150)における音声形式のユーザのクエリーを受け、発声を示す音響御晴雨ベクトルの十分な数を抽出する最小の処理である。これらのベクトルは、通信チャンネル(160A)を介して追加の音響ベクトルが導き出されるサーバ(180)に送られる。ヒドンマルコフモデル(HMMs)とユーザによってなされた選択により条件の適当な文法と辞書を用いてユーザのクエリーを示す音声が、サーバ(180)において完全にテキスト(または他の適当な形式)に復号される。ユーザクエリーに対応するテキストは、最適化されたSQLステートメントが、ユーザのクエリーに最も一致する幾つかの格納された質問のレコードセットに関するデータベース(188)から全文検索を構築する自然語エンジン(190)とデータベースプロセッサ(186)に同時に送信される。自然語エンジン(190)におけるさらなる処理が、単一の格納された質問にサーチが所ぼり込まれる。単一の格納された質問に対応する回答は、次にファイルパスから検索され、圧縮形式でクライアント(150)に送信される。クライアント(150)において、ユーザのクエリーに対する回答は、彼又は彼女の自然語によりテキストー音声エンジン(159)を用いててユーザに対して発声される。システム(100)は、トレーニングを必要とせず、幾つかの自然語により動作する。
請求項(抜粋):
一乃至複数の単語を含む文を含む認識すべき発声音声を示す発声音声信号を受信する第一の可聴信号受信ルーチンと、 前記発声音声信号から、前記発声音声データ中の発声された単語の認識を可能とするために実質的に不十分なコンテントを持つ第一のデータによって特徴づけられる音声データ値を発生する第一の信号処理ルーチンと、 別のコンピュータシステムによって実行される第二の処理ルーチンに通信チャンネルを介して送信するのに適したフォーマットに音声データ値をフォーマットするフォーマットルーチンとによって構成され、 音声データ値に含まれた前記第一のデータを前記第二の処理ルーチンによって使用して前記第一のデータコンテントと組み合わせた時に前記別のコンピュータシステムにおいて前記発生音声において発生された単語の認識を完了するために十分な追加のデータコンテントを算出することを特徴とする分散音声クエリー認識を行うためのコンピュータシステムを補助する機械により実行可能なプログラム。
IPC (7件):
G10L 15/00 ,  G06F 3/16 320 ,  G06F 17/28 ,  G10L 13/00 ,  G10L 15/02 ,  G10L 15/22 ,  G10L 21/02
FI (7件):
G06F 3/16 320 H ,  G06F 17/28 V ,  G10L 3/00 551 A ,  G10L 9/10 301 A ,  G10L 3/00 E ,  G10L 3/00 571 T ,  G10L 3/02 301 G
Fターム (7件):
5B091CB12 ,  5B091CD03 ,  5D015CC11 ,  5D015KK02 ,  5D015KK04 ,  5D045AB01 ,  5D045AB26
引用特許:
審査官引用 (4件)
  • 分散音声認識システム
    公報種別:公表公報   出願番号:特願平7-517605   出願人:クゥアルコム・インコーポレーテッド
  • データ処理システム
    公報種別:公開公報   出願番号:特願平9-028409   出願人:日本ビクター株式会社
  • 音声ブラウザシステム
    公報種別:公開公報   出願番号:特願平10-048180   出願人:日本電信電話株式会社, エヌティティエレクトロニクス株式会社
全件表示

前のページに戻る