特許
J-GLOBAL ID:200903013404094610
中国語テレテキスト処理方法及び装置
発明者:
出願人/特許権者:
代理人 (1件):
青山 葆 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平10-302066
公開番号(公開出願番号):特開2000-132560
出願日: 1998年10月23日
公開日(公表日): 2000年05月12日
要約:
【要約】【課題】 ユーザがテレテキストの内容を素早く把握し、有益なインフォメーションの処理を促進する。【解決手段】 統計によれば、中国語テキストのおよそ88%はフレーズであり、これらのフレーズのうち、あるテキストにおける出現頻度のより高いものは、その内容に深く関わっている。他の12%の文字の大部分は、”的”や”和”のような接続詞である。もしこれらの文字を、文を分割するための分離基準として用いれば、テキストはそれぞれの文字列に分割される。これらの文字は、以下、第一参照文字と呼ばれる。もう一つ別の文字のカテゴリがある。それは、”当”や”時”のような文字で、テキストにおいて、あるときには独立して存在し、あるときには”時鐘”のようなフレーズを形成する。このカテゴリーの少数の文字が一緒になって、”当時’のように、一つのフレーズを形成する場合には、これらの文字は、キーフレーズというより、接続詞と考えられる。このカテゴリの文字は第二参照文字と呼ばれる。本発明は、フレーズ、それらの頻度、及びフレーズの長さに基づいて、キーフレーズを抽出する。
請求項(抜粋):
ユーザがテレテキストの本質的な意味を把握することを援助するためにテレテキスト中のキーフレーズを自動的に抽出する中国語テレテキスト処理方法であって、中国語テキスト中の隣接文字と結合して極めて希にしか一つのフレーズを形成しない複数個の中国語文字をメモリに格納し第一の参照リストを生成するステップ、ときには接続詞として使われ、またときには中国語テキスト中の一つの隣接文字と結合して一つのフレーズを形成する、複数個の中国語文字を、前記 メモリに格納し、第二の参照リストを生成するステップ、テレテキストを入力するステップ前記テレテキスト中の文を分割するため、特殊記号及び前記第一の参照リストに含まれる文字を分離基準として使用し、前記入力テレテキストをそれぞれの文字列に分割するステップ、統計的方法に従って前記文字列に計算を行って、2個以上の中国語文字を含む文字列を中国語フレーズとして抽出し、この中国語フレーズを中国語フレーズデータ領域に格納するステップ、前記第二参照リスト中の文字によって、前記中国語フレーズデータ領域に格納されている中国語フレーズをチェックし、前記中国語フレーズデータ領域から、意味を持つフレーズとしては不適当なフレーズを取り除くステップ、中国語フレーズの頻度を計算する統計式、及び前記中国語フレーズ領域に格納されている各フレーズの文字数と第二の参照文字数を用いて、このフレーズの密度値、すなわちこのフレーズが前記テレテキストに出現している回数を示す頻度を求めるステップ、相対的により高い密度値を持つ複数個のフレーズを、キーフレーズとして選択し、この選択したキーフレーズを表示するため出力するステップから成る方法。
IPC (6件):
G06F 17/30
, G06F 3/023
, H03M 11/04
, G06F 17/27
, G06F 17/21
, G06F 17/28
FI (7件):
G06F 15/401 320 A
, G06F 3/023 310 H
, G06F 15/20 550 A
, G06F 15/20 590 E
, G06F 15/20 592 J
, G06F 15/20 596 C
, G06F 15/38 Q
Fターム (32件):
5B009QA05
, 5B009QA12
, 5B009RB02
, 5B009VA02
, 5B009VA09
, 5B009VB11
, 5B009VC04
, 5B020AA20
, 5B020BB02
, 5B020GG22
, 5B075KK07
, 5B075KK33
, 5B075ND03
, 5B075ND23
, 5B075NK02
, 5B075NK13
, 5B075NK24
, 5B075NK32
, 5B075PP30
, 5B075PQ02
, 5B075PR04
, 5B075QM08
, 5B075UU05
, 5B075UU34
, 5B091AA04
, 5B091BA02
, 5B091BA12
, 5B091CA02
, 5B091CB27
, 5B091CD03
, 5B091DA04
, 5B091DA11
前のページに戻る