特許
J-GLOBAL ID:200903083986632946

単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 大菅 義之 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-167243
公開番号(公開出願番号):特開平10-097286
出願日: 1997年06月24日
公開日(公表日): 1998年04月14日
要約:
【要約】【課題】 単語と連語とをまとめて自動的に分類する。【解決手段】 テキストデータにおいて出現する確率が所定値以上の単語クラス列にトークンを付与し、テキストデータの単語・トークン列に含まれる単語とトークンとが混在する集合を、テキストデータの単語・トークン列の生成確率が最大になるように分割し、トークンをテキストデータに存在する連語に置換する。
請求項(抜粋):
複数の単語の一次元列としてのテキストデータから、互いに異なるV個の単語を抽出し、前記V個の単語の集合をC個の単語クラスに分割した第1のクラスタリングを生成するステップと、前記第1のクラスタリングに基づいて生成された前記テキストデータの単語クラスの一次元列において、隣接する単語クラス間の粘着度が全て所定値以上の単語クラス列の集合を抽出するステップと、前記単語クラス列に固有のトークンを対応させ、前記単語クラス列に属する単語列を前記テキストデータから検索し、前記テキストデータの単語列を対応するトークンで置換することにより、前記テキストデータについての単語とトークンとの一次元列を生成するステップと、前記テキストデータについての単語とトークンとの一次元列において、互いに異なる単語と互いに異なるトークンとを抽出し、前記単語と前記トークンとが混在する集合を単語・トークンクラスに分割した第2のクラスタリングを生成するステップと、前記テキストデータに存在する単語列のうち、前記トークンに対応するものを連語として抽出し、前記単語・トークンクラスの中のトークンを前記連語で置換することにより、前記単語と前記連語とが混在する集合を単語・連語クラスに分割した第3のクラスタリングを生成するステップとを備えることを特徴とする単語・連語分類処理方法。
IPC (3件):
G10L 3/00 561 ,  G10L 3/00 521 ,  G06F 17/28
FI (3件):
G10L 3/00 561 G ,  G10L 3/00 521 C ,  G06F 15/38 Z
引用特許:
出願人引用 (5件)
全件表示
審査官引用 (5件)
全件表示
引用文献:
前のページに戻る