特許
J-GLOBAL ID:200903013607127174
教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム
発明者:
出願人/特許権者:
代理人 (1件):
重久 啓子
公報種別:公開公報
出願番号(国際出願番号):特願2004-103862
公開番号(公開出願番号):特開2005-292958
出願日: 2004年03月31日
公開日(公表日): 2005年10月20日
要約:
【課題】 言語解析処理で実行される機械学習の教師データを、コーパスの一部のみを用いて作成できるようにする。【解決手段】 タグ付与手段14は、コーパス入力手段11が入力したコーパス2のテキストデータ上でユーザが指定した箇所の前後に分類タグを挿入し、分類タグの付与箇所が含まれた教師データとして使用する範囲の前後に範囲指定タグを挿入し、コーパス記憶手段15に記憶する。ユーザ範囲抽出手段16は、タグが付与されたコーパスから範囲指定タグで囲まれたデータを抽出する。教師データ変換手段17は、抽出したデータを所定の単位に切り出し、分類タグに囲まれた単位に分類タグに対応する分類先を付与して教師データとする。【選択図】 図1
請求項(抜粋):
機械学習法を用いた所定の言語解析処理において使用する教師データをコーパスから作成する教師データ作成装置であって、
テキストデータで構成されるコーパスを入力するコーパス入力手段と、
前記コーパスのテキストデータにおいて、ユーザによって選択された文字列の前後に、所定の言語解析の結果となる言語情報の個々の分類先を示すタグであってマークアップ言語の形式で記述された分類タグを挿入する分類タグ付与手段と、
前記分類タグが挿入されたテキストデータにおいて、前記分類タグが挿入された箇所を含む所定の範囲の前後に、教師データとして使用する範囲を示すタグであってマークアップ言語の形式で記述された範囲指定タグを挿入する範囲指定タグ付与手段と、
前記分類タグおよび前記範囲指定タグが挿入されたテキストデータから、前記範囲指定タグに囲まれたデータをユーザ範囲データとして抽出するユーザ範囲抽出手段とを、備える
ことを特徴とする教師データ作成装置。
IPC (1件):
FI (1件):
Fターム (7件):
5B091AA15
, 5B091CA02
, 5B091CB05
, 5B091CC05
, 5B091CC16
, 5B091DA00
, 5B091EA01
引用特許:
前のページに戻る