特許
J-GLOBAL ID:200903079542961857

機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム

発明者:
出願人/特許権者:
代理人 (3件): 澤田 俊夫 ,  宮田 正昭 ,  山田 英治
公報種別:公開公報
出願番号(国際出願番号):特願2003-320326
公開番号(公開出願番号):特開2005-092253
出願日: 2003年09月11日
公開日(公表日): 2005年04月07日
要約:
【課題】 ブートストラッピング手法の学習データ成長の過程において、評価予測が誤っているデータが学習データに組み込まれることを回避する。【解決手段】 各サブ学習データを用いて複数回、機械学習を実施し、得られた複数の学習結果に基づいてそれぞれ評価予測を行ない、評価予測の多数決をとるなどして総合的な評価予測を最終的に行なう。学習データ中には、各データの特徴(素性)とその評価の間の対応規則の一般化を阻害する不適格なデータが含まれる。バギングでは、学習データを複数のサブ学習データに分割し、不適格なデータを含まない学習データに基づく機械学習を行なう機会を得る。【選択図】 図1
請求項(抜粋):
非学習データ集合から機械学習用データを生成する機械学習用データ生成システムであって、 評価の付与された機械学習用データを初期データとして保持する初期データ保持手段と、 前記初期データから学習データを生成する学習データ生成手段と、 評価の付与されていない非学習データを保持する非学習データ保持手段と、 学習データを用いて機械学習を行なう機械学習手段と、 前記機械学習手段による学習結果を基に非学習データの評価予測を行ない、さらに予測された評価の確信度を出力する評価手段と、 評価の確信度が所定の条件を満たす非学習データを初期データ保持手段に追加する初期データ更新手段と、 を具備することを特徴とする機械学習用データ生成システム。
IPC (2件):
G06N5/04 ,  G06F17/27
FI (3件):
G06N5/04 550N ,  G06N5/04 580A ,  G06F17/27 Z
Fターム (5件):
5B091AA15 ,  5B091CC05 ,  5B091CC16 ,  5B091CD11 ,  5B091EA01
引用特許:
出願人引用 (1件)

前のページに戻る