特許
J-GLOBAL ID:200903075765927507

トレーニングデータから導かれる確率的なレコードリンクモデル

発明者:
出願人/特許権者:
代理人 (1件): 片山 修平
公報種別:公表公報
出願番号(国際出願番号):特願2001-525578
公開番号(公開出願番号):特表2003-519828
出願日: 2000年09月20日
公開日(公表日): 2003年06月24日
要約:
【要約】用例からシステムをトレーニングする方法は、データベースのレコードのような二つのデータ項目をマッチまたはリンクさせるべきかどうか指示する異なった手がかりに最適な重みを見つけることによって、高い精度を達成する。トレーニングされたシステムは二つのデータ項目が現れたとき、yes、no、またはI don’t know(人間の判断を要求)の三つの起こりうる出力を提供する。最大エントロピーモデルは二つのレコードを一致またはリンクさせるべきかどうか決定するのに使われる。トレーニングされた最小エントロピーモデルを利用して、高い確率はそのペアをリンクさせることを指示して、低い確率はそのペアをリンクさせないことを指示して、中間の確率は一般に人間の見直しのために保留される。
請求項(抜粋):
少なくとも一人の人間によって、レコードのペアがリンクされるべきとするその人間の確信の程度による決定でマークされたレコードのペアのコーパスで、何らかの機械学習法を使って前記モデルをトレーニングすることで予測モデルを構築することを含んだ、少なくとも一つのデータベース内のレコードをリンクする方法。
IPC (2件):
G06F 17/30 240 ,  G06F 17/30 419
FI (2件):
G06F 17/30 240 Z ,  G06F 17/30 419 B
Fターム (2件):
5B075ND36 ,  5B075NR14

前のページに戻る