特許
J-GLOBAL ID:201103004301546709

異表記取得装置、異表記取得方法、およびプログラム

発明者:
出願人/特許権者:
代理人 (1件): 谷川 英和
公報種別:公開公報
出願番号(国際出願番号):特願2009-299287
公開番号(公開出願番号):特開2011-138440
出願日: 2009年12月30日
公開日(公表日): 2011年07月14日
要約:
【課題】従来、十分な異表記抽出の精度が得られなかった。【解決手段】用語対の異なる文字である編集箇所の字種に関する素性である字種関連素性、用語辞書を用いて取得された素性である辞書関連素性、用語対を構成する2つの用語の類似度を示す素性である類似度素性のうちの一以上の素性を含む複数の素性と、用語対が異表記の用語対であるかを示す情報である正負情報とを対応付けた学習データを2以上格納し、編集距離が1以上の用語対ごとに、字種関連素性、辞書関連素性、類似度素性のうちの一以上を含む複数の素性を取得する素性取得部と、用語対に対して、2以上の学習データと取得された複数の素性とを用いて、教師あり機械学習法により、各用語対が異表記の用語対であるか否かを判断する機械学習部と、判断結果を出力する出力部とを具備する異表記取得装置により、精度の高い異表記の用語対抽出ができる。【選択図】図1
請求項(抜粋):
編集距離が1以上の用語対を1以上格納し得る用語対格納部と、 用語対の異なる文字である編集箇所の字種に関する素性である字種関連素性、用語辞書を用いて取得された素性である辞書関連素性、前記用語対を構成する2つの用語の類似度を示す素性である類似度素性のうちの一以上の素性を含む複数の素性と、前記用語対が異表記の用語対であるかを示す情報である正負情報とを対応付けた学習データを2以上格納し得る学習データ格納部と、 前記用語対格納部の用語対ごとに、字種関連素性、辞書関連素性、類似度素性のうちの一以上を含む複数の素性を取得する素性取得部と、 前記各用語対に対して、前記学習データ格納部の2以上の学習データと、前記素性取得部が取得した複数の素性とを用いて、教師あり機械学習法により、前記用語対格納部の各用語対が異表記の用語対であるか否かを判断する機械学習部と、 前記機械学習部における判断結果を出力する出力部とを具備する異表記取得装置。
IPC (2件):
G06F 17/27 ,  G06F 17/30
FI (3件):
G06F17/27 Z ,  G06F17/30 320D ,  G06F17/30 170A
Fターム (7件):
5B075ND03 ,  5B075QM08 ,  5B075UU01 ,  5B091AA15 ,  5B091AB17 ,  5B091CC01 ,  5B091CC16
引用特許:
審査官引用 (2件)
引用文献:
前のページに戻る