特許
J-GLOBAL ID:201003098628466153

文の対中の単語対応付装置及びそのコンピュータプログラム

発明者:
出願人/特許権者:
代理人 (1件): 清水 敏
公報種別:公開公報
出願番号(国際出願番号):特願2009-043828
公開番号(公開出願番号):特開2010-198438
出願日: 2009年02月26日
公開日(公表日): 2010年09月09日
要約:
【課題】扱われる言語の対に関わりなく、相当の再現率で高い精度を達成できる、文対応付済対訳コーパスの単語対応付けのための装置を提供する。【解決手段】単語対応付け装置70は、単語対応付対訳コーパス80と、素性セットを抽出し、文の対の各々における各単語対に対応付ラベルを割当てる素性抽出モジュール84と、素性セットと対応付ラベルとを用いて、CRF単語対応付モデル92の学習を行なうCRFモジュール90と、CRF単語対応付モデル92を用いて入力された文の対の単語を対応付ける対応付モジュール96と、を含む。素性抽出モジュール84は、ダイス係数、POSタグ、語幹、Bi-dic尺度、又は単語対の相対的な文の位置、又はこれら素性のいずれかの組合せを含む、ユニグラム素性を計算する。素性セットはさらに、文脈素性又はマルチグラム素性を含んでもよい。【選択図】 図2
請求項(抜粋):
第1の言語と第2の言語との入力文対において単語を対応付けるための装置であって、 前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部を含み、前記第1の対訳コーパスでは単語が対応付けられており、さらに 前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含み、前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示すものであり、さらに、 前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、 前記CRF単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、を含み、 前記抽出手段は 前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、単語対応付け装置。
IPC (2件):
G06F 17/28 ,  G06N 3/00
FI (2件):
G06F17/28 Z ,  G06N3/00 560J
Fターム (4件):
5B091AA03 ,  5B091BA02 ,  5B091CC05 ,  5B091EA01
引用文献:
前のページに戻る