Pat
J-GLOBAL ID:201003098628466153
文の対中の単語対応付装置及びそのコンピュータプログラム
Inventor:
,
Applicant, Patent owner:
Agent (1):
清水 敏
Gazette classification:公開公報
Application number (International application number):2009043828
Publication number (International publication number):2010198438
Application date: Feb. 26, 2009
Publication date: Sep. 09, 2010
Summary:
【課題】扱われる言語の対に関わりなく、相当の再現率で高い精度を達成できる、文対応付済対訳コーパスの単語対応付けのための装置を提供する。【解決手段】単語対応付け装置70は、単語対応付対訳コーパス80と、素性セットを抽出し、文の対の各々における各単語対に対応付ラベルを割当てる素性抽出モジュール84と、素性セットと対応付ラベルとを用いて、CRF単語対応付モデル92の学習を行なうCRFモジュール90と、CRF単語対応付モデル92を用いて入力された文の対の単語を対応付ける対応付モジュール96と、を含む。素性抽出モジュール84は、ダイス係数、POSタグ、語幹、Bi-dic尺度、又は単語対の相対的な文の位置、又はこれら素性のいずれかの組合せを含む、ユニグラム素性を計算する。素性セットはさらに、文脈素性又はマルチグラム素性を含んでもよい。【選択図】 図2
Claim (excerpt):
第1の言語と第2の言語との入力文対において単語を対応付けるための装置であって、
前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部を含み、前記第1の対訳コーパスでは単語が対応付けられており、さらに
前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含み、前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示すものであり、さらに、
前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、
前記CRF単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、を含み、
前記抽出手段は
前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、単語対応付け装置。
IPC (2):
FI (2):
G06F17/28 Z
, G06N3/00 560J
F-Term (4):
5B091AA03
, 5B091BA02
, 5B091CC05
, 5B091EA01
Article cited by the Patent:
Cited by examiner (5)
Show all
Return to Previous Page