特許
J-GLOBAL ID:201403052722794325

対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム

発明者:
出願人/特許権者:
代理人 (1件): 清水 敏
公報種別:公開公報
出願番号(国際出願番号):特願2012-146970
公開番号(公開出願番号):特開2014-010634
出願日: 2012年06月29日
公開日(公表日): 2014年01月20日
要約:
【課題】辞書が小規模でも、自動的に高い精度でノンパラレルコーパスから翻訳対を抽出できる翻訳対抽出装置を提供する。【解決手段】翻訳対抽出装置160は、第1の言語の文書集合170及び第2の言語の文書集合172の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し単語間の直接的な関連性を、単語の共起頻度に基づいて計算し単語間の関連グラフを作成する関連グラフ作成部200と、単語の各々について、関連グラフ作成部200により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算して文脈ベクトルを生成するシード情報伝播部204と、第1の言語の単語及び第2の言語の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを対訳表現として選択する関連性類似度計算部180及び単語対抽出部182とを含む。【選択図】図3
請求項(抜粋):
第1の言語と第2の言語との対訳辞書を用い、前記第1の言語の文書集合及び前記第2の言語の文書集合から、前記第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置であって、 前記対訳辞書は、複数の翻訳対を含み、 当該複数の翻訳対の各々は、前記第1の言語の第1のシード単語と、前記第2の言語の第2のシード単語とを含み、 前記第1の言語の文書集合、及び、前記第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、 前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連性を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、 前記第1の単語集合及び前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、 前記第1の単語集合の単語及び前記第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、前記第1の言語と前記第2の言語との対訳表現として選択するための対訳表現選択手段とを含む、対訳表現抽出装置。
IPC (1件):
G06F 17/28
FI (1件):
G06F17/28 U
Fターム (6件):
5B091AA05 ,  5B091AA15 ,  5B091CA05 ,  5B091CA12 ,  5B091CA14 ,  5B091CC16
引用特許:
出願人引用 (1件) 審査官引用 (1件)
引用文献:
前のページに戻る