特許
J-GLOBAL ID:201103042690354533

訳語選択辞書自動作成装置及び自動翻訳装置

発明者:
出願人/特許権者:
代理人 (1件): 吉田 精孝
公報種別:特許公報
出願番号(国際出願番号):特願平11-153441
公開番号(公開出願番号):特開2000-348031
特許番号:特許第3708753号
出願日: 1999年06月01日
公開日(公表日): 2000年12月15日
請求項(抜粋):
【請求項1】 任意の単語Wの用例を単語Wの用法に基づいて分類し、それぞれの分類に最も適合する単語Wの訳語を対応づけた訳語選択辞書を自動的に作成する装置において、 翻訳元言語の大量のテキストを蓄積している翻訳元言語コーパスから単語Wと一致する単語を全て検出し、その前後のn単語からなる文字列である用例を作業用メモリに書き込み、用例中の単語をベクトルで表し、1つの用例をその用例に含まれる単語に対するベクトルの荷重和ベクトルで表し、任意の二つの用例間の距離を当該任意の二つの用例にそれぞれ対応する前記荷重和ベクトルのなす角のコサイン値で定義して、クラスタリングにより前記作業用メモリに書き込まれた用例を複数の部分集合に分割し、用例集合DBに書き込む用例集合生成部と、 前記部分集合を構成する全ての用例に含まれる各異なり単語に対して、その単語が当該部分集合を構成する用例中に出現する回数が多いほど且つその単語を含む用例の個数が少ないほど高い値となるように定義付けたスコアを計算し、スコアの大きいものからm個の単語をその部分集合を特徴付ける単語の集合として抽出し、これを前記用例集合DBに書き込まれた各部分集合に対して実行する特徴語抽出部と、 用例集合生成部で得られた各部分集合に対して、特徴語抽出部によって抽出されたm個の特徴単語を1〜m番目の要素とし、辞書作成対象単語Wをm+1番目の要素とした入力単語リストを生成し、各入力単語リストについて構成する各単語の訳語を対訳辞書から取得し、構成する各単語の訳語の組み合わせの数の訳語リストを作成し、訳語リスト内の各単語について翻訳先言語の大量のテキストを蓄積している翻訳先言語コーパスを用いて単語のベクトルを求め、訳語リスト内の単語の平均ベクトルを求め、各単語ベクトルと平均ベクトルとのコサイン値の平均を各訳語リストの関連性の値として求め、関連性が最大の訳語リストを選択し、該訳語リスト中の最後の単語を各部分集合の単語Wの訳語として出力する単語リスト翻訳部とを備えた ことを特徴とする訳語選択辞書自動作成装置。
IPC (2件):
G06F 17/28 ,  G06F 17/30
FI (3件):
G06F 17/28 U ,  G06F 17/30 170 J ,  G06F 17/30 210 D
引用特許:
出願人引用 (1件)
  • 特開平4-160473

前のページに戻る