自動生成句パラフレーズの適切性の計測

FUJITA Atsushi; SATO Satoshi

文献

J-GLOBAL ID：201002260646402608 整理番号：10A0162629

自動生成句パラフレーズの適切性の計測

Measuring the Appropriateness of Automatically Generated Phrasal Paraphrases

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=10A0162629&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=10A0162629&from=J-GLOBAL&jstjournalNo=L3934A") }}

著者 (2件)： ,
資料名：
巻： 17 号： 1 ページ： 183-219 発行年： 2010年01月10日
JST資料番号： L3934A ISSN： 1340-7619 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：英語 (EN)

パラフレーズの生成および認識における最も重要な課題は広範囲のカバレッジを持つパラフレーズ知識ベースを開発することになる。表層レベルでは必ずしも表現するべきではないパラフレーズのカバレッジを実現するために,研究者達は,一般的変換パターンを用いてそれらを表現する試みを行ってきた。しかしながら,このアプローチではこれらパターンの各インスタンスがパラフレーズペアを表現するかどうかを評価するための実用的な手法がまったく存在しないため,偽りのパラフレーズを回避することができない。本論文では,特に述語句の形態-構文パラフレーズをターゲットとした,そのような自動生成パラフレーズの適切性の計測方法について論じた。ここではまず,表現ペアがパラフレーズとして認められる条件を満たさなければいけない基準の仕様記述を行った。この基準を基礎として,次に,それぞれ他のパラフレーズとして任意の表現ペアの適切性を定量化するためにいくつかの測度について検討した。既存測度に加えて,二つの異なるコンポーネントから構成される確率モデルについて検討した。この確率モデルの第一コンポーネントは自動生成表現の文法的正しさを定量的に表現する構造型N-gram言語モデルである。第二のコンポーネントでは,分散仮説に基づいて,任意の表現ペアの持つ意味的同値性および置換可能性の近似を行う。経験的実験を通して,ここでは,1)形態-構文パラフレーズの構成類似性と結合する形で,文脈類似性の有効性,2)述語句の特徴表現のためのWebの有能性,を見つけた。(翻訳著者抄録)

, , , , , , , , , , , ,
, , ,

自然語処理 , システム・制御理論一般

引用文献 (47件)：

BANNARD, C. Paraphrasing with bilingual parallel corpora. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL), 2005. 2005, 597-604
BARZILAY, R. Extracting paraphrases from a parallel corpus. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL), 2001. 2001, 50-57
BARZILAY, R. Learning to paraphrase : an unsupervised approach using multiple-sequence alignment. Proceedings of the 2003 Human Language Technology Conference and the North American Chapter of the Association for Computational Linguistics (HLT-NAACL). 2003, 16-23
BHAGAT, R. LEDIR : an unsupervised algorithm for learning directionality of inference rules. Proceedings of the 2007 Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). 2007, 161-170
DOLAN, B. Unsupervised construction of large paraphrase corpora : exploiting massively parallel news sources. Proceedings of the 20th International Conference on Computational Linguistics (COLING), 2004. 2004, 350-356

, , ,

前のページに戻る