単語統計を損失関数に取り入れた深層学習による多様な雑談対話生成

上山彩夏; 狩野芳伸

文献

J-GLOBAL ID：202202273372270202 整理番号：22A1071005

単語統計を損失関数に取り入れた深層学習による多様な雑談対話生成

Diverse Dialogue Generation by Deep Learning Methods Using Loss Function IncorporatingWord Statistics

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1071005&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1071005&from=J-GLOBAL&jstjournalNo=U0128A") }}

著者 (2件)： ,
資料名：
巻： 37 号： 2 ページ： G-L62_1-10(J-STAGE) 発行年： 2022年
JST資料番号： U0128A ISSN： 1346-8030 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,深層学習を用いて対話システムを構築する多くの研究があり,それはユーザ発話に対して比較的流暢な応答文を生成できる。それにもかかわらず,それらは多様ではなく,文脈依存性が少ない応答を生成する傾向がある。その問題は訓練データにおける不均衡を考慮せず,すべての単語を等しく処理するSoftmax Cross-Entropy(SCE)損失によって引き起こされると仮定して,トークンの頻度の逆数に基づく重みによってSCE損失を乗算する損失関数Inverse Token Frequency(ITF)損失を提案し,対話の多様性の向上を確認した。しかし,文の多様性では,独立したトークンの情報だけでなく,トークンの並びを取り入れた頻度も考慮する必要がある。文脈に応じて動的に変化する重みを計算するためにトークンの並びを取り入れた頻度を用いると,我々が求める多様性をよりよく表現することができる。したがって,トークンの頻度の代わりにトークンのnグラム頻度の逆数に基づいて重み付けされる損失関数,Inverse N-gram Frequency(INF)損失を提案した。INF損失に関する提案方法の有効性を確認するために,日本語と英語のTwitterデータセットで訓練されたモデルによって,自動的に生成された文の測定基準に基づく評価と人手評価を実施した。測定基準に基づく評価では,評価指数としてPerplexity,BLEU,DIST-N,ROUGE,及びlengthを用いた。人手評価では応答文の首尾一貫性と多様性を評価した。測定基準に基づく評価では,提案したINFモデルは以前の方法よりもPerplexity,DIST-N,及びROUGEにおいてより高いスコアを達成した。人手評価では,INFモデルが優れた値を示した。(翻訳著者抄録)

, , , , , ,
, , ,

著者キーワード (8件)： , , , , , , ,

人工知能 , 自然語処理 , 情報加工一般

引用文献 (39件)：

[Adiwardana 20] D. Adiwardana, M. T. Luong, D. R. So, J. Hall, N. Fiedel, R. Thoppilan, Z. Yang, A. Kulshreshtha, Z. Yang, Y. Lu, and Q. V. Le: Towards a Human-like Open-Domain Chat-bot, arXiv:2001.09977 (2020)
[Baheti 18] A. Baheti, A. Ritter, J. Li, and B. Dolan: Generating More Interesting Responses in Neural Conversation Models with Distributional Constraints, in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 3970-3980 (2018)
[Banchs 12] R. E. Banchs and H. Li: IRIS: a Chat-oriented Dialogue System based on the Vector Space Model, in Proceedings of the ACL 2012 System Demonstrations, pp. 37-42 (2012)
[Bowman 16] S. R. Bowman, L. Vilnis, O. Vinyals, A. M. Dai, R. Jozefowicz, and S. Bengio: Generating Sentences from a Continuous Space, in Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning, pp. 10-21 (2016)
[Cho 14] K. Cho, B. V. Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, pp. 1724-1734 (2014)

, , , , ,

前のページに戻る