同期メッシュ:事前訓練言語モデルからの信頼できるコード生成【JST・京大機械翻訳】

Poesia Gabriel; Polozov Oleksandr; Le Vu; Tiwari Ashish; Soares Gustavo; Meek Christopher; Gulwani Sumit

プレプリント

J-GLOBAL ID：202202206474848517 整理番号：22P0280387

同期メッシュ:事前訓練言語モデルからの信頼できるコード生成【JST・京大機械翻訳】

Synchromesh: Reliable code generation from pre-trained language models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年01月26日プレプリントサーバーでの情報更新日： 2022年01月26日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

大規模事前訓練言語モデルを用い,自然言語仕様からプログラムを合成する柔軟なインタフェイスを提供するコードを生成した。しかし,それらはしばしばそれらの出力言語の構文的および意味的規則を破り,それらの実用的使用性を制限する。本論文では,符号生成のための事前訓練モデルの信頼性を大幅に改善するフレームワークを提案した。Synchromeshは2つの成分から成る。第1に,それは,セマンティック用例選択のための新しい方法である,ターゲット類似性調整(TST)を用いて,訓練バンクから少数ショット用例を検索した。TSTは,表面自然言語特徴の違いにもかかわらず,類似のターゲットプログラムを記述する発話を認識することを学習する。次に,Synchromeshは,事前訓練された言語モデルおよび制約付きセマンティック復号(CSD)を用いたサンプルプログラムに用例を送り,目標言語における有効なプログラムの集合に出力を制約するための一般的フレームワークである。CSDは部分出力の制約をサンプル完全正しいプログラムに利用し,言語モデルの再訓練も微調整も必要としない。3つの実世界言語(SQLクエリ,Vega-Lite可視化およびSMCalFlowプログラム)におけるGPT-3およびCodexを用いて,自然言語記述からコードを合成することにより,この方法を評価した。これらのドメインは,CSDが構文,範囲,タイピング規則,および文脈論理を含むことができるという豊富な制約を示す。予測精度におけるCSDとTSTからの実質的な相補的利得と実行時間誤差を効果的に防止する。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

自然語処理

, , , ,

前のページに戻る