分子生成のためのデータ効率の良いグラフ文法学習【JST・京大機械翻訳】

Guo Minghao; Thost Veronika; Li Beichen; Das Payel; Chen Jie; Matusik Wojciech

プレプリント

J-GLOBAL ID：202202211998297813 整理番号：22P0304681

分子生成のためのデータ効率の良いグラフ文法学習【JST・京大機械翻訳】

Data-Efficient Graph Grammar Learning for Molecular Generation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年03月15日プレプリントサーバーでの情報更新日： 2022年03月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

分子生成の問題は最近大きな注目を受けてきた。既存の方法は,通常,深いニューラルネットワークに基づいており,数十万のサンプルを有する大きなデータセットに関する訓練を必要とする。しかし,実際には,クラス特異的化学データセットのサイズは,労働集約的な実験とデータ収集のために,通常は制限される(例えば,サンプル数)。これは,分子設計空間を包括的に記述するための深層学習生成モデルに対するかなりの挑戦を示す。もう一つの主要な課題は物理的に合成可能な分子のみを生成することである。これは,関連する化学的知識が抽出され,限られた訓練データから一般化されるので,ニューラルネットワークベースの生成モデルにとって,自明でないタスクである。本研究では,共通ベンチマークよりも大きさが小さくなるデータセットから学習できるデータ効率の良い生成モデルを提案した。この方法の心臓では,一連の生産規則から分子を生成する学習可能なグラフ文法である。人間支援なしで,これらの生産規則を訓練データから自動的に構築した。さらに,追加の化学的知識を,さらなる文法最適化によってモデルに組み込むことができる。学習されたグラフ文法は,それぞれ, 20試料のみを含む3つの単量体データセットに対して高品質分子を生成する最先端の結果をもたらした。また,著者らのアプローチは,117の訓練サンプルだけによる挑戦的なポリマー生成タスクにおいて顕著な性能を達成し,81kのデータポイントを用いた既存の方法に対して競合する。コードはhttps://github.com/gmh14/data_efficient_grammarで利用可能である。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

, ,

前のページに戻る