スーパーコンピュータTSUBAME3.0におけるAlphaFoldのデータベースの保存方法の変更とHHblitsの最適化による性能向上

藤田隼斗; 野村哲弘; 遠藤敏夫; 遠藤敏夫; 関嶋政和

文献

J-GLOBAL ID：202302276758993401 整理番号：23A2026011

スーパーコンピュータTSUBAME3.0におけるAlphaFoldのデータベースの保存方法の変更とHHblitsの最適化による性能向上

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=23A2026011&COPY=1") }}
このテーマを更に深掘りする（JDreamⅢへ） {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=23A2026011&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (5件)： , , , ,
資料名：
巻： 2023 号： MPS-144 ページ： Vol.2023-MPS-144,No.3,1-8 (WEB ONLY) 発行年： 2023年07月17日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

タンパク質は生命活動に不可欠な生体高分子である.私たちの体内における活動の多くはタンパク質によって担われており,タンパク質の立体構造はその役割に深く関係している.そのため,タンパク質の立体構造の理解はタンパク質の機能の理解に役立ち,人体の働きを理解する基礎となる.ただし既知のタンパク質のアミノ酸配列に対して,実験的に立体構造が決定されているタンパク質は多いとは言えない.これらのギャップを埋めるために計算機によるアプローチが必要であり,そのアプローチの1つとして開発されたのがAlphaFoldである.AlphaFoldは一定の相同性を持つ複数のアミノ酸配列をなるべく一致するように並べたマルチシーケンスアラインメント(MSA)を活用し,タンパク質の立体構造に関する知識を深層学習アルゴリズムの設計に取り入れた機械学習アプローチである.第14回タンパク質構造予測精密評価(CASP14)にて他の手法を大きく上回る結果を残した.AlphaFoldはhhblits等の既存のツールを使い,BFDなどの巨大な遺伝子データベースからMSAを取得している.しかし,そのうちの1つのhhblitsの実行に多大な時間がかかるという問題がある.この実行時間の一番の要因はI/Oにあり,遺伝子データベースをどういったストレージに保管するかによって実行時間が大きく異なってくる.実際にTSUBAME3.0の高速ストレージ領域にデフォルトの設定で保管した場合とStripe設定をして保管した場合とで実行時間が大きく異なっている.そこで,本研究ではTSUBAME3.0上で選択できる遺伝子データベースの保管方法を何通りか試し,実行時間を計測した.さらに,ボトルネックとなっているhhblitsに対してプロファイリングを行い,その結果から並列化数のチューニングやデータベースの保存方法の変更,ソートの最適化を行った.また,AlphaFoldのMSA取得ツール間のデータ依存関係からツール実行を非同期に行うようにした.その結果,TSUBAME3.0上で単一のアミノ酸配列から立体構造を予測する際の実行時間を平均して2分の1に短縮することに成功した.(著者抄録)

, , , , , , , , ,

ディジタル計算機方式一般 , データベースシステム

引用文献 (38件)：

wwPDB Consortium. Protein Data Bank: the single global archive for 3D macromolecular structure data. Nucleic Acids Res. 47, D520-D528 (2018).
Mitchell, A. L. et al. MGnify: the microbiome analysis resource in 2020. Nucleic Acids Res. 48, D570-D578 (2020).
Steinegger, M., Mirdita, M. & Söding, J. Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold. Nat. Methods 16, 603-606 (2019).
Thompson, M. C., Yeates, T. O. & Rodriguez, J. A. Advances in methods for atomic resolution macromolecular structure determination. F1000Res. 9, 667 (2020).
Bai, X.-C., McMullan, G. & Scheres, S. H. W. How cryo-EM is revolutionizing structural biology. Trends Biochem. Sci. 40, 49-57 (2015).

, , , ,

前のページに戻る