抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
タンパク質は生命活動に不可欠な生体高分子である.私たちの体内における活動の多くはタンパク質によって担われており,タンパク質の立体構造はその役割に深く関係している.そのため,タンパク質の立体構造の理解はタンパク質の機能の理解に役立ち,人体の働きを理解する基礎となる.ただし既知のタンパク質のアミノ酸配列に対して,実験的に立体構造が決定されているタンパク質は多いとは言えない.これらのギャップを埋めるために計算機によるアプローチが必要であり,そのアプローチの1つとして開発されたのがAlphaFoldである.AlphaFoldは一定の相同性を持つ複数のアミノ酸配列をなるべく一致するように並べたマルチシーケンスアラインメント(MSA)を活用し,タンパク質の立体構造に関する知識を深層学習アルゴリズムの設計に取り入れた機械学習アプローチである.第14回タンパク質構造予測精密評価(CASP14)にて他の手法を大きく上回る結果を残した.AlphaFoldはhhblits等の既存のツールを使い,BFDなどの巨大な遺伝子データベースからMSAを取得している.しかし,そのうちの1つのhhblitsの実行に多大な時間がかかるという問題がある.この実行時間の一番の要因はI/Oにあり,遺伝子データベースをどういったストレージに保管するかによって実行時間が大きく異なってくる.実際にTSUBAME3.0の高速ストレージ領域にデフォルトの設定で保管した場合とStripe設定をして保管した場合とで実行時間が大きく異なっている.そこで,本研究ではTSUBAME3.0上で選択できる遺伝子データベースの保管方法を何通りか試し,実行時間を計測した.さらに,ボトルネックとなっているhhblitsに対してプロファイリングを行い,その結果から並列化数のチューニングやデータベースの保存方法の変更,ソートの最適化を行った.また,AlphaFoldのMSA取得ツール間のデータ依存関係からツール実行を非同期に行うようにした.その結果,TSUBAME3.0上で単一のアミノ酸配列から立体構造を予測する際の実行時間を平均して2分の1に短縮することに成功した.(著者抄録)