イサーピペリン:MMseqs2とPSI-BLASTの組合せは広範な蛋白質配列アラインメントプロファイルを迅速に生成する【JST・京大機械翻訳】

Arab, I.

プレプリント

J-GLOBAL ID：202202220315256881 整理番号：22P0318979

イサーピペリン:MMseqs2とPSI-BLASTの組合せは広範な蛋白質配列アラインメントプロファイルを迅速に生成する【JST・京大機械翻訳】

IsarPipeline: Combining MMseqs2 and PSI-BLAST to Quickly Generate Extensive Protein Sequence Alignment Profiles

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (1件)：
資料名：
発行年： 2022年03月23日プレプリントサーバーでの情報更新日： 2022年03月23日
JST資料番号： O7001B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

バイオインフォマティクスとコンピュータ生物学の分野で使われる多くの機械学習(ML)モデルは,PSI-BLASTにより生成されるように,多重配列アラインメント(MSAs)または結果として生じる位置特異的スコアリングマトリックス(PSSM)にまとめられた進化情報に依存する。蛋白質構造と機能予測で使用される現在の手順は,計算的に網羅的で時間がかかる。主な課題は,バッチにおけるシーケンス(約220GB)の電流データベースを負荷するのに強制されるPSI-BLASTソフトウェアに依存し,クエリシーケンスに対する類似の配列アラインメントの探索である。これは中サイズ(450アミノ酸)クエリー蛋白質に対して約40-60分の平均実行時間をもたらす。この平均実行時間は,ソフトウェアを実行するのに使用されるハードウェアに厳密に依存する。バイオシーケンスデータプールが時間とともに指数関数的に増加するので,この問題はますます問題となり,従ってPSI-BLASTランタイムを上げている。顕著な解決策は,現在のプロセスを100倍にスピードアップする。十分なメモリを与えるMMseqs2法は,メモリにおける全体のデータベースを負荷し,特定の発見的方法を適用して,整列シーケンスの関連集合を検索する。しかし,この解は,所望のPSI-BLASTアラインメントとPSSMプロファイルデータフォーマットにおける最終出力を生成するために直接使用できない。本研究では,各ツールの実行時間性能を別々に解析した。さらに,MMseqs2とPSI-BLASTの両方を組み合わせたパイプラインを構築し,PSI-BLASTよりも2桁速いロバストで,最適化され,非常に高速のハイブリッドアラインメントツールを得た。それはC++に実装され,https://github.com/issararab/IsarPipelineでのMITライセンスの下で自由に利用可能である。このパイプラインの出力を2つの以前に構築した予測モデルで評価した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

分子・遺伝情報処理 , 分子構造

, ,

前のページに戻る