抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
バイオインフォマティクスとコンピュータ生物学の分野で使われる多くの機械学習(ML)モデルは,PSI-BLASTにより生成されるように,多重配列アラインメント(MSAs)または結果として生じる位置特異的スコアリングマトリックス(PSSM)にまとめられた進化情報に依存する。蛋白質構造と機能予測で使用される現在の手順は,計算的に網羅的で時間がかかる。主な課題は,バッチにおけるシーケンス(約220GB)の電流データベースを負荷するのに強制されるPSI-BLASTソフトウェアに依存し,クエリシーケンスに対する類似の配列アラインメントの探索である。これは中サイズ(450アミノ酸)クエリー蛋白質に対して約40-60分の平均実行時間をもたらす。この平均実行時間は,ソフトウェアを実行するのに使用されるハードウェアに厳密に依存する。バイオシーケンスデータプールが時間とともに指数関数的に増加するので,この問題はますます問題となり,従ってPSI-BLASTランタイムを上げている。顕著な解決策は,現在のプロセスを100倍にスピードアップする。十分なメモリを与えるMMseqs2法は,メモリにおける全体のデータベースを負荷し,特定の発見的方法を適用して,整列シーケンスの関連集合を検索する。しかし,この解は,所望のPSI-BLASTアラインメントとPSSMプロファイルデータフォーマットにおける最終出力を生成するために直接使用できない。本研究では,各ツールの実行時間性能を別々に解析した。さらに,MMseqs2とPSI-BLASTの両方を組み合わせたパイプラインを構築し,PSI-BLASTよりも2桁速いロバストで,最適化され,非常に高速のハイブリッドアラインメントツールを得た。それはC++に実装され,https://github.com/issararab/IsarPipelineでのMITライセンスの下で自由に利用可能である。このパイプラインの出力を2つの以前に構築した予測モデルで評価した。【JST・京大機械翻訳】