プレプリント
J-GLOBAL ID:202202220315256881   整理番号:22P0318979

イサーピペリン:MMseqs2とPSI-BLASTの組合せは広範な蛋白質配列アラインメントプロファイルを迅速に生成する【JST・京大機械翻訳】

IsarPipeline: Combining MMseqs2 and PSI-BLAST to Quickly Generate Extensive Protein Sequence Alignment Profiles
著者 (1件):
資料名:
発行年: 2022年03月23日  プレプリントサーバーでの情報更新日: 2022年03月23日
JST資料番号: O7001B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
バイオインフォマティクスとコンピュータ生物学の分野で使われる多くの機械学習(ML)モデルは,PSI-BLASTにより生成されるように,多重配列アラインメント(MSAs)または結果として生じる位置特異的スコアリングマトリックス(PSSM)にまとめられた進化情報に依存する。蛋白質構造と機能予測で使用される現在の手順は,計算的に網羅的で時間がかかる。主な課題は,バッチにおけるシーケンス(約220GB)の電流データベースを負荷するのに強制されるPSI-BLASTソフトウェアに依存し,クエリシーケンスに対する類似の配列アラインメントの探索である。これは中サイズ(450アミノ酸)クエリー蛋白質に対して約40-60分の平均実行時間をもたらす。この平均実行時間は,ソフトウェアを実行するのに使用されるハードウェアに厳密に依存する。バイオシーケンスデータプールが時間とともに指数関数的に増加するので,この問題はますます問題となり,従ってPSI-BLASTランタイムを上げている。顕著な解決策は,現在のプロセスを100倍にスピードアップする。十分なメモリを与えるMMseqs2法は,メモリにおける全体のデータベースを負荷し,特定の発見的方法を適用して,整列シーケンスの関連集合を検索する。しかし,この解は,所望のPSI-BLASTアラインメントとPSSMプロファイルデータフォーマットにおける最終出力を生成するために直接使用できない。本研究では,各ツールの実行時間性能を別々に解析した。さらに,MMseqs2とPSI-BLASTの両方を組み合わせたパイプラインを構築し,PSI-BLASTよりも2桁速いロバストで,最適化され,非常に高速のハイブリッドアラインメントツールを得た。それはC++に実装され,https://github.com/issararab/IsarPipelineでのMITライセンスの下で自由に利用可能である。このパイプラインの出力を2つの以前に構築した予測モデルで評価した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
分子・遺伝情報処理  ,  分子構造 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る