バロッグ:原核生物遺伝子予測のための普遍的蛋白質モデル【JST・京大機械翻訳】

Sommer, M. J.; Salzberg, S. L.

プレプリント

J-GLOBAL ID：202202205035245958 整理番号：22P0247131

バロッグ:原核生物遺伝子予測のための普遍的蛋白質モデル【JST・京大機械翻訳】

Balrog: A universal protein model for prokaryotic gene prediction

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2020年09月08日プレプリントサーバーでの情報更新日： 2020年09月08日
JST資料番号： O7001B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

低コスト,ハイスループット配列決定は,今日,公共アーカイブにおける100,000以上のゲノムで,配列決定された微生物ゲノムの数の大きな増加をもたらした。自動ゲノムアノテーションツールは,これらの生物の理解に不可欠であるが,古い遺伝子発見法は,各新しいゲノムで再訓練する必要がある。微生物ゲノムの大規模で多様な集合からアミノ酸配列に一時的畳み込みネットワークを適合させることによる原核生物遺伝子の普遍的なモデルを開発した。ゲノム特異的訓練を必要とせず,他の最先端の遺伝子発見ツールを一致または凌駕する,遺伝子発見システム,Balrog(Leared Repentation of Genes of Leared Repentation of Genes)に新しいモデルを組み入れた。Balrogは,https://github.com/salzberg lab/BalrogでMITライセンスの下で自由に利用可能である。新たに配列決定された原核生物ゲノムにおける蛋白質コード遺伝子注釈は,それらの生物学的機能を記述する重要な部分である。真核生物ゲノムと比較して,原核生物ゲノムは小さく,構造的に単純であり,それらのDNAの90%は蛋白質コード遺伝子に典型的である。したがって,現在のコンピュータ遺伝子発見ツールは,種特異的遺伝子モデルを用いて既知の遺伝子に対して99%の感度に近い。既知遺伝子の発見に高感受性であるが,全ての現在の原核生物遺伝子発見は,GenBankおよび他の注釈データベースにおける「仮説蛋白質」として標識されている多数の付加的遺伝子も予測する。多くの仮説的遺伝子予測は真の蛋白質コード配列を表すと思われるが,それらの多くが偽陽性を表すことは知られていない。さらに,すべての現在の遺伝子発見ツールは,高感度を達成するために,予備的段階として各ゲノムに対して特に訓練されなければならない。この要求は,メタゲノムサンプルで通常見られる断片化配列における遺伝子を検出する能力を制限する。既に配列されたゲノムの大規模で多様な収集に依存する原核生物遺伝子発見に対するデータ駆動アプローチを行った。多くの異なる種からの蛋白質配列上の細菌遺伝子の単一で普遍的なモデルを訓練することによって,著者らは遺伝子予測の全体的な数を減らす間,現在の遺伝子発見者の感度に整合することができた。著者らのモデルは,どんな新しいゲノムにも適合しない。Balrog(GenesのLeared ReportationによるBacterial Annotation)は,原核生物遺伝子発見のための基本的に異なるが効果的な方法である。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

遺伝学研究法 , 分子・遺伝情報処理

, , , ,

前のページに戻る