常用细菌基因组生物信息分析软件

目录

进入二十一世纪以来,全基因组测序(whole-genome sequencing,WGS)技术的发展为微生物学和流行病学研究带来了革命性变化。同时,全基因组数据与计算生物学的结合也开创了基因组流行病学(genomic epidemiology)这一全新研究领域。作为获取基因组信息的途径和解答生物学问题的基础,生物信息学软件得到了人们的高度重视。每年都会有大量的优秀软件被开发出来,同时,既有软件的升级维护也推动了行业发展。在本文中,我概述面向微生物基因组的一些前沿且应用广泛的生物信息软件,并且会长期保持更新。对已经在生物信息学领域耳熟能详的那些经典软件(比如BLAST,BWA,Bowtie和PLINK等),本文不再赘述。

1. 全基因组序列比对

全基因组序列比对以及单核苷酸多态性识别(SNP calling)是演化树重建、基因组比较、传播路径分析(transmission analysis)等的基础。

  • RedDog:基于Linux下的SLURM任务调度系统,调用Bowtie或BWA,支持大批量基因组读段集(read sets)向同一个参考基因组的映射(mapping)。在运行于不同计算机前,用户可能需要修改RedDog_config.py中的程序模块名称和命令行以适应本地系统。
  • MEGA29:图形化比对核酸和蛋白质序列。不仅如此,MEGA是一个可以进行序列和演化树分析,以及图形化显示的综合软件。最新版本是MEGA X(2019年)。

2. 基因检测与基因型判定

在细菌基因组数据中检测目标基因(targeted gene identification)的软件包括:

  • SRST21:基于Python v2.7和Bowtie 2的通用基因检测与基因型(包括MLST)判定工具。若干参考数据库随软件发布。输入类型:单端(single-end)或双端(paired-end)读段(reads),不支持同时输入两种类型读段。我曾经写过一篇博文详细阐述SRST2的结果和输出格式。
  • ARIBA2:与SRST2类似,但工作过程更加复杂的软件。可用于检测抗药性基因与判定MLST基因型。该软件仅接受双端测序的读段。
  • ResFinder3:包括在线版本单机版本(支持Python与Perl),以及保持活跃维护的可移动抗药性基因数据库。同时,开发团队还提供了用于检测抗药性单核苷酸多态性的PointFinder(见ResFinder主页)。ResFinder可接受的输入数据包括读段和组装序列(包括完全组装序列complete assemblies与重叠群contigs)。

以下软件目前仅支持组装序列输入:

  • abricate:接受FASTA和GenBank格式的输入文件(包括GZIP或BZ2压缩包)。支持大批量基因组输入和多种参考序列数据库。有趣的是,尽管到目前为止,没有该软件的配套文章发表,但它获得了相当多的应用。
  • AMRFinderPlus4:在组装序列和蛋白质序列中寻找可移动抗药性基因与抗药性单点突变(point mutations)。接受FASTA与GFF格式的输入文件。
  • Kaptive17在线版本,[代码] (https://github.com/katholt/Kaptive)):利用荚膜(K抗原)与脂多糖(O抗原)参考数据库分析克雷伯氏菌属(Klebsiella)基因组中K、O抗原的类型、位点和序列。
  • Kleborate:借助参考数据库,分析肺炎克雷伯氏菌复合种群(Klebsiella pneumoniae species complex, KpSC)基因组的Python程序。该软件可以确定:
    • MLST位点基因型,
    • 分离株的物种,
    • 与ICEKp关联的致病性位点(ybtclb),
    • 与致病性质粒相关的位点(iroiucrmpA,以及rmpA2),
    • 抗药性决定因子(抗药性基因与抗药性突变),
    • 可能的K抗原与O抗原血清型(通过Kaptive预测)。
  • hicap18:在流感嗜血杆菌(Haemophilus influenzae)基因组中寻找已知多糖荚膜(polysaccharide capsule)合成位点(capsule biosynthesis locus,目前已知六种:从cap-acap-f,分别对应一种血清型)并预测血清型的Python软件。为样本基因组,该软件可以图形化输出重建的cap位点基因结构。

3. 基因组比较与基因结构可视化

  • genoPlotR5:R函数包,生成ACT(Artemis Comparison Tool)风格的线状基因组比对图(linear comparison figures)和基因结构(genetic structure)图。同时,可以显示基因注释。
  • EasyFig6:基于Python、具有图形用户界面、可以独立运行、显示线状基因组比对图和基因结构图的软件。
  • BRIG(BLAST环形图像生成器,BLAST Ring Image Generator)7:生成比较基因组学中常见的环形图。
  • CCT(GCView Comparison Tool)8:可以为大量基因组生成比对环形图。在图中可包括基因注释。
  • SOFIA9:R函数包,用环形图显示关于对同一基因组的多元数据。
  • gggenes代码):利用ggplot2绘制线状基因结构图的R函数包。

4. 可移动基因元件检测

以下工具均利用序列相似性在参考数据库中寻找目标可移动基因元件(mobile genetic elements,MGEs):

  • PHASTER10:在FASTA格式DNA序列中检测前噬菌体(prophage)的在线工具。它是PHAST11的升级版。
  • Prophage Hunter12:BGI推出的新一代前噬菌体在线检测工具。输入文件格式同PHASTER。该工具能够对前噬菌体的活性进行评分。
  • ISfinder13:在线检测FASTA格式DNA序列中的插入序列(insertion sequence,IS)和转座子(transposon,插入序列可以被视为最简单的转座子)——Tools|Blast功能。同时,用户可使用IS或转座子名称检索ISfinder数据库(Tools|Search功能)。
  • ISMapper14:独立Python程序。通过将双端读段(FASTQ格式,*.fastq.gz)映射到若干指定IS参考序列(FASTA格式),并且在若干参考细菌基因组(GenBank格式)中寻找IS参考序列,最终确定IS的存在情况与在参考基因组中的位置。
  • INTEGRALL15:整合子(integron)数据库与在线搜索工具。与ISfinder相似,可以按关键字查询整合子信息与检测FASTA格式DNA序列中的整合子(SEARCH/BLAST功能)。
  • IslandViewer16:一个预测细菌及古生菌(Archaea)基因组中基因组岛(genomic islands)的在线工具和数据库集合。当前为第四版本。IslandViewer网站为大批量基因组上传和检索基因组岛提供了HTTP API。同时,IslandViewer数据库收录了完整细菌及古生菌基因组中预测的致病因子(virulence factor)与抗药性基因。
  • PlasmidFinder24:在线工具,亦可以本地运行。识别已知质粒及其谱系(lineage)。目前该工具使用两个参考数据库,分别包括革兰氏阳性细菌以及肠杆菌科(Enterobacteriaceae)质粒复制子(replicon)的序列。该程序接受FASTQ格式读段集以及FASTA格式组装序列输入。
  • pMLST24:可在线或本地运行。识别质粒的多位点基因型(MLST)、双位点基因型(double-locus sequence typing,DLST)以及复制子基因型(replicon sequence typing,RST)。其参考序列数据来自PubMLSTBIGSdb数据库25, 26的成员)的pMLST数据库,涵盖IncA/C、IncF、IncHI1、IncHI2、IncI1,和IncN这六种不相容性(incompatibility)群。与PlasmidFinder相同,pMLST接受FASTQ格式读段集以及FASTA格式组装序列输入。

5. 序列组装与可视化

  • Unicycler19:调用并优化SPAdes20序列组装,支持长、短读段混合组装(hybrid assembly)21
  • Bandage22:显示组装图(assembly graphs)、搜索特定序列、以及编辑组装图等。可作为Unicycler的下游软件。
  • QUAST23:执行组装序列的质量检查。

6. 基因注释

  • Prokka27:通过命令行运行的原核生物基因组注释工具。因为该软件可轻松加入生物信息分析流程(pipeline)中,所以便于大批量基因组的注释。其生成的多种输出文件经过一定的整理,可以提交到NCBI GenBank和ENA数据库中。
  • BIGSdb(Bacterial Isolate Genome Sequence database,细菌分离株基因组序列数据库):采用细菌种群基因组学方法(bacterial population genomics approach)组织、整理并且注释细菌基因组的大型数据库和分析功能集合。目前,该集合由一个样本数据库(specimen database)和序列定义数据库(sequence definition database)组成25。BIGSdb不仅为PubMLST网站提供服务和数据,还为第三方程序的接入提供了API。此外,BIGSdb的源代码也可以下载到本地计算机上运行。

分析细菌基因组短读段数据的流程

图片1:在BIGSdb与PubMLST中实现的分析流程25

7. 系统演化树重建

7.1. 贝叶斯方法

  • MrBayes28:命令行环境下的交互式贝叶斯演化树重建工具。

参考文献

  1. Inouye, M., Dashnow, H., Raven, L.-A., Schultz, M., Pope, B., Tomita, T., … Holt, K. (2014). SRST2: Rapid genomic surveillance for public health and hospital microbiology labs. Genome Medicine, 6(11), 90. Retrieved from http://genomemedicine.com/content/6/11/90.
  2. Hunt, M., Mather, A. E., Sánchez-Busó, L., Page, A. J., Parkhill, J., Keane, J. A., & Harris, S. R. (2017). ARIBA: rapid antimicrobial resistance genotyping directly from sequencing reads. Microbial Genomics, 3(10). Retrieved from https://mgen.microbiologyresearch.org/content/journal/mgen/10.1099/mgen.0.000131.
  3. Zankari, E., Hasman, H., Cosentino, S., Vestergaard, M., Rasmussen, S., Lund, O., … Larsen, M. V. (2012). Identification of acquired antimicrobial resistance genes. J Antimicrob Chemother, 67(11), 2640–2644. https://doi.org/10.1093/jac/dks261.
  4. Feldgarden, M., Brover, V., Haft, D. H., Prasad, A. B., Slotta, D. J., Tolstoy, I., … Klimke, W. (2019). Validating the NCBI AMRFinder Tool and Resistance Gene Database Using Antimicrobial Resistance Genotype-Phenotype Correlations in a Collection of NARMS Isolates. Antimicrobial Agents and Chemotherapy, AAC.00483-19. https://doi.org/10.1128/AAC.00483-19.
  5. Guy, L., Kultima, J. R., & Andersson, S. G. E. (2010). genoPlotR: comparative gene and genome visualization in R. Bioinformatics (Oxford, England), 26(18), 2334–2335. https://doi.org/10.1093/bioinformatics/btq413.
  6. Sullivan, M. J., Petty, N. K., & Beatson, S. A. (2011). Easyfig: a genome comparison visualizer. Bioinformatics (Oxford, England), 27(7), 1009–1010. https://doi.org/10.1093/bioinformatics/btr039.
  7. Alikhan, N.-F., Petty, N. K., Ben Zakour, N. L., & Beatson, S. A. (2011). BLAST Ring Image Generator (BRIG): simple prokaryote genome comparisons. BMC Genomics, 12(1), 402. https://doi.org/10.1186/1471-2164-12-402.
  8. Grant, J. R., Arantes, A. S., & Stothard, P. (2012). Comparing thousands of circular genomes using the CGView Comparison Tool. BMC Genomics, 13(1), 202. https://doi.org/10.1186/1471-2164-13-202.
  9. Diaz-Garcia, L., Covarrubias-Pazaran, G., Schlautman, B., & Zalapa, J. (2017). SOFIA: An R Package for Enhancing Genetic Visualization With Circos. Journal of Heredity, 108(4), 443–448. https://doi.org/10.1093/jhered/esx023.
  10. Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., & Wishart, D. S. (2016). PHASTER: a better, faster version of the PHAST phage search tool. Nucleic Acids Research, 44(W1), W16–W21. Retrieved from http://dx.doi.org/10.1093/nar/gkw387.
  11. Zhou, Y., Liang, Y., Lynch, K. H., Dennis, J. J., & Wishart, D. S. (2011). PHAST: A Fast Phage Search Tool. Nucleic Acids Research. https://doi.org/10.1093/nar/gkr485.
  12. Song, W., Sun, H.-X., Zhang, C., Cheng, L., Peng, Y., Deng, Z., … Xiao, M. (2019). Prophage Hunter: an integrative hunting tool for active prophages. Nucleic Acids Research, 47(W1), W74–W80. https://doi.org/10.1093/nar/gkz380.
  13. Siguier, P., Perochon, J., Lestrade, L., Mahillon, J., & Chandler, M. (2006). ISfinder: the reference centre for bacterial insertion sequences. Nucleic Acids Research, 34. https://doi.org/10.1093/nar/gkj014.
  14. Hawkey, J., Hamidian, M., Wick, R. R., Edwards, D. J., Billman-Jacobe, H., Hall, R. M., & Holt, K. E. (2015). ISMapper: identifying transposase insertion sites in bacterial genomes from short read sequence data. BMC Genomics, 16(1), 1–11. https://doi.org/10.1186/s12864-015-1860-2.
  15. Moura, A., Correia, A., Pereira, C., Henriques, I., Soares, M., & Leitão, N. (2009). INTEGRALL: a database and search engine for integrons, integrases and gene cassettes. Bioinformatics, 25(8), 1096–1098. https://doi.org/10.1093/bioinformatics/btp105.
  16. Bertelli, C., Laird, M. R., Williams, K. P., Group, S. F. U. R. C., Lau, B. Y., Hoad, G., … Brinkman, F. S. L. (2017). IslandViewer 4: expanded prediction of genomic islands for larger-scale datasets. Nucleic Acids Research, 45(W1), W30–W35. https://doi.org/10.1093/nar/gkx343.
  17. Wick, R. R., Heinz, E., Holt, K. E., & Wyres, K. L. (2018). Kaptive Web: User-Friendly Capsule and Lipopolysaccharide Serotype Prediction for Klebsiella Genomes. Journal of Clinical Microbiology, 56(6), e00197-18. https://doi.org/10.1128/JCM.00197-18.
  18. Watts, S. C., & Holt, K. E. (2019). hicap: In Silico Serotyping of the Haemophilus influenzae Capsule Locus. Journal of Clinical Microbiology, 57(6). https://doi.org/10.1128/JCM.00190-19.
  19. Wick, R. R., Judd, L. M., Gorrie, C. L., & Holt, K. E. (2017). Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads. PLOS Computational Biology, 13(6), e1005595. Retrieved from https://doi.org/10.1371/journal.pcbi.1005595.
  20. Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S., … Pevzner, P. A. (2012). SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. Journal Of Computational Biology: A Journal Of Computational Molecular Cell Biology, 19(5), 455–477. https://doi.org/10.1089/cmb.2012.0021.
  21. Wick, R. R., Judd, L. M., Gorrie, C. L., & Holt, K. E. (2017). Completing bacterial genome assemblies with multiplex MinION sequencing. Microbial Genomics, 3(10), e000132–e000132. https://doi.org/10.1099/mgen.0.000132.
  22. Wick, R. R., Schultz, M. B., Zobel, J., & Holt, K. E. (2015). Bandage: interactive visualization of de novo genome assemblies. Bioinformatics . https://doi.org/10.1093/bioinformatics/btv383.
  23. Gurevich, A., Saveliev, V., Vyahhi, N., & Tesler, G. (2013). QUAST: quality assessment tool for genome assemblies. Bioinformatics, 29(8), 1072–1075. https://doi.org/10.1093/bioinformatics/btt086.
  24. Carattoli, A., Zankari, E., García-Fernández, A., Voldby Larsen, M., Lund, O., Villa, L., … Hasman, H. (2014). In Silico Detection and Typing of Plasmids using PlasmidFinder and Plasmid Multilocus Sequence Typing. Antimicrobial Agents and Chemotherapy, 58(7), 3895–3903. https://doi.org/10.1128/aac.02412-14.
  25. Jolley, K. A., Bray, J. E., & Maiden, M. C. J. (2018). Open-access bacterial population genomics: BIGSdb software, the PubMLST.org website and their applications. Wellcome Open Research, 3, 124. https://doi.org/10.12688/wellcomeopenres.14826.1.
  26. Jolley, K. A., & Maiden, M. C. J. (2010). BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics, 11(1), 1–11. https://doi.org/10.1186/1471-2105-11-595.
  27. Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics, 30(14), 2068–2069. https://doi.org/10.1093/bioinformatics/btu153.
  28. Huelsenbeck, J. P., & Ronquist, F. (2001). MRBAYES: Bayesian inference of phylogenetic trees . Bioinformatics, 17(8), 754–755. https://doi.org/10.1093/bioinformatics/17.8.754.
  29. Kumar, S., Stecher, G., Li, M., Knyaz, C., & Tamura, K. (2018). MEGA X: Molecular Evolutionary Genetics Analysis across Computing Platforms. Molecular Biology and Evolution, 35(6), 1547–1549. https://doi.org/10.1093/molbev/msy096.