超大规模的微生物序列比速度是多年来困扰感染病学科与微生物学科发展的主要技术瓶颈之一。2025年9月10日,重庆医科大学附属第二医院感染病学科沈伟副研究员与欧洲生物信息研究所(EMBL-EBI)Zamin Iqbal教授合作,在国际权威期刊Nature Biotechnology(IF=41.7)在线发表了题为“Efficient sequence alignment against millions of prokaryotic genomes with LexicMap”的原创性研究论文。
\n论文首页截图/图源 重医附二院
\n如同使用搜索引擎在互联网上查找网页一样,生物学家也常常需要在已有测序数据中搜索感兴趣的生物序列,例如公共卫生专家需要在全球测序数据中搜索携带特定抗生素耐药基因的质粒。然而,由于进化和突变的存在,查询序列和目标序列往往存在差异,从而需要复杂的计算——这个过程称为“序列比对”(Sequence Alignment)。
\n微生物广泛存在于自然界及动植物体内,与环境和人类健康密切相关。尽管单个微生物的基因组较小,但其物种数量庞大且突变速度快,因此呈现出极高的多样性。近年来,全球微生物序列数据持续、快速增长,例如GenBank数据库中已收录超过200万个细菌和古菌基因组(总计超过10万亿碱基),其规模远超现有序列比对软件的计算能力。BLAST是自上世纪90年代起流行至今的经典序列比对软件。然而,即使在云计算的强大计算资源加持下,NCBI网站上的在线BLAST能够比对的细菌基因组比例仍在逐年呈指数级下降,已难以满足多样化的生物医学研究需求。
\n在本研究中,作者开发了一个全新的序列比对软件LexicMap,支持在百万规模原核(细菌与古菌)基因组中,对基因、质粒、长读长测序数据进行准确、快速、低内存的碱基水平序列比对。与现有方法(包括Blastn、Minimap2、MMseqs2、Ropebwt3)相比,LexicMap在保持相当准确性的同时,速度更快、内存占用更低、具有更高的可扩展性。例如,在包含234万个细菌与古菌的数据库中,比对1个基因并返回所有匹配结果仅耗时3到33分钟,内存消耗4到15 GB(使用48线程、数据库存放于机械硬盘中)。
\nLexicMap使研究人员能够在单机环境下,对全球所有已测序拼接的微生物基因组实现准确而快速的序列比对,这将为流行病学、生态学、进化生物学等领域的研究提供有力支持。
\n序列比对/搜索性能比较。/图源 重医附二院
\n多个序列比对/搜索工具分别在包含1、10、100、1千、1万、10万、100万个原核基因组的数据库中查询两条查询序列的时间和内存消耗。查询序列包含1个少见的基因和1个保守的16S rRNA基因。
\n重庆医科大学附属第二医院沈伟副研究员为该论文第一作者与共同通讯作者,欧洲生物信息研究所Zamin Iqbal教授为最后通讯作者;重医附二院为第一作者单位。该研究受到国家自然科学基金、国家留学基金委、EMBL Visitor/Sabbatical Programme fellowship、重医附二院登峰学科群联合项目和宽仁英才等项目的资助。
\n作者介绍
\n沈伟,理学博士,副研究员,硕士生导师(生物信息学),重庆生物信息学会常务理事,在重庆医科大学附属第二医院病毒性肝炎研究所工作。主要研究方向包括微生物基因组、宏基因组、大规模基因组数据检索等生物信息学算法设计与软件开发;主持国家自然科学基金面上项目等5项科研项目;以第一和/或通讯作者身份在Nature Biotechnology、iMeta、Bioinformatics等期刊发表SCI论文9篇,其中2篇影响因子大于30,单篇最高引用2800余次,H-index 21。(资讯)
\n原标题:重医附二院感染病学科沈伟团队在Nature Biotechnology杂志发表最新研究成果 支持百万规模细菌基因组的序列比对软件LexicMap
正规的股票场外配资平台,全国配资最好的公司,实盘配资门户提示:文章来自网络,不代表本站观点。