文章资料-情感.机器.认知-电子AI 游客
PNAS》:游离DNA含有大量共生菌基因组
【7005】by1 2020-03-10 最后编辑2020-03-10 06:22:21 浏览667

2018-07-25 09:19

血液中的游离DNA中包含了来自周身各种组织细胞的基因组,理论上也会包含各类病毒和微生物的基因组。有人之前已经注意到,游离DNA的高通量测序数据中,会有1%左右的序列不能匹配到人类基因组。

斯坦福大学Stephen R. Quake团队分析了1351例样本的cf-DNA测序数据,提取其中的非人源序列,组装后发现其中只有很少一部分能匹配上已知的细菌基因组,大多数未 鉴定序列可能来自未知微生物。该研究发表在2017年PNAS期刊。

研究样本

1351份cfDNA的测序数据。

研究结果

1. 提取非人源DNA并进行组装和注释

通过与GRCh38比对,大约有0.45%的序列不能匹配到人基因组(下图A),提取非匹配序列进一步与微生物基因组(细菌、真菌、病毒和真核病原体)比对,约1%的能够匹配上(下图B)。

接下来,针对那些两次都不能匹配上序列,接下来进行了de novo组装(下图E)。得到3761个contigs,其中773 个已知(>80% BLAST coverage and >1 kbp),598个divergent(>1 kbp and neither known nor novel),其余均为新的contig(novel)。并且novel contigs长的远远大于已知的contig(下图C)

2. 证明Novel Contigs并非污染或人工拼接产物

由于游离DNA片段非常短,因此很难通过PCR的方法去证明contig真实存在。所以作者选择了一下三种方法间接证明:

1) 下载数据库中使用不同建库方法、在不同实验室操作的测序数据,与组装得到的contigs进行比对,证明这些novel contigs并不是来自建库污染。

2) 生物信息学方法评估组装质量

在组装过程中,只有很少一部分contigs是orphan contigs。且这些contig在后续质控中大多数已经被删掉。剩余的contigs有很充足的证据证明是可靠的。

3) 使用对照基因组测试pipeline

人为混合 8,068个细菌基因组序列,比对之后大多数的细菌基因组没有被删除,证明数据比对的pipeline比较准确地识别细菌基因组与人基因组。

4) 使用PCR验证短序列的存在

设计若干组novel contigs的短片段引物,扩增结果证明血浆中确实存在这些短片段。

3. 对novel contigs 进行分类学鉴定

为了对3,761个novel contigs进行分类学鉴定,首先进行了核糖体序列的鉴定,发现这些序列没有16S核糖体单元的序列。之后根据基因相似性进行分类,得到了所有contig最相近的分类地位(下图)。其中有一部分(黄色)contig无法分到任何的分类单元。

4. 人类微生态中含有大量未鉴定的新噬菌体和病毒

在上述能够找到分类地位的2,917个contig中,主要包含了噬菌体和torque teno viruses (TTVs)。其中一类是非感染人类的anelloviruses(下图绿色),另一类未鉴定的黄色的基因组只有35–48%与anelloviruses相似(下图)。

总结:该文主要通过cfDNA中的序列证明了人体中可能存在大量未被鉴定和微生物,这些微生物可能在我们平常的研究和数据分析时会被忽略。通过从cfDNA中提取这些未知微生物的基因组,希望能帮助鉴定更多的人体微生物。

参考文献:

Kowarsky, Mark, et al. "Numerous uncharacterized and highly divergent microbes which colonize humans are revealed by circulating cell-free DNA." Proceedings of the National Academy of Sciences 114.36 (2017): 9623-9628.

转自生信草堂公众号,已授权

文献请在公众号中获取~

生信草堂

浙大生信博士团队倾力打造的一个科研人员学习交流的公众微信平台。我们致力于科研社区服务,分享前沿的科技进展,提供生信分析方法,解读经典分析案例,公众数据库的挖掘和临床数据统计分析。在此我们欢迎各位的加入!