文章资料-情感.机器.认知-电子AI 游客
整天泡实验室已经out了,会写代码才是不被淘汰的关键
【9661】by1 2018-10-24 最后编辑2018-10-24 22:06:23 浏览622

下一代基因测序等新的生物医学技术正在制造海量的数据,改变这个科学领域。这一趋势带来了过去无法想象的突破,也让研究人员不得不奋起直追,好赶上先进技术的步伐。


图片来源:Dávid Biró for Mosaic


撰文 Tom Chivers

翻译 贾晓璇

审校/编辑 戚译引


安妮·柯克兰(Anne Corcoran)说:“这让我感觉自己老了。”她是位于英国剑桥的人类生物学研究中心——巴布拉汉姆研究所(Babraham Institute)的一名科学家。柯克兰带领的团队在研究人类基因组与免疫系统、尤其是抵御感染的抗体之间的关系,


用她自己的话说,她是一个“老派生物学家”,练就了一身使用移液管、培养皿和护目镜的技术,那种坐在板凳上摆弄瓶瓶罐罐的工作被称为“湿实验”。回想自己早年的职业生涯,她说:“我很清楚凝胶上的基因长什么样。”


图片来源:Dávid Biró for Mosaic


现如今仅有这些技能是不够的。柯克兰说:“十五年前我开始招博士的时候,他们全是擅长湿实验室技术的。但现在我们招博士生的时候,首先考虑的是他们能不能处理复杂的生物信息分析。”现在,要想成为一名生物学家,你还得是个统计学家,甚至是程序员。你得会写算法才行。


算法本质上是一组指令,即一组预先定义的步骤。菜谱也可以被视为一种算法,当然更明显的算法是计算机程序。你确定了输入,食材、数字或者随便什么,一步步运行算法(可以像“对每个数字加一”那么简单,也能像谷歌的搜索算法那么复杂),就能得到输出:蛋糕、搜索结果,或者一个 Excel 电子表格。


像柯克兰这样的研究者们需要用到算法,在她担任团队领导者的 17 年中,生物学发生了天翻地覆的变化。引发改变的原因,正是随生物医学技术,尤其是新一代测序技术发展而产生的海量数据。


不久之前,对整个基因组进行测序、确定 DNA 螺旋中所有 30 亿个碱基对的顺序还需要花费数年。人类基因组计划(The Human Genome Project)首次确定了人类全套基因组序列,它从提出到 2003 年结束共耗费了 13 年时间、20 亿英镑(约合人民币 180 亿元)。而现在,新一代测序技术仅需 24 小时就能完成同样的工作,花费不超过 1000 英镑 (人民币 9100 元)。


这完全改变了科学家的工作方式。这不仅意味着他们需要干的脏活变少了,需要具备的技能改变了,更意味着科学的整个过程,即从产生想法到完成验证,都已经被颠覆。


许多年长的科学家都得了解之前没有接触过的技术,还得对学生进行指导。那些原本没有教授现代生物学所需技术的学校也在你追我赶,争相开设相关课程。但最重要的是,这些技术的出现为科学发现带来了突破性的进展,这是在 20 年前、甚至 10 年前根本不可能实现的。



全基因组关联研究


从巴布拉汉姆出发,只需十分钟车程,就能到达欣克斯顿村(Hinxton),这里坐落着另一个重要的生命科学中心,维尔康姆基金会桑格研究所(Wellcome Sanger Institute)。它最近满 25 岁了,这里的一砖一瓦都记录了基因组学的飞速发展。


桑格研究所旁边就是欧洲生物信息学研究所(the European Bioinformatics Institute),目前在这里工作的莫里茨·格斯登(Moritz Gerstung)回忆起往事,笑了出来。他说:“我的博士后研究就是在桑格做的。你几乎一眼就能看出这建筑是什么时候设计的,用来做实验的空间特别大,但是可以让科学家们在电脑前坐着分析数据的地方却没有多少。”


牛津大学大数据研究所(Big Data Institute)的统计遗传学教授吉尔·麦克维恩(Gil McVean)表示,这点在哪儿都一样。如今,基因组研究的大部分工作都是在电脑上完成的,很少会用到实验台。他说:“那些成立十五年以上的研究所里,90% 都是湿实验室,但如果你进去看看,就会发现几乎让人人都坐在电脑前。现在建立的生物医学研究中心里,仅有 10% 的湿实验室,其他 90% 都是电脑计算实验室。”


这并不是唯一的变化。麦克维恩认为:“科学界一个重大的变化,是人们渐渐抛弃之前那种专一、有针对性、假设引导的模式,即那种‘产生想法、设计实验、进行实验、验证结果’的模式。”


图片来源:Dávid Biró for Mosaic


在过去,你必须事先对某个基因可能起到的作用作出基本可靠的设想,也就是说,要对其生化作用通路展开合理的想象,判断这个基因与某一疾病或特征的关联。耗时的基因测序以及有限的电脑计算能力意味着,为了节约时间和金钱,在实验之前你就要明确自己要找的是什么。


但现在,你只需要收集大量的数据,让数据决定假设是什么,麦克维恩说道。如果你有 10000 个某种疾病患者的基因组和 10000 个健康人的基因组数据,那么你就不再需要提前甄别出可能有关的基因,只要写一个算法来比较这些数据,分析两组的差异,然后找出与疾病有关的基因就行了。


这就是全基因组关联研究(genome-wide association study),数据驱动时代一种常见的分析形式。理念很简单,就是从一大群人中获取基因组信息,进行测序,然后用算法来比较所有的 DNA。要比较的信息不仅包含大约 2.4 万个编码 DNA(即基因,只占基因组中的 1-2%),还包括那些目前仍然保持神秘的未编码 DNA。算法也很简单:例如,比较特定 DNA 突变在具有某种特征和不具有这种特征的人群中出现的频率。如果这个突变在具有某种特征的人群中出现的频率显著高于预期,算法就会将其标记出来。


这种做法的难点在于,疾病大都很复杂,涉及成百上千个基因或未编码 DNA 片段。因此,复杂的多维分析很快应运而生。虽然不会用到新的数学知识,但在如此庞大的任务中,算法必不可少。应用算法,通常能一次比较几十个到数百个参数。


这和谷歌的搜索算法有点相似。对网页进行排序的过程并不复杂——比如检测你的搜索关键词在页面上出现的频率、位置,以及到该页面的链接数量等。但算法能够结合数百种方法,同时完成数十亿网页的检测,这是人力不所能及的。



癌症基因组


算法的应用给人来带来了巨大的便捷。格斯登的研究领域——癌症基因组学可能是受益最大的领域之一,比如在白血病方面。


在某些情况下,这种给人致命打击的疾病可以通过骨髓移植完全治愈。不过骨髓移植是一场大手术,它带来的并发症也可能导致病人死亡。只有在无计可施的时候,医生才会对白血病患者进行骨髓移植。


然而,预测哪种白血病最为致命十分困难。白血病的症状非常复杂,医生不一定能够据此推断出准确的预后。


因此,格斯登团队的研究对 1500 名癌症患者的基因组进行测序,找出相关的 DNA 突变,然后判断这些突变分别对应哪些症状。他们共找到了 5000 种不同的突变和约 1000 种不同的组合,然后将这些组合按死亡风险的高低分为 11 类。格斯登表示:“这能让临床医生做出更准确的决定。”


数据驱动带来的影响还要比这大得多。南安普敦大学(University of Southampton)癌症免疫学教授埃德·詹姆斯(Edd James)认为,对肿瘤基因组进行测序已经在癌症治疗方法中引发了“思维转变”,“癌症不只是一大堆复制的细胞,如今我们对这一事实感到更加庆幸”。


图片来源:Pixabay


一种癌症可能会包含数十种不同类型的细胞,每种细胞又有不同的 DNA 突变组合,需要使用不同的药物进行治疗。所以基因测序让临床医生能够对他们的病人(和肿瘤)选择更有针对性的药物。詹姆斯说:“以前,治疗都是针对人群的,‘X% 的病人在接受这种治疗后会有好转’,但有了基因测序的信息之后,你能判断每个个体是否适合这种治疗。”


除了发现差异,基因测序也能反映不同癌症之间的共性。詹姆斯说,历史上,癌症根据解剖部位来定义:如肺癌、肝癌、头颈癌等,“但应用新一代测序技术,你会发现有些不同部位癌症之间的共同点比同一部位之间的还要多。这让我们意识到,某些癌症(如乳腺癌)的特效药也许能治疗其他部位的癌症。”


格斯登支持这个观点:“从遗传学角度看,不同解剖部位的癌症存在大量重叠。甚至有人在某些前列腺癌中发现了 BRCA1(一种与乳腺癌密切相关的基因)。”


这种相似性也变得愈发重要。美国食品药品监督管理局(Food and Drug Administration)最近批准一种抗癌药物——派姆单抗(pembrolizumab)——用于治疗任何出现错配修复缺陷(一种 DNA 修复错误)迹象的癌症,这标志着按基因而不是发病部位治疗癌症的药物开始获批。


这一切都归功于不断涌现的数据流。



从生物到编程


桑格研究所研究致病菌基因组的数据科学家妮可·惠勒(Nicole Wheeler)表示:“我们很善于生成数据,结果得到了过多的数据。”麦克维恩也表示赞同:“根据摩尔定律,计算能力每 18 个月能翻一番。通过基因组测序和医学成像、数字病理学采集到的生物医学数据增长速率比这还要快。生物医学数据遵循的是‘超级摩尔定律’。


在本世纪初,生物学家自己检查数据还是一件完全不可能的事。这也就意味着生物学家要么聘用专人,要么自己成为数据科学家。


安妮·柯克兰说:“几年前我们遇到了瓶颈。我们有许多数据,却不知该如何处理。由此算法应运而生,处理数据,使其发挥最大价值。如果研究一个或几个基因,还可以手动计算;但如果你要研究两万个基因表达,手动统计根本不现实。”


许多生物学家都像柯克兰一样,在实验台和玻璃器皿之间成长起来,而不是电脑和办公桌旁——他们不得不学着使用这些算法。柯克兰说:“我觉得年长的科学家常常被算法吓倒,他们比对年轻的同事可能会过于依赖,或者更愿意承认这点。”


柯克兰发展出了关于算法原理的 “实用知识”,但她也承认,“这是一个有些脆弱的时期,团队领导看不懂下属们做的工作。”


柯克兰在巴布拉汉姆研究所的同事沃尔夫·瑞克(Wolf Reik)对此表示同意。瑞克领导着一个表观遗传学研究团队,他说,老一辈科学家的思考方式完全不同,“这点很有趣——开组会的时候,我的员工会把基因组当做一个整体来思考问题;而我会分析单个基因,然后进行归纳,因为这就是我受到的思维训练。”


他认为,对处在他这个位置的人来说,理解新一辈科学家的工作很关键,“最关键的是要对如何使用算法工具形成直觉理解……毕竟工作中最后会有我的署名。”


图片来源:Pixabay


另一方面,年轻科学家在数据环境下长大,而且其中一些人之前就接触过相关知识。格斯登本科学的是物理,不过有些团队负责人也是如此,如麦克维恩。但一些原本学习生物的人现在却学起了编程。在桑格研究所研究基因型与人类不同表现型关系的博士后蔡娜(音,Na Cai)说:“我本科学的是生物,那才是我的专业领域。”


“而现在我每天做的是统计分析。这就像学习一种或几种新的语言一样,我得把之前大脑中生化路径和流程图的思维方式,转化成一种更结构化的编程思维。”


与她共事的那些年长科学家都“挺跟得上发展潮流”,她说道,“他们可能自己不会写代码,但是能看懂写好的代码能做什么分析。”


蔡娜的同事惠勒也是生物学出身,后来学起了编程。惠勒说:“我没有传统的软件工程背景,我是边读博士边学了编程。(我编的程序)不是最高效的,也不是最迷人的,但编程的目的是明确你要进行怎样的计算,然后实现它。”


为了满足这些需求,这几年本科学位发生了很大变化。比如,纽卡斯尔大学(Newcastle University)在生物系本科课程中增设了生物信息学。雷丁大学(Reading University)的毕业设计课题中也包含了计算生物学,不过学生们很少在前几年选修计算课程,所以他们会在最后一年“临时抱佛脚”。伦敦帝国理工学院(Imperial College London) 已经开设了生物信息学课程,正计划给大一大二学生增设编程课。惠勒说:“我觉得人们已经认识到,生物学涉及的数据比过去要多得多,因此人们需要具备处理这些数据的技能。”


但是,改变过程很慢,而且有时候会受到学生们的抵触,毕竟有些人选择生物可不是为了学编程。柯克兰表示:“我只能说本科课程正在追赶这一趋势,但总体而言还没赶上,从计算机相关硕士课程的激增就能看出这点。”


当然,改变还是必要的。即使是那些最需要做湿实验工作的科学家,在接受采访时也表示他们做实验的时间比以往减少了 50%;更有一些人表示,这一比例已经降到了 10%,例如蔡娜的例子,自从专门研究生物信息学以来就根本就没做过湿实验。


惠勒说,向数据驱动的转变,可以看做是科学从假设-检验到假设-生成的转变。一位不愿透露姓名的科学家担心这会降低科学的创造力,但惠勒认为事实并非如此,她说:“这只是转移了创造力。在某些方面,发挥创造力的空间反而更大了。你能够用相对较低的成本尝试一些疯狂的想法。”


好处还不止这些。位于英国诺福克的计算生物学研究中心——厄勒姆研究所(Earlham Institute)的生物信息学家马特·鲍恩(Matt Bawn)说:“你的思路可能会被假说限制。最好是做一个没有先入之见的公正观察者,等待画面从空白的画布中浮现出来。”


但最大的好处是,数据驱动的研究总能在之前无法探究的复杂领域,提出迷人的新发现。



算法与DNA


斯蒂芬·肖恩菲尔德(Stefan Schoenfelder)也是巴布拉汉姆研究所的研究员,研究染色体的 3D 形状及其对基因表达的影响。人类基因组工程完成之时,发现的基因数量远比预想的少——只有 2.4 万个,大约是科学家估计的最小数量的四分之一。其余的 DNA 根本不编码蛋白质。


后来人们意识到,非编码区域的作用之一是调节基因表达:在一些细胞中开启表达,在另一些中关闭表达。它们实现这种功能的方式之一,就是在不同细胞中折叠成不同形状。


人们通常将染色体描绘为“X”形,但它们只有在细胞分裂时才是这种形态。在其他时间里,几乎在所有细胞中,两米长的 DNA 都会蜷曲成复杂的一团。所以,即使某段 DNA 与染色体上的基因相距很远,它仍能有可能对其起调节作用,因为在实际情况下,两者有密切的物理接触,肖恩菲尔德讲道。“所以研究 3D 状态下的染色体很重要:如果你只观察序列,假设相邻的基因才会受到调节,常常会得出错误的结论。”


最重要的是,染色体折叠的方式很不一样,肖恩菲尔德说。“相同的基因组,在T细胞中与在肝细胞和脑细胞中的构象都不一样,因此它们表达的基因不同,细胞的功能也不同。”


研究各个情况下染色体的 3D 形状是很困难的,这涉及细胞类型的测序,和发现其与其他细胞类型的差异、分析是哪段 DNA 产生了相互作用。但首先 ,需要用一种被称为交联和连接的复杂技术处理 DNA,进行测序,从而判断哪些 DNA 片段是相近的。如果两段原本相距很远的 DNA 在细胞核中紧密相邻,那有可能这种折叠方式就是为了方便其中一个基因调控另一个。但在更普遍的情况下,这只是 DNA 随机缠结的结果。


图片来源:Dávid Biró for Mosaic


要从噪声中分辨出真正起作用的关联段,需要对数十亿数据进行分析,找出那些出现频率较高的基因连接片段。这就需要算法发挥作用了。一旦找到染色体中哪几对片段有相互接触,你就可以在此基础上用其他算法进行 3D 建模了。


肖恩菲尔德说:“这整个领域只有 15 年的历史。”他还说,在这之前,“我从来没考虑过基因组的形状,我认为它就像一团塞入细胞核的意大利面。而它到底怎样塞入直径大约 5 微米的细胞核中,我觉得这只是怎么安排的问题。”


“让我震惊的是结构微调,即使在这种极度压缩的条件下,结构微调依然存在。”染色体的 3D 形状,以及这种形状的染色体中哪些基因会对另一些起调控作用,将告诉我们人类体内的 200 多种细胞是如何产生的。


与此同时,麦克维恩指出,基因组研究迫使临床医生对多发性硬化(multiple sclerosis)这种疾病完全重新分类。他说:“我们发现了 250 多个增加患病风险的基因片段,由此可以对个人的患病风险作出较准确的判断。这些基因还使我们发现了它与类风湿性关节炎等疾病的重合之处:某些增加多发性硬化患病风险的基因,也会降低类风湿性关节炎的风险。”


麦克维恩接着说:“因此我们发现,尽管多发性硬化表现出神经退行性疾病的症状,它其实是一种自身免疫性疾病。目前已有四五家公司基于这一判断推出了新的治疗方案。”


巴布拉姆研究所的伍尔夫·瑞克还有个令人激动、甚至有点科幻的故事要讲。他研究表观遗传学,观察细胞的化学环境如何影响基因表达。他的研究也要对 RNA(一种可以读取 DNA 并制造蛋白质的信使分子)进行测序,了解它在不同细胞中的差异。他们的团队对衰老尤其感兴趣。


五年前,科学家们发现(瑞克的工作也证实了这点),人体所有细胞中都有一个控制衰老的时钟,即 DNA 甲基化(DNA methylation)。DNA 共有四种碱基:C(胞嘧啶)、A(腺嘌呤)、G(鸟嘌呤)和T(胸腺嘧啶)。随着年龄的增长,我们的 DNA 中越来越多的 C 会被打上一个小小的化学标记,叫做甲基。要看懂这个时钟十分简单,数一下甲基数就行了。但这又一次涉及到了庞大的返回数据,只能用算法计算。


里克说:“通过读取这个时钟,我们可以预测你我的年龄,误差不超过 3 年。它的准确度出奇的高,这是我们拥有的关于衰老最准确的生物标记。”


当然,“无论是对老化过程的解读,还是用程序预测寿命”,都非常有意思。但里克认为,这项研究的意义还在于我们可以打断衰老时钟:“我相信未来一定会发展出能够减慢衰老时钟的药物和小分子。”



非凡的革命


通过大数据来获得永生可能有点不切实际,但每一位接受采访的科学家都同意,算法主导、数据密集型基因组研究的兴起已经改变了生命科学。它令老一辈科学家有时会看不懂新一辈同事的工作,也令现代研究中心的实验室变得富余,而能够使用用电脑的办公室变得紧缺。肖恩菲尔德认为,变化的步伐可能会“让人迷失方向”。


他说:“现代生活太复杂了,13 年前我读博士时掌握的技能已经完全跟不上现代科学发展的脚步。”但这些变化给基因组研究带来的影响是正面的。人类基因组工程快要告一段落的时候,大家都特别兴奋,相信解开了基因的谜题后,很多疾病很快就能被攻克。但这些疾病大多涉及多个基因,很是复杂,仅靠研究单个基因是不可能实现的。现在,借助新一代基因测序和筛选数据的工具,攻克这些疾病成为了可能。


肖恩菲尔德说:“现在我每做一个实验,都能得到一两亿个数据点。我之前还以为这辈子也不会出现这样的事,但短短几年就实现了。我们能够解决十年前想都不敢想的问题,这真是一场非凡的革命。”