文章资料-情感.机器.认知-电子AI 游客
自然分析了100多年来的8.8万篇论文,这是它们构成的世界
【6504】by1 2019-12-19 最后编辑2019-12-19 19:22:01 浏览727

为《自然》150 周年纪念撰写的一篇分析指出,和以往相比,现在的科研论文所参考的资料来自更多的科研领域。


《自然》的共引网络。图中显示的是《自然》自 1900 年以来出版的逾 8.8 万篇论文,点代表论文,颜色代表学科。如果有其他的科研论文(被 Web of Science 收录的)同时引用了这篇论文,那么它们之间就产生连接。点的大小代表被共引的次数。| 来源:A. J. Gates et al.


本文转载自公众号“Nature自然科研”

撰文 Alexander J. Gates, Qing Ke, Onur Varol & Albert-László Barabási


知识如何启迪学科和改变学科,这本身就是一个活跃的研究领域[1]。关于新发现、新观点、新概念和新技术的元研究对政策制定者来说很重要,因为他们希望资助能满足社会最迫切需要的研究,而社会问题不可避免地牵涉多个学科。


从 1869 年创刊以来,《自然》成为了许多学科的重大科研进步的展示窗口。为了纪念它的诞辰,我们追踪了不同学科论文引用以及被引用的模式。我们采用的数据来自 Web of Science(WoS) 收录的数千万篇科学论文。WoS 是一个收录了 1900 年之后的数千种期刊的文献索引系统,属于科睿唯安(Clarivate Analytics)。我们的重点关注对象是《自然》的论文。在我们看来,上面这张图片表明学科融合正在变得愈发普遍。


但要注意几点。我们的指标在 20 世纪初表现出一定的跳跃性,一部分原因在于当时的论文的引用文献要少得多。在 20 世纪 20 年代前,《自然》的论文一般不列出参考文献。但是如今的论文的参考文献可达 50 条。另外需要指出的是,WoS 承认的学科数量从 1900 年的 57 个增长至 1993 年的 251 个,但这个因素只能部分解释我们发现的规律。


许多学者都开发出了评估科学出版对知识的影响的指标和测量方法。


从整体来看,我们的分析发现,和 100 年前相比,现在的论文参考的学科更多,影响的学科也更多,不过有一部分学科的影响力比另一部分的要大。《自然》出版的大多是细分学科的专业论文,因此参考文献的学科范围较为狭窄。但是,刊登在《自然》上的论文却会被众多学科引用。



庞大的论文库


我们从 WoS 数据库中提取了 1900-2017 年间的论文的参考文献,这些文献包含着近 7 亿引用关系。我们对其中有至少 1 条引用文献、受到至少 1 次引用并且发表在 2010 年前(这样论文有累计引用的时间)的约 1900 万论文进行了分析。最后所得的论文库包含 3800 万篇论文的学科信息。


为了识别论文所属学科,我们采用了 WoS 的粗略分类信息。这些信息不一定完美,但是凭借庞大的数量能够揭示出一定的规律。大多数期刊按学科划分,WoS 会根据论文所发表的期刊对其所属领域进行判定,将其归为一个或多个学科。比如,发表在 Journal of Bacteriology上的论文就被归为微生物学。


通过识别文献引用,我们就能追溯一篇论文的构思心路,因为作者会在参考文献里列出他们采用的理论、方法、技术以及思想的来源。同样,我们也可以通过一篇论文得到的引用来评估其影响力。在用引用来评估论文和作者时需要小心谨慎,但是,这类数据的体量以及可用性仍可以为我们展示科学知识累积的过程[1]。 


利用 WoS 的学科分类,我们分析了 88637 篇《自然》论文如何调节思想的“新陈代谢”。对于一篇参考文献主要来自生物医学研究领域的《自然》论文,它自身的引用也将主要来自其它生物医学研究论文(见“知识流动”),不过约有一半引用来自其他学科。


与之相比,主要参考了工程和技术文献的论文更有可能被其他学科引用(72%),被本学科引用的量只占 28%。不过,工程和技术类论文只占《自然》发表的论文的一小部分,而被选中的论文主要是因为它们的影响面大。另一个极端则是地球科学和空间科学的论文,这类论文更有可能被本学科(72%)而不是其他学科引用(28%)


数据来源:Web of Science.  分析:A. J. Gates et al.


另外一个分析学科内和跨学科知识流动的方法是研究共引情况[2]。这个方法将每篇论文看成一个节点,以点表示。如果有另外一篇论文同时引用了 2 篇论文,那么这两篇论文就形成了连接,节点的大小代表着共引的次数。我们的可视化算法将每个连接看作可以伸缩的弹簧,并让连接尽可能地短。利用这个算法,我们对《自然》论文的学科交叉水平进行了归类(见go.nature.com/n150int)


数据来源:Web of Science.  分析:A. J. Gates et al.


整体的网络结构与人们对学科间的关系的感受遥相呼应。论文根据所属年代和主题汇聚成群,因为作者通常会引用和本论文主题相关的近期论文[3]。在《自然》最近的历史中(见“随时间变化的学科”),超过一半的论文属于生命科学领域。因此,大量生物医学论文聚集成簇,出现在了网络中。


从 1930 年开始(此时可以利用参考文献对论文学科进行分类),物理论文的占比下降,地球科学和空间科学的占比上升。某些论文(比如发现了第一颗绕类日恒星运行的系外行星的论文[4])被深嵌在同类论文中。但是发现臭氧层空洞[5]这篇论文出现在许多领域(化学、社会科学和地球科学)汇集的地方(见“共引网络”)。我们的分析显示,这篇论文的参考文献所属学科比 95% 的《自然》论文更加多样,而它被引用的领域也比 99% 的《自然》论文更加繁多。


数据来源:Web of Science.  分析:A. J. Gates et al.


如果是对更专的期刊进行同样的共引网络分析,得到的结果会大不相同。但是在《自然》的共引网络中,科学史上的独特片段依旧得到了彰显(见 go.nature.com/2patums)。这些片段包括:20 世纪 30 年代的放射性元素的研究,80 年代末和 90 年代超导材料的广泛应用研究以及对其理论基础的深入探讨。



时间流逝


在过去的一百年里,每个学科的论文数量都呈指数式增长[1]。尽管不同学科的增长速率不同,但是大约从 60 年代开始,48% 的论文属于生命科学领域(另外 42% 的论文属于“硬”科学,10% 属于行为科学)。


研究者对跨学科影响力的定义和测量方法不尽相同。多学科一般指的是包含多种学科,同时各个学科保持相对独立。我们对多学科期刊的定义是期刊论文参考的学科以及影响的学科的广度。学科交叉一般指的是学科的融合,我们对跨学科的定义是某篇论文的参考文献的多样性,以及该论文渗透影响多个学科的多样性。


虽然很难评估引用了某篇论文的其他研究之间的融合度,但是我们的定义能够衡量某篇论文传播的知识是否具有多方位的影响[6]。这种分析能够显示多种学科交叉的程度,但是并不能体现学科交叉的具体作用方式。


我们首先研究了某本期刊论文的参考文献和被引情况所反映的学科广度,以了解该刊的多学科性(见“灵感源和影响力”)。我们对期刊里的每篇论文的参考文献(灵感源),以及引用了这篇论文的其他论文(影响力)的主要所属领域进行标记,然后对其多学科性进行打分(从 0-1)


我们利用归一化熵(normalized entropy)进行记分。0 分意味着一篇文章的所有参考文献,或者引用了这篇文章的论文均属于同一个学科。1 分意味着参考文献以及引用文献中学科分布是均匀的。我们发现,归一化熵并不受到期刊发表论文数量的影响,它反映的可能是期刊的其他特质,比如接收的稿件特征,或是编辑的选择标准。


数据来源:Web of Science.  分析:A. J. Gates et al.


对大多数期刊来说,论文影响力以及灵感源的学科范围高度相关。对于那些学科性很强的期刊,如《细胞》和《物理评论快报》来说也是如此。当代期刊论文的参考文献和被引的学科数量一般是 6 个。


泛科学期刊《自然》和《科学》的影响力(被引用)以及灵感源(参考文献)的学科广度超过 99.7% 的期刊。《自然》的多学科性在 20 世纪 60 年代达到顶峰,之后一直维持在高位。这或许反映了《自然》收录的论文拥有更广泛的吸引力,并且这些论文更容易被科学界获知。


其次,通过测量每一篇论文的参考文献以及引用了它的文献的学科多样性,我们对每一篇论文的学科交叉性进行了评估[7-10]。有许多方法可以测量学科交叉性,有时得到的结果可能并不一致(见参考文献 11、12)


但是研究者们就一点达成了一致,那就是仅仅看参考文献和引用的学科数量是不够的。比如,一些论文的参考文献里大部分是生物学和临床医学的研究,那么它的学科多样性就不如那些综合了生物学和物理的论文。我们采用饶斯特林指数(the Rao–Stirling diversity index)来测量这个性质,饶斯特林指数能够反映代表性的学科数量、它们的分布以及差异,所得指标的范围在 0 和 1 之间[13]


我们的分析显示,参考文献和引用的学科多样性都在增长。粗略来看,近 10 年里一篇典型的论文的参考文献以及引用了它的论文所涉及的学科数量是 50 年前的 3 倍。


目前平均一篇论文要参考 11 个学科的文献,但《自然》的论文的参考文献学科数量仅仅为 9 个。这印证了之前的研究结论——有高度影响力的论文也更有深度[14]


反之,泛科学期刊受到引用的学科范围高于其他期刊,这说明这类期刊在科学界的影响范围比其参考的范围更广。这个现象很合理,因为这类期刊希望通过出版科学大发现来影响更多的读者。


有时,某篇论文的参考文献所属学科和它所影响的学科相距甚远。比如,2003 年系统生物学家 Leroy Hood 和 David Galas[15] 发表在《自然》上发表了“The Digital Code of DNA”,它的参考文献主要来自分子生物学,但是却被计算机科学、临床医学以及社会科学引用。


我们赋予跨学科性 0-1 的分值区间。0 指的是某篇论文的参考文献和引用了这篇论文的学科完全相同。1 指的是,两者完全不同(用 JS 散度来计算,JS 散度体现了两个概率分布之间的差别)。


我们发现,近几十年来跨学科性下降了,泛科学期刊的下降速度超过了整体水平。这或许是因为,跨学科的研究会影响到包括该研究所属的多个学科。随着参考学科数量的增加,它能影响的一套完全不同的学科范围便缩小了。


对科研成果的评估最好在其所在学科的框架内进行。比如,生物医学类研究的引用数量和生物医学类的相比才更有意义,和物理学的比意义就不大了。但是如果学科之间的“互动”不断上升,那么限制严格的比较就失去了价值。


我们认为研究一篇论文涉及哪些学科,可能有助于进行学科间的比较,也有助于改进对论文影响力的评估。此外,如果学科之间的界限不再分明,那么严格的院系划分以及资助项目就不太说得通了。作为研究网络的科学家,我们希望科学不再那么封闭。


我们发现,所有学科都出现了学科交叉性的增长,且没有放缓的迹象。随着研究人群、科研论文以及知识的增加,不同学科会变得愈来愈融合。研究机构以及资助单位应该意识到,学科交叉正在成为主流。


参考文献:

1.Fortunato, S. et al. Science 359, eaao0185 (2018).

2.Small, H. J. Am. Soc. Inf. Sci. 24, 265–269 (1973).

3.Mukherjee, S., Romero, D. M., Jones, B. & Uzzi, B. Sci. Adv. 3, e1601315 (2017).

4.Mayor, M. & Queloz, D. Nature 378, 355–359 (1995).

5.Farman, J. C., Gardiner, B. G. & Shanklin, J. D. Nature 315, 207–210 (1985).

6.Leydesdorff, L., Wagner, C. S. & Bornmann, L. Scientometrics 114, 567–592 (2018).

7.Choi, B. C. K. & Pak, A. W. P. Clin. Invest. Med. 29, 351–364 (2006).

8.Porter, A. L. & Rafols, I. Scientometrics 81, 719 (2009).

9.Wagner, C. S. et al. J. Informetr. 5, 14–26 (2011).

10.Leydesdorff, L. & Rafols, I. J. Informetr. 5, 87–100 (2011).

11.Wang, Q. & Schneider, J. W. Preprint at https://arxiv.org/abs/1810.00577 (2018).

12.Research Councils UK & Digital Science. Interdisciplinary Research: Methodologies for Identification and Assessment (RCUK/Digital Science, 2016).

13.Stirling, A. J. R. Soc. Interface 4, 707–719 (2007).

14.Uzzi, B., Mukherjee, S., Stringer, M. & Jones, B. Science 342, 468–472 (2013).

15.Hood, L. & Galas D. Nature 421, 444–448 (2003).

公众号“Nature自然科研