知识图谱(Mapping Knowledge Domain),又称为科学知识图谱,指对大量科学文献新信息,借助于统计学、图论、计算机技术等手段,以可视化的方式来展示科学学科体系的内在结构、学科特点、研究前沿等信息的一种计量学方法。你即便是自己可能没用过,但别人的相关应用分析,你肯定经常可见。
CiteSpace,正是科学知识图谱方法的一款非常有效的分析软件,它能眼着与分析科学分析中蕴含的潜在知识,通过可视化的手段来呈现科学知识的结构、规律和分布情况,也可以知道哪些论文是优质的,哪些论文是具有开创性的……
Adison博士
第一部分、CiteSpace之Web of Science数据库分析
(一)Web of Science数据下载
(二)Web of Science数据载入
(三)共被引分析
(四)聚类分析
(五)关键词分析
(六)时区图与突变
(七)作者,国家,机构的分析。
第二部分、CiteSpace之知网数据库分析
(一)知网数据下载
(二)知网数据转换
(三)中国知网数据 关键词分析
(四)关键词聚类 时区图 作者和机构
1977年,美国计算机科学家费根鲍姆正式命名知识工程,他曾于1994年获得图灵奖,被誉为专家系统之父,知识工程奠基人。知识工程是自上而下的,并严重依赖专家干预。知识工程的基本目标就是把专家的知识赋予机器,利用机器解决问题。
在传统的知识工程里,首先需要有相关领域的专家,而且专家能够把自己的知识表达出来;其次,还需要有知识工程师把专家表达的知识变成计算机能够处理的形式。
互联网的应用催生了大数据时代下的知识工程。虽然知识工程解决问题的思路极具前瞻性,但传统知识工程能够表示的规模有限,难以适应互联网时代大规模开放应用的需求。
为应对这些问题,学界和业界的知识工程研究者们试图寻找新的解决方案。于是学者们将目光转移到数据本身上,提出了链接数据的概念。
链接数据中的数据不仅仅需要发布于语义网中,更需要建立自身数据之间的联系,从而形成一张巨大的链接数据网。首先在这项技术上取得重大突破的是谷歌的搜索引擎产品,谷歌将其命名为“知识图谱”。
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成了一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。图1便是一个围绕产品全生命周期的知识图谱示例,一般来说知识图谱中包含三种节点:
▲图1 产品全生命周期知识图谱
实体或概念指的是具有可区别性且独立存在的某种事物。以图1为例,产品、产品1、研发设计、生产制造、采购、质量等都是一个个实体。世界万物由若干具体事物组成,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
属性及属性值用来刻画实体的内在特性,从一个实体指向它的属性值。不同的属性类型对应不同类型属性的边。属性值主要指对象指定属性的值。如图1所示的“采购”“生产”“质量”是几种不同的属性。属性值则是采购物料的数量和价格、生产数量和进度、采购和生产的质量指标。
关系则是用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作一张巨大的关系网图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。
知识图谱的技术架构是指其构建模式的结构,如图2所示。图2中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。
▲图2 知识图谱的技术架构
知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中进行知识提取,并将其存入知识库的数据层和模式层中,这一过程包含数据采集、知识抽取、知识融合、知识加工、知识应用五个过程,每一次更新迭代均包含这四个阶段。
知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入知识库中。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入知识库中,再构建顶层的本体模式。
对于大多数制造业企业来说,由于缺乏大量的实证数据,在应用初期主要使用自顶向下的构建方式。
所谓知识结构化在知识图谱技术中就是用三元组的数据结构对实体和关系建模。知识图谱在解决分析洞察这类问题时,在处理“关系”这件事情上,更直观也更高效。知识图谱技术无非是将人工的过程平移,希望计算机能够更高效地完成这一工程。
大数据很大程度上是在尝试将非结构化的数据转为结构化的数据,使其能被计算机分析,从这个意义上讲,传统的企业大数据平台、数据治理和知识图谱无疑都要共享企业的大数据