山西科技文章编号:1000_29(2020)06-0094-05
SHANXI SCIENCE TECHNOLOGY2020年第35卷第6期收稿日期:2020-10-03数字人文领域中知识图谱的研究与应用*王雪梅(山西财经大学,山西太原,230006)摘 要::目的/意义]谷歌最早提出知识图谱的目的是提高搜索引擎的能
力,提升用户的搜索质量和搜索体验,但随着人们对知识图谱探索的加 深,其应用领域越来越广泛,人们对知识图谱的认知却比较混乱,存在概 念混淆以及对于知识图谱在不同领域应用情况不明确等问题。[方法/过
程]从概念上对知识图谱进行了详细的界定,在阐述知识图谱与数字人文 发展历程的同时,提出了知识图谱应用于数字人文领域的基本框架,并在
人文学术地图的基础上,提出了构造人文学术知识图谱的研究思路。[结
果/结论]对于知识图谱的应用提出了新的见解,也为数字人文的发展注
入了新鲜元素。关键词:知识图谱;数字人文;学术地图中图分类号:G291 文献标识码:A随着大数据时代的到来,网络中的数据内容呈现 用,而人们很容易混淆知识图谱与科学知识图谱的概
出爆炸式的增长态势,万维网成为了一个巨大的数据 储藏库。然而,万维网上的内容存在异质多元、组织结
念。在数字人文领域,研究较多的则是语义知识图谱, 即关联数据技术。例如,芬兰数字人文关联开放数据, 威尼斯时光机器项目;北京大学严承希利用符号分析
构松散的特点,给人们有效获取信息和知识带来了极 大的挑战。知识图谱则以其强大的语义处理能力与开
法对CBDB数据的可视化分析;武汉大学曾子明基于关 联数据的数字人文视觉资源组织研究等,都是数字人
放互联能力,为大数据时代的知识组织和智能应用奠
定了基础。知识图谱不仅能快速准确地为用户找出查 文领域中应用语义知识图谱的研究典范。但是这些研 究大部分都侧重于关联数据技术以及元数据组织的应
询信息,并将其系统化地展示出来,还可以将互联网中 的信息表达成更符合人类认知世界的形式,从而提供 一种更好地管理和利用海量信息的方式。用,缺乏利用知识图谱的理念揭示其中的关系并进行 知识推理,而对于语义知识图谱的理念也没有明确的
在图书情报学界以及数字人文领域,对知识图谱 界定。基于以上研究背景和存在的问题,本文尝试在人 文学术地图的基础上提出构造人文学术知识图谱,在弥 补人文学术地图不足的同时,利用学术知识图谱的理论
的应用与研究发展的十分迅速。图情领域对知识图谱
的运用更侧重于统计分析。通过对某学科或者研究领 域的相应文献进行图谱分析,揭示出学科发展的趋势
与方法对不同的文史地理信息进行揭示与推理。和研究热点,并且可以统计出相应的研究机构和学者, 再挖掘他们的研究背景以及科研结果而得出更深层次
1知识图谱的概念在维基百科的官方词条中:知识图谱是Google用 于增强其搜索引擎功能的知识库。本质上,知识图谱
的研究价值。通常这些更偏向于科学知识图谱的运
*基金项目:山西省软科学项目“大数据视角下基 于信用评价的科技信用体系构建研究”(项目编号:
旨在描述真实世界中存在的各种实体或概念及其关
系,其构成一张巨大的语义网络图,节点表示实体或概
2017201234-l)o94念,边则由属性或关系构成。实体指的是具有可区别
王雪梅数字人文领域中知识图谱的研究与应用本刊 E-mail: *************** 问题探讨性且存在的某种事物。例如某个人、某个国家、某 种植物等,世界万物中由具体实物组成的就为实体。 实体是知识图谱中最基本的元素,不同实体之间存在
对人文学科研究内容的认知。今天,数字人文也已经 快速演化为一个较为宽泛的概念,其涉及语言学、文
学、历史、计算机科学,还包括艺术、考古、图书馆、博物
着不同的关系。关系则是形式化为一个函数,它把! 个点映射到一个布尔值,在知识图谱上,关系则是一个
馆等领域,可见数字人文的内涵越来越丰富多彩。知识图谱的发展雏形同样以语料库检索为基础, 再到1977年在第五届国际人工智能会议上,美国斯坦 福大学计算机教授费根鲍姆(E.A.Ceigenbaum)提出了
把!个图节点(实体、语义类、属性值)映射到布尔值的
函数。语义类是指具有同种特性的实体构成的集合, 如民族、国家等。属性值是指从一个实体指向它的属
“知识工程”的概念,正式确立了知识在人工智能中的
性值,不同的属性类型对应于不同类型属性的边。由 此可知,RDF三元组是知识图谱的一种基本表达形式。图1是一个简单知识图谱图。如图1所示,中国是
重要地位。随着万维网的发明与应用,使得知识从封 闭知识走向开放知识,从集中知识成为分布知识。
2206年,Tim Berners-Lee提出链接数据的概念,数据不
仅仅发布于语义网中,而要建立起数据之间的链接从
一个实体,北京是一个实体,中国-首都-北京是一个
“实体-关系-实体”的三元组样例。北京是一个实体,人 口是一种属性,2 154万人是属性值。北京-人口 -2154
而形成一张巨大的链接数据网。链接数据起初是用于 定义如何利用语义网技术在网上发布数据,其强调在
万人构成一个“实体-属性-属性值”的三元组样例。不同的数据集间创建链接。而开放链接数据项目进展 的可视化,也通常用来展示当前开放知识图谱的规模, 所以从某种角度说,链接数据应该是最接近知识图谱
9知识图谱应用于数字人文的发展历程和构
建流程0.1知识图谱与数字人文发展历程数字人文被认为是计算机科学和人文学科交叉研
的一个概念。04知识图谱应用于数字人文构建流程知识图谱的构建流程如图2所示,分别是数据收 集、知识抽取、知识融合、知识加工、可视化展现、知识
究的一个新领域,而其产生的背景是计算机技术和网 络技术成为泛在的信息基础设施,形成了数字化的媒 体环境,以及数字化文本积累形成的大数据环境。有
更新,其中知识抽取、知识融合、知识加工是知识图谱 构建的关键技术。学者以数字人文的研究技术为主线,将其发展历史追 溯到1544年的语料库检索,再到22世纪97年代人文学
知识图谱在数字人文领域的应用过程中,根据文 本数据的变化以及语义结构的不同,其构建流程也会
术研究档案数字化制度形成,并逐渐发展稳固。21世
纪初期,由于新形式的创作和扩散,数字人文在文献与 技术的物质文化中重叠创新,在广度与深度上增强了
发生相应的改变,具体可分为数据收集、知识建模、知
识获取、知识融合、知识存储、知识推理、可视化7个部图1简单知识图谱图74王雪梅 数字人文领域中知识图谱的研究与应用本刊 E-mail: sxkjzzs@163 .com问题探讨图0知识图谱构建流程图分,以下进行详细解析:(1) 数据收集:通过爬虫或者数据统计来获取相应
为主(如图3所示),点击具体某个点只呈现出其所代表
人物的简要信息,并没有说明其与汤显祖之间的具体
格式的数据。(2) 知识建模:构建本体模型,进行知识和数据
社会关系。学术知识图谱的设计可以将汤显祖的社会 关系分为不同的种类,如亲属类、学术类、朋友类、政治
组织。(3) 知识获取:由于不同来源的数据格式存在差 异,所以要通过相应程序将不同格式的数据进行结构
类、著述类等,再将不同的代表人物划分到不同的关系 类别中,从而呈现出度的人际关系。通过不同类
别知识图谱的展现理清汤显祖的社会关系,也可以推 导出一些不明确的人物关系,为学术地图中的人物信 息做补充说明。例如,汤显祖少年时受学于罗汝芳,而
转换。(4) 知识融合:通过语义处理、实体识别等程序将 不同来源的实体之间建立关系。罗汝芳是泰州学派王艮的三传弟子,这一学派继承了
(5) 知识存储:新生成的数据需要持久化存储,通
王守仁哲学思想中有积极意义的部分并加以发展,又
常RDF数据可以放到三元组数据库进行存储。(6) 知识推理:往往存在隐式数据需要进行推理与 发现,这样才能使实体间的关系得到完善。称“左派王学”,抨击程朱理学,怀疑封建教条,反对束 缚个性。在万历年间左派王学的代表人物是李贽,所 以在文学思想上汤显祖与派反复古思潮相呼应,
(7) 可视化:结合相应的技术,使知识图谱以图的 形式展现后,实体间的关系以及应用范畴便一目了然,
明确提出文学创作首先“立意”的主张,把思想内容放 在首位,而且也由此推导出汤显祖与李贽的关系,遂李
符合人脑对现实世界的认知模型。贽在狱中自杀后,汤显祖发文为其哀悼。除此之外,学 术知识图谱可以通过交互性增强体验感,即图谱中的
3人文学术地图与学术知识图谱在学术地图中主要分为群体性数据和个体性数
节点可以通过单击进行下一层级关系的扩展显示。对于群体性数据而言,学术知识图谱的设计更侧
据。群体性数据分为不同作者、集部著述、古今人物列 重于不同节点之间关系的梳理和推导,但是对于个体
传、人物社会关系等形式。例如,《全宋文》作者分布、 历代正史中烈女分布、汤显祖社会关系分布等。个体
性数据而言,学术知识图谱设计则更加注重个性化数 据的发展。在学术地图当中最具有代表性的个体性数 据是人物行迹图。人物行迹图不仅展示了人物的生平
性数据以人物行迹的形式为主,如宋濂行迹图、沈周行
迹图等。面对群体性数据,学术知识图谱要着重处理好不 同人物/事物或者不同著述之间的关系。以汤显祖社会
行迹,还对于人物的人生阅历,以及自不同阶段不同地 点的人生境遇和其所创作出来的作品都有千丝万缕的
联系。学术知识图谱设计的初衷正在于此,使个体性 数据得到更好的发展与完善,保留其个性化的同时还关系分布为例,在学术地图中以代表人物的分布地点
96王雪梅 数字人文领域中知识图谱的研究与应用本刊 E-mail: sxkjzzs@163 .com问题探讨Identify ResultsFeature DetailsResetthe geomaName曰 tang-xia nzu -socail-netNameName_CHAddrChn臨川75爾圖爾▲7372116.35134127.984781702524
±18735665图7汤显祖社会关系分布学术地图建立了不同实体间的联系。对于个体化数据而言,学 本文从概念划分上对科学知识图谱与语义知识图谱进术知识图谱的技术手段也具有得天独厚的优势。以汤 显祖行迹为例,首先根据汤显祖行迹中的地点建立基
行了详细的界定,并且理清了知识图谱与知识地图、知 识检索、知识管理之间的关系。此外,本文叙述了知识
本框架,再根据时间顺序将其人生不同阶段创作的作 品与框架中的地点相对应,建立人物-地点-作品的三
图谱与数字人文的发展历程,通过对于知识图谱基本
构建流程的了解,结合数字人文的文本特点做出调整,
元组序列。然后进行知识融合,借助不同的算法建立 起不同来源实体间的关联关系,也可以通过自然语言 处理技术对其生平记录进行数据甄选和转化,从而创
构建了知识图谱应用于数字人文领域的基本框架。对
于具体的研究案例,本文基于学术地图发布平台提出 构造人文学术知识图谱的基本思路,并着重阐述了人 文学术知识图谱在面对不同类型数据时的设计构想以
建数据链接。下一步再通过知识存储将生成的数据进 行持久化存储。然而,知识图谱中的关键技术知识推
及具体应用,由此可以弥补学术地图存在的不足以及 为用户打造个性化的学术地图。理在数字人文项目中还很少有成熟的系统处理,使潜
在的数据得到挖掘从而使人物的生平经历更加完整。 目前,可以制定相应的规则进行数据发现与推理,如通
参考文献[9] SHETH A, THIRUNARAYAN K. Semantics em
过上述步骤建立起人物、地点、作品之间的关系,生成 新的数据后制定相应规则,对其作品中的核心思想进 行提取和挖掘,由此推理出人物在这个时期/地点的思
powered 冈6-3.4: managing e—terpUsc, social, sensor,
and c—nd-base— data and service fr advanced app-ca-
tions[M]4an Rafael,CA:Morgan and Clayyool, 2413.[2] AMIN S. Introducing the enow——go graph [R]. America: OfOcial B—g of Google, 221.[3] BERNERS-LEE T, HENDLER J, LASSICA O.Thv
想变化从而更进一步地完善其生平经历,也可以建立 更多实体间的联系。这也说明对于学术知识图谱的创
建依然存在挑战。无论是面对群体性数据还是个体性 数据,学术知识图谱的创建无疑是使学术地图发展和 完善的重要保障,而且知识图谱运用的三元组数据库
semantic We-[j]. Scie—ti—e Ame—can Magazine, 2048,
23(1):9-4.[4] Tom Heath, Ch—s—an Bizer.411106— Data: vo—ing the
更有利于数据的存储与发布。4结论知识图谱中包含科学知识图谱与语义知识图谱,We- Into a G—Oal Data Space [ M ]. Morgan & Clayyool:SyutUesis Lectures on the Semantic We-: Theory and Tech-97王雪梅 数字人文领域中知识图谱的研究与应用本刊 E-mail: sxkjzzs@163 .com问题探讨nology ,2211.[7]程学旗,靳小龙,王元卓,等.大数据系统和分析 技术综述[J].软件学报,0014,29⑼48-1905.[14] 刘峤,李杨,段宏,等•知识图谱构建技术综述 [J]•计算机研究与发展,2216,53(3):582-602.[11]陈悦,刘则渊,陈劲,等•科学知识图谱的发展历 程[J ] •科学学研究,2025 (3): 406-462•[19]秦长江,侯汉清•知识图谱:信息管理与知识管 理的新领域[J ] •大学图书馆学报,2029,27(1): 30-37.[6] ABBOTT A.The'Time MacOine' reconstructing an-
ciee/ Venice's social eetworks[j].Nature,2017,546:341-
344.[7] 严承希,王军.数字人文视角:基于符号分析法的
[15] CHRISTIAN B, HEATH T, BERNERS-LEE T.宋代政治网络可视化研究[J]•中国图书馆学报,2218, ^点):87-123.Linked gata-the store so fao [J]2ntemationa? Jonma? on
Semantic Web ank Information Systems, 2029,5 (3) : 4 -22.(责任编辑:王欣)[5]曾子明,周知,蒋琳.基于关联数据的数字人文视
觉资源组织研究[J •情报资料工作,2218(6):6-2.[9] SIEGHAL A. IntroCccing t/e knowledge graph:
作者简介:王雪梅,女,1995年生,山西财经大学thingot eotstDngs[EB/OL]. (2215-21-12).http://52opee- 2015级在读硕士研究生。conue 2om/l 56/5oonle-Seowledeeeuph•Application and Research of Knowledge Mapping in Digital HumanitiesWANG XuemetABSTRACT: [Pumose/sicnificakcet Google first suggested keowledge graph of the pureose is ta improve the a-ilitp of
searcO eegikes, ,0X00000 the qcalitp of csere' searcO ank searcO experieeco, Oct as peogie geeeee the exploration of eeowleege graph ank its application fel? is more ank more widely, people' s pemeetion of ekowleege gmph is chaos, the
existeeco of confsion ank ecowleege gmph foo application in dikemet felgs is koi heps. [Methon/pmcess]This paper ge-
aces the Ckowleege gmph: ang puts fouvark the Casio framework of the application of Okowleege gmph in the aeld of digiml
humanitios while exponnk the gevelogmed/ pmcess of ekowledgo gmph ank digitai humaides. Oa the Oasis of humaides
acanemio map, this paper puts the develogmed/ of digitai humanities.the researcO idee of constmcting humaides acanemio ekowledgo gmph2Result/Coaclnsion] This paper puts OuvoU aew iasights kto the application of keowledge graph ang kfises Oesh elemeOs kto KEY WORDS :kkowleege graph; digital humanities; acanemio map98