摘" 要:为了帮助企业或组织更好地进行知识管理和数字化转型,提高知识管理的效率和可靠性,促进知识的共享和创新,设计一套领域知识图谱构建管理系统,只要企业或组织的知识有所更新或新增,该系统就会无感知地将更新或新增的知识构建到知识图谱中,无须用户重复进行构建操作,保证了知识图谱的实时性。该系统已为多家咨询公司提供服务,结果表明系统不仅统一了数据录入、传输、存储的标准,还减少了数据遗漏情况的发生,提高了构建领域知识图谱的效率。
关键词:数字化转型;知识图谱;持续构建
中图分类号:TP319" " " 文献标识码:A" 文章编号:2096-4706(2024)09-0144-05
Design and Research of Domain Knowledge Graph Construction Management System
HU Jian, CAO Yang, XIE Hongtao, YAN Zengyong
(CETC Big Data Research Institute Co., Ltd., Guiyang" 550022, China)
Abstract: In order to assist enterprises or organizations in better implementing knowledge management and digital transformation, improve the efficiency and reliability of knowledge management, promote knowledge sharing and innovation, it designs a domain Knowledge Graph construction management system. As long as the knowledge of enterprises or organizations is updated or added, the system will unconsciously build the updated or added knowledge into the Knowledge Graph, user doesnt need to repeat construction operations, ensuring the real-time nature of the Knowledge Graph. The system has provided services to multiple consulting companies, and the results show that the system not only unifies the standards for data entry, transmission, and storage, but also reduces the occurrence of data omissions and improves the efficiency in constructing domain Knowledge Graph.
Keywords: digital transformation; Knowledge Graph; continuous construction
0" 引" 言
知识图谱是一种用于表示实体、属性和它们之间关系的数据结构,最早由Google的创始人之一谢尔盖·布林在2000年提出[1]。近年来随着相关产业政策和法律法规的发布,我国知识图谱技术不断发展并趋于成熟,如科技部发布的《关于推动人工智能高质量发展的通知》、国务院印发的《“十四五”数字经济发展规划》等。特别是国务院印发的《新一代人工智能发展规划》[2],该规划提出了新一代人工智能的发展目标和任务,包括建设知识图谱、智能搜索、智能推荐等人工智能应用基础设施。
随着人工智能与实体经济的深度融合,领域知识图谱的构建管理已成为突出问题[3,4],且相关的市场规模有逐渐增大,据统计,2021年中国知识图谱核心市场规模为107亿元,预计到2026年达到296亿元,2021—2026年CAGR约为22.5%,如图1所示。
知识图谱的应用逐渐从搜索引擎向各细分行业渗透,但受行业信息化与数字化基础、数据质量、场景明确程度、客户需求等多因素影响,在各细分行业的渗透进程不一。目前,互联网与金融为主要应用场景。据统计,在2022年知识图谱核心市场中,金融和互联网行业占总市场的35.6% [5,6],如图2所示。
当前市场环境中对于数据应用需求的日益强烈,特别是各领域、行业希望通过搭建领域知识图谱,开发上层业务图应用,实现智能分析决策的需求。在建设图谱应用的过程中,会遇到一系列数据问题,如数据来源广、规模大、标准不统一等,同时业务场景构建复杂、变化快、建模难、复用性低等[7,8]。此时,图谱平台作为一种领域图谱构建及应用工具,其便捷性和提效降本能力便显现出来。通过设计和研究领域知识图谱构建管理系统,可以有效地解决上述问题,提高数据应用的效率和可靠性,同时促进知识的共享和创新,进而提高企业或组织的竞争力和创新能力[9,10]。因此有必要开展领域知识图谱构建管理技术的研究,孵化领域知识图谱构建管理的新模式。
1" 系统设计
1.1" 系统架构设计
领域知识图谱构建管理系统由基础设施及四大功能模块组成,如图3所示。四大功能模块包括:
1)快速建图模块:用于管理多数据源的导入,提供以拖拽动作为主的可视化面板,用户可以快速导入数据对象并为其建立关系,以一键入图的方式将数据导入图数据库,供后续分析。
2)智能检索模块:提供灵活的可配置搜索条件以及强大的模糊搜索,系统自动提取已导入的数据对象属性作为候选搜索条件,用户只需简单勾选即可完成配置。智能检索模块对搜索结果进行数据统计以提供情况概览。
3)图分析模块:图分析支持对产业链知识图谱、政策知识图谱进行可视化展示并进行分析,同时还支持图谱更新功能。
4)标签管理模块:标签管理支持对离散标签和树形标签进行管理。
基础设施层包括数据存储、计算框架、系统管理组件。数据存储由文件系统、消息队列、系统数据库、图数据库构成;计算框架包含大数据计算框架、AI计算框架;系统管理组件包含服务网关、日志管理、用户权限管理。
1.2" 技术架构设计
领域知识图谱构建管理系统技术架构总体分为数据层、计算层、数据引擎、应用层、展现层5个部分,如图4所示。
图4" 领域知识图谱构建管理系统技术架构图
1)数据层:主要提供分布式数据存储服务,将数据主要分为业务数据、应用数据、文件数据等多类数据类型,采用多种不同数据存储模式相结合的方式。将业务数据等结构化存储于MySQL数据库中;文件数据依据文件大小,以HDFS和FastDFS的方式进行存储;将半结构化数据存储于MongoDB中;海量数据存放在Hbase中。
2)计算层:基于业内广泛使用的Hadoop、Spark、TensorFlow、PyTorch提供数据计算服务。
3)数据引擎:基于业内广泛引用的任务调度架构,采用XXL-Job进行相应调度。
4)应用层:基于业内使用最为广泛、功能最为齐全的spring cloud框架开发,搭建微服务集群,且能够根据需要水平扩展,并构建服务接口,支持高并发访问。其中内部接口使用springcloud的rpc接口;对外提供restfulAPI接口和Restful推送接口。
5)展现层:采用前端主流的React/Vue框架,使用Fusion或ElementUI成熟的前端控件,构建Web界面,提供图形化操作页面。
1.3" 数据术架构设计
领域知识图谱构建管理系统数据架构如图5所示。
进入领域知识图谱构建管理系统的数据源主要有四类:数据平台(协议适配与内容解析平台与数据治理平台)、应用领域业务系统、第三方数据源以及手工插入数据。这些多源异构数据通过快速建图模块生成原始数据对象,并导入至图数据库中,同时用户可以管理数据对象的标签和图空间Schema。需要指出的是,图数据库中仅用于存放数据对象的ID、属性及关系,对于与之关联的大量时序数据、半结构化数据则存储在其他数据存储介质中。
快速建图过程中接入的数据源作为原始数据,经过计算框架的处理将原始数据缓存到半、非结构化或结构化数据库中,最终将数据处理导入到图数据库中。标签管理也可以对图数据库中的数据进行标签分类。
智能检索、图分析将图数据库中的数据进行可视化展示并支持分析加工,最后形成的数据支持上层的相关领域的应用。
1.4" 基于Flink的构建流程
在构建过程中使用到了Flink-SQL连接器和Flink-SQL UDF。
1.4.1" Flink-SQL连接器的主要工作流程
1)数据接收:Flink-SQL连接器通过接收外部数据源(如Kafka、HDFS等)的数据,将数据以流的形式输入到Flink系统中。
2)数据解码:接收到数据后,Flink-SQL连接器使用解码器(DecodingFormat)将数据解码成Flink可以处理的格式,如RowData格式。
3)数据转换:解码后,Flink-SQL连接器根据SQL语句和Table API进行数据转换,包括过滤、聚合、窗口操作等。
4)结果编码:转换后的数据需要编码成外部存储可以接受的格式,Flink-sql连接器使用编码器(SerializationSchema)将数据编码输出到外部存储中。
5)错误处理:在数据处理过程中,可能会发生错误,Flink-SQL连接器通过使用ChangelogMode来处理数据的变更和错误。
1.4.2" Flink-SQL UDF(用户定义函数)原理
Flink-SQL UDF(用户定义函数)利用Flink的分布式计算能力,将输入数据分发到并行的任务中进行处理,每个任务都会独立地执行UDF函数,对输入数据进行处理,并将处理结果发送给下游任务。这种并行处理的方式使得Flink能够高效地处理大规模的数据,并实现良好的扩展性。在使用UDF函数时,用户需要定义函数的输入和输出类型,并实现相应的处理逻辑。Flink提供了丰富的数据类型和操作符,可以方便地对数据进行处理和转换。同时,Flink还提供了一些内置的UDF函数,如SUM、COUNT、MAX、MIN等,可以直接使用,无须用户自己实现。
基于Flink-sql连接器和Flink-SQL UDF,领域知识图谱持续构建流程如图6所示。
其步骤如下:
1)数据接入阶段:进行数据源配置,即配置数据源的连接信息,包括结构化数据如PostgreSQL、MySQL,半结构化数据如MongoDB、Kafka,非结构化数据如文本、视频的连接信息配置。
2)Flink任务阶段:根据数据源的类型适配不同的Flink-SQL连接器或调用Flink-SQL的UDF函数。结构化数据如PostgreSQL、MySQL适配PostgreSQL-CDC、MySQL-CDC连接器;半结构化数据如MongoDB、Kafka适配MongDB-CDC、Kafka连接器;非结构化数据如文本、视频调用文本处理、视频处理的Flink-SQL的UDF函数,用于将文本、视频数据提取特征形成结构化数据并默认使用MySQL-CDC连接器。
3)Flink任务阶段到图谱构建阶段:对接入的数据源进行关系配置后,适配图数据库的Flink-SQL连接器(nebula连接器)。同时知识图谱中对应的创建图空间、创建实体、创建关系。
4)Flink任务阶段到图谱构建阶段:根据连接器创建虚拟表,依据关系配置进行数据融合后,对虚拟表数据进行映射,知识图谱中根据映射进行实体抽取、关系抽取。
5)Flink任务阶段:判断知识是否更新或新增,如果更新或新增则对知识图谱进行持续构建;否则任务保持监控知识是否更新或新增的状态。
1.5" 系统功能设计
领域知识图谱构建管理系统以“整合资源,共享数据,提供服务”为指导思想,构建相关领域知识图谱支持上层应用,其功能如表1所示。
2" 系统应用
该系统基于Flink,对结构化、半结构化、非结构化的数据,进行知识抽取、知识融合从而使知识图谱可以持续构建,减少了重复的构建工作,同时也保障了知识图谱的实时性。经过第三方测试报告结果表明,该系统支持TB级的数据更新,知识图谱的更新速度和频率可以达到秒级的实时同步,精确度和准确度可达到99.8%以上。该系统的应用如下:
1)中煤能源智能选煤厂大数据项目:中煤能源智能选煤厂大数据项目是中煤天津院以旗下选煤厂为试点,研究探索如何将BIM、大数据、人工智能等新一代信息技术切实融合到设计、施工、运营过程中,打通三大业务阶段数据共享流通的通道,提高多源信息汇集能力,软硬件及引擎全部实现国产化,建设全新选煤厂三维可视化国产化管理平台。该系统作为中煤能源智能选煤厂大数据项目的子系统成功构建了煤炭相关的物料、运输、人员、设备知识图谱,为重大决策提供了数据支持。
2)雄安新区物联网统一开放平台项目:雄安新区物联网统一开放平台项目是定位全国首个城市级IoT平台,是雄安新区数字孪生城市的基础,是城市超脑运行的底座,通过实现多维感知数据的融合汇聚,形成全域、全时、互联互通的感知体系,有效支撑城市生命线、城市部件、公共安全、生态环境、民生服务等重点领域,实现数字孪生智能新区的基础支撑平台。该系统作为安新区物联网统一开放平台项目的子系统通过实现多维数据的融合汇聚,形成全域、全时、互联互通的领域知识图谱有效支撑了物联网应用。系统应用部分截图如图7所示。
3" 结" 论
本文针对海量、多源异构数据构建领域知识图谱难的问题,设计了一种基于Flink的领域知识图谱持续构建管理的方法,并通过平台化实现领域知识图谱的构建管理。系统的设计和研究对于提高企业或组织的知识管理效率和可靠性、促进知识的共享和创新以及提高竞争力和创新能力等方面具有重要意义。该系统已为多家咨询公司提供服务,结果表明系统不仅统一了数据录入、传输、存储的标准,而且明显减少了数据遗漏的情况,提高了构建领域知识图谱的效率。下一步工作将收集客户需求,优化系统对实时数据进行图谱构建的能力,在智能辅助决策、个性化推荐、语义搜索、智能问答、数据清洗和预处理、知识抽取和表示、知识推理和查询等方面进行更加深入的研究,提高系统的性能和质量,推动该领域的发展和应用。
参考文献:
[1] 邓国民.国际学术交流研究知识图谱:起源、现状和未来趋势 [J].图书馆工作与研究,2018(7):15-22.
[2] 新一代人工智能发展规划推进办公室召开2019年工作会议 [J].电子政务,2019(3):96.
[3] 邓智嘉.基于人工智能的知识图谱构建技术及应用 [J].无线电工程,2022,52(5):766-774.
[4] 梁晓婷.知识图谱工具应用及反思性研究 [J].科技创新与应用,2019(22):156-158.
[5] 艾瑞咨询产业数字化研究部人工智能研究组.一图胜万言,一目了然 中国知识图谱行业研究报告 [C]//上海艾瑞市场咨询有限公司.艾瑞咨询系列研究报告(2022年第8期),2022:323-400.
[6] 数字经济时代的产业升级探索 2021年中国人工智能产业研究报告(Ⅳ) [C]//上海艾瑞市场咨询有限公司.艾瑞咨询系列研究报告(2022年第1期),2022:182-280.
[7] 陆泉,陈静宇,陈帅朴,等.场景化知识图谱及构建方法 [J/OL].情报科学,2023:1-19[2023-10-12].http://kns.cnki.net/kcms/detail/22.1264.G2.20230915.1111.011.html.
[8] 王子维,夏向阳,冯伟.知识图谱在海上油气领域安全风险管理中的应用 [J].船舶工程,2023,45(S1):323-325.
[9] 潘越,刘云汉,于荣欢,等.面向天域感知领域的知识图谱构建技术研究 [J].中国电子科学研究院学报,2023,18(8):707-716.
[10] 张硕.面向科技服务的领域知识图谱构建与应用 [D].北京:北方工业大学,2023.
作者简介:胡建(1991—),男,汉族,贵州贵阳人,工程师,硕士,主要研究方向:数据治理、数据挖掘。