基于企业知识图谱的多源数据融合分析

known 发布于 2025-08-04 阅读(338)

杨椋 柯枫 刘新明 信希涛

摘  要:面向企业知识图谱的构建与分析,通过获取企业信息、企业高管信息、企业新闻资讯信息等,自动构建企业—高管—资讯知识图谱。在构建过程中,对实体的正确引用是推导、分析、构建知识库的基础和保障。构建过程中出现的部分实体重名的问题,对应于实体指称项的歧义性,会造成图谱中部分节点重合、链接错误,进而对整体知识库的构建产生负影响。为此,提出一种基于随机游走的方法解决知识图谱中的实体消歧问题,取得很好的消歧效果。

关键词:知识图谱;实体消歧;随机游走;文本向量

中图分类号:TP391     文献标识码:A 文章编号:2096-4706(2020)23-0100-03

Multi-source Data Fusion Analysis Based on Enterprise Knowledge Map

YANG Liang,KE Feng,LIU Xinming,XIN Xitao

(Institute of Network Technology,ICT(YANTAI),Yantai  264003,China)

Abstract:For the construction and analysis of enterprise knowledge map,the enterprise-enterprise executives-information knowledge map is automatically constructed through acquiring enterprise information,enterprise executive information and enterprises news information. In the construction process,the correct reference to the entity is the basis and guarantee of derivation,analysis and construction of knowledge base. The problem of duplicate name of some entities appeared in the construction process,which corresponds to the ambiguity of entity references,will cause some nodes overlap and link errors in the map,and thus has negative effects on the construction of the whole knowledge base. To this end,a method based on random walk is proposed to solve the problem of entity disambiguation in knowledge map,and get better disambiguation effect.

Keywords:knowledge map;entity disambiguation;random walk;text vector

0  引  言

互联网时代,人类在与自然和社会的交互过程中会产生庞杂的数据。然而,互联网中大量的信息在计算机中的存储和传播形式是计算机不擅长的非结构化形式。图能够有效表示数据和数据之间结构的表达形式,数据的结构化与已有的结构化数据相互关联,就构成了知识图谱。本单位以产业信息作为支撑,构建产业知识图谱,形成一个网络关系图,直观立体展现企业关联,衡量企业内部各要素之间关系的密切度,进一步应用于产业地图与技术撮合。产业知识图谱的构建首先需要实现多源数据融合。

知识获取是从文本数据中通过信息抽取实现的,是构建知识图谱的核心技术。对非结构化数据的抽取又包括实体识别、实体消歧、关系抽取和事件抽取,如图1所示。其中,实体消歧对于知识图谱构建和应用有着非常重要的作用,也是建立语言表达和知识图谱联系的关键环节。

实体消歧可以通过向量空间模型的方法将实体表示成特征向量,获取不同实体之间的相似性。但如何准确获取实体的特征向量,各种不同方式均有其优缺点且没有最优解决方法,此外,针对本项目中的企业及高管数据能够提取的特征向量更少。

1  歧义网络构建

在企查查、东方财富网、新闻库等平台获取企业、高管、资讯等信息,根据资讯中提取的企业名称建立企业与新闻中其他实体间的联系,如果新闻中的企业没有重名的高管,则根据企业高管信息建立企业与高管实体的联系,完成初步消歧。

2  问题的定义

实体的集合H={h1,…,hk},其中hk表示的实体可以是能够观察到的显示实体,也可以是不能被观察到的潜在实体。名称是对实体的引用,实体和名称之间通过源进行连接。源的集合S={s1,s2,…,sk},其中每个源sk都包含一个名称的集合Ni。在S当中所包含的所有名称的集合为E={e1,e2,…,en}=N1∪N2∪…∪Nm。一个名称在整体中可能指向多个实体,但该名称在一个源中的实例只能指向一个实体。如果有k个不同的实体拥有同一个名称,则表示该名称是k歧义的,如图2所示。

3  解决方法

3.1  相对熵随机游走相似性度量模型

获取不同实体之间的相似性可参考基于随机游走的节点相似性度量方法。即在通过构建的企业高管社会歧义网络对每个名称进行消歧时,单独对该名称构建一个社会网络,通过随机游走模型计算名称间的相似性。

随机游走过程中,节点的度越大被访问的概率越高,针对随机游走过程中存在的这个问题,使用基于相对熵的随机游走相似性度量模型[2]RE-model,利用随机游走策略中节点的局部特征进行相似性度量,可以降低对度较大节点的依赖性,这样节点与节点间的结构相似性可以更好地量化。首先通过局部随机游走算法计算得出转移概率矩阵,然后将矩阵进行转置并进行归一化,构造出在t步后每一个节点vi到达任一节点的概率分布pt(vi):

pt(vi)=[pt(vi,v1),pt(vi,v2),…,pt(vi,vn)]  (1)

其中,n为网络中节点数,pt(vi,vj)=,v为网络中节点的集合,pvi,vj(t)为节点vi经过t步随机游走到达vj的概率按照网络度中心性的降序排序选择r个节点,计算经过k步游走后每一个节点到达这r个中心节点的转移概率分布。根据转移概率矩阵M,计算在t时刻节点vi随机游走到中心节点集合D={v1′,v2′,…,vr′}中任一节点的转移概率,形成r维向量,通过归一化得到r维转移概率分布:

pt(vi)=[pt(vi,v1′),pt(vi,v2′),…,pt(vi,vr′)]

其中,pt(vi,vj′)=,根据随机游走策略得到的节点的转移概率计算相对熵,使用相对熵量化节点间的结构差异。定义pt(vi)对pt(vj)的相对熵为:

DKL(pt(vi)∥pt(vj))= (2)

规定当x=0或y=0时,。由于相对熵是非对称度量,定义网络的差异矩阵W=(wij)n×n为:

wij=DKL(pt(vi)∥pt(vj))+DKL(pt(vj)∥pt(vi)) (3)

最后,将差异矩阵转为相似性矩阵SRE-model=(sij)n×n,矩阵项定义为:

(4)

其中,wmax为差异矩阵W中的最大值。并给出算法框架:

输入:网络G=(V,E),随机游走部署t,按度中心性所获得的概率分布维度r。其中V={v1,v2,…,vn}

输出:网络的相似性矩阵SRE-model

步骤1,使用随机游走算法,计算在t时刻节点的转移概率矩阵W;

步骤2,按照节点度中心性选择r个中心节点,根据式(1)计算每个节点的r维概率分布;

步骤3,对1≤i,j≤n,根据相对熵(式(2)和式(3))计算每对节点的wij以构造图G的差异矩阵W,并找到W中的最大值;

步骤4,对1≤i,j≤n,根据式(4)计算每对节点的Sij以构造图G的相似矩阵。

3.2  聚类分析

3.2.1  凝聚式层次聚类

由于高管姓名会分为多少个无法预测,因此使用层次聚类来完成高管姓名的消歧。将每个高管姓名看作一个小聚簇,然后不断地对簇进行合并,直到所有聚簇都合并成一个或者所有分组的相似性小于预定义的阈值为止。

3.2.2  聚类终止条件控制

可以通过设置最后的分组个数或者所有分组的相似性最小阈值来控制聚类过程的终止,但如何设置这两个值,需要根据数据类型及数据规模等多个数据属性进行设置,这需要丰富的经验。针对这一问题,设定了多个递减的簇内相似度值,来控制聚类的终止。并获取层次聚类结果的F评价值、详细聚类结果记录簇内对象的相似度平均值等。随着层数的增加,平均相似度值逐层衰减。衰减策略包括最大值、最小值和平均值衰减,以及它们之间的融合衰减方法。

通过对比各类衰减方式获取的聚类结果评价,得出结论使用三种衰减方式相融合的衰减方式RAll能得到最优的聚类结果。在此基础上,选取了4个候选的衰减度阈值,分别在这4个阈值的基础上得出聚类的评测结果,最终得出在衰减度阈值设为0.5时能够得到最优的结果。

4  实验与分析

4.1  实验设置

使用资讯数据来源于权威网站,如和讯网、东方财富网、新闻库等,选取相关资讯数据共5万条,取其中300家企业约4万条资讯集作为实验训练数据,100家企业约1万条资讯用作评价使用。对资讯数据进行实体抽取,构建知识网络平均度32,抽取实验数据如表3所示。

4.2  评价标准

评价指标有:精准率(Precision)、召回率(Recall)和F1-Score,F1-Score计算公式为:

F1-Score=                            (4)

其中,P是精准率,R是召回率。

4.3  实验过程

使用训练集数据,通过设定最大游走步数t获取不同的相似性结果。第一轮设定t∈(5,10,20,30,40,50,60,70),将结果与实际标准数据库进行比较,当t=30时,结果更准确。第二轮设定t∈(25,26,27,28,29,30,31,32,33,34,35),通过比较验证,当t=30时效果最佳,与真实数据对比精准率较高,F1-Score最高。

接下来,使用相对熵随机游走模型进行实验,其精准率、召回率随相似性阈值变化的实验结果如图3所示。通过不断变化相似性阈值观察变化情况,结合试验数据和图表变化趋势,相对熵随机游走方式在相似度阈值为0.82时,F1-Score最高,达到82.5%。

4.4  实验结果与分析

将随机游走步数设为30,相对熵随机游走相似度阈值设为0.82后,对测试集数据进行处理,跟标准数据进行比对结果如表4所示。

5  结  论

本文通过相对熵随机游走模型获取真实数据的相似性,根据凝聚式层次聚类算法对其进行分组。通过与标准库进行比对分析,发现通过相对熵随机游走获取相似性,再通过凝聚式层次聚类进行分组消歧,能够得到较理想的效果。

抽取资讯中的实体时,语料库会直接影响实体抽取的质量,进而会影响歧义网络的构建以及后续数据的消歧。所以,后期将深入研究如何提高实体的抽取质量,并将现有算法迁移至大数据处理平台,提高准确度。

参考文献:

[1] 姜丽丽.实体搜索与实体解析方法研究 [D].兰州:兰州大学,2012.

[2] 郑文萍,刘韶倩,穆俊芳.一种基于相对熵的随机游走相似性度量模型 [J].南京大学学报(自然科学),2019,55(6):984-999.

[3] ZHU X Y,YANG X M,YING C Z,et al. A New Classification Algorithm Recommendation Method Based on Link Prediction [J].Knowledge-Based Systems,2018,159:171-185.

[4] HASHMI A,ZAIDI F,SALLABERRY A,et al. Are All Social Networks Structurally Similar? [C]//2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.Istanbul:IEEE,2012:310-314.

[5] HE Z,LIU S,MU L,et al. Learning Entity Representation for Entity Disambiguation [C]//NLP-NABD 2015:Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.Guangzhou:Springer Nature,2013:267-278.

作者简介:杨椋(1989—),男,汉族,山东烟台人,信息系统项目管理师高级职称,本科,研究方向:大数据自然语言领域。

标签:  节点 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。