摘" 要:随着网络安全等级测评的持续深入推进,对测评数据进行深入分析和挖掘具有重要意义。针对网络安全等级测评数据,本研究提出了一套包括样本选择、数据分类、模型构建、可视化展示的分析框架模型,该模型首先对选择的测评数据进行分类以及规范化处理,而后进行模型构建主要包括相似度计算和主题构建,并以可视化形式展现。结合医疗领域测评数据进行数据分析实验,结果表明,该模型在深入挖掘数据价值,有效支撑网络安全体系构建方面发挥着重要积极作用。
关键词:网络安全等级测评;相似度计算;主题构建;可视化
中图分类号:TP309" " 文献标识码:A" " 文章编号:2096-4706(2024)21-0102-08
Data Analysis of Network Security Level Assessment
—Taking Medical Field in Hebei Province as an Example
WANG Yunli1,2, CHEN Zhibin1,2, YANG Wenhuan1,2, WANG Cheng1,2, WANG Tiantian1,2, CHENG Bin1,2
(1.Institute of Applied Mathematics of Hebei Academy of Sciences, Shijiazhuang" 050081, China;
2.Information Security Authentication Technology Innovation Center in Hebei Province, Shijiazhuang" 050081, China)
Abstract: With the continuous and in-depth promotion of network security level assessment, it is of great significance to conduct in-depth analysis and mining of assessment data. Aiming at network security level assessment data, this study proposes a set of analysis framework model including sample selection, data classification, model construction, and visualization display, which firstly classifies and normalizes the selected assessment data, and then carries out model construction mainly including similarity computation and theme construction, and displays it in the form of visualization. Combined with the medical field assessment data for data analysis experiments, the results show that the model plays an important and positive role in deeply mining the value of data and effectively supporting the construction of network security system.
Keywords: network security level assessment; similarity calculation; theme construction; visualization
0" 引" 言
网络安全等级保护制度实施以来,等级测评作为其中一个重要环节持续深入推进,测评机构在众多行业领域积累了海量的等级测评数据[1-2]。然而,测评机构一般仅限于生成单次的测评报告,未将数据汇聚并进行充分分析与挖掘利用,浪费了数据巨大的应用价值。因此在网络安全领域,对测评数据进行深入分析和挖掘至关重要。
目前对于测评数据进行分析的研究越来越广泛,从系统所在单位角度看,通过挖掘历史测评数据,能够精准定位本单位网络安全的薄弱环节和潜在风险,发现各个系统中共性安全问题,了解系统多年整改措施的变化情况,以及安全问题是否得到有效解决,从而有针对性地提出改进和优化措施,不断提升系统的安全保障能力,有效助力其网络安全管理和维护工作;从行业主管部门角度看,测评数据分析结果能揭示出行业内普遍存在的主要问题和系统性风险,并根据这些问题制定行业的防护策略或行业标准,提升整体的安全性,通过行业内不同单位的数据的横向对比,能够识别出安全工作相对落后的地区,同时促进安全工作较完善的单位经验分享,从而提升整个行业的安全管理水平;从监管部门角度看,测评数据分析结果可以帮助监管部门有针对性地进行网络攻击的预警、研判和应对,通过对不同类型、不同规模或不同行业的网络系统的测评数据对比分析,了解各类网络系统的安全状况,分析其独特的安全问题和需求,进行有针对性的安全监管和技术支持,进一步完善顶层设计和建设规划[3];从测评机构角度看,通过对测评数据的分析可以了解常见的安全问题及对应测评实施的安全措施,进一步调整优化测评流程和方法,使其更有针对性。
本研究针对网络安全等级测评数据,设计了包括样本选择、数据分类、模型构建、可视化展示的分析框架模型,该分析框架模型为网络安全保障工作的持续优化与发展提供有力的数据支撑和决策参考。
1" 研究设计
1.1" 数据来源与样本选择
本研究使用的测评数据全部采集自河北省的测评机构,主要从测评报告[4]中选取。考虑到数据的代表性,本研究选择了《信息安全技术网络安全等级保护测评要求》(GB/T 28448—2019)中“安全通用要求”以及“安全扩展要求”方面的信息系统[5]。
1.2" 数据分类与模型设计
1.2.1" 数据分类
测评报告2019版、2021版及其他版本都包含测评内容、流程和方法[6],涵盖用户数据、系统数据、资产数据、评估数据和结论数据等信息,如表1所示。
1.2.2" 数据处理
由于测评数据来自不同的测评系统、测评机构,存在着诸如数据存储格式各异、信息冗余重复、关键值缺失、数据中混有错误及数据不一致的情况[7],需要进行数据整合和清洗,以构建一个统一可用的数据集。
1.2.3" 数据建模
为深入分析各单位在网络安全问题上存在的共性,对测评报告中的网络安全问题进行相似度计算。数据规范后,首先针对各单位测评对象的集合采用jaccard相似度计算(仅针对测评对象集合的构成,不涉及语义内容)进行差异性分析。然后,针对测评对象及其存在的网络安全问题进行TF-IDF向量化[8],并进行余弦相似度计算,识别出各单位在网络安全方面存在的共性问题。对比jaccard相似度与余弦相似度,发现测评对象与网络安全问题之间的某种关联。
余弦相似度计算的具体步骤:
1)提取测评报告中各单位测评对象及其网络安全问题。
2)分别将各单位的测评对象及其网络安全问题整合成一段长文本,并对其进行分词,同时自定义词。
3)对分词结果进行去除停用词等清洗处理。
4)计算各单位测评对象及其网络安全问题的TF-IDF值,将文本数据转化为向量形式。
5)利用余弦相似度算法计算每两个单位测评对象及其网络安全问题文本之间的相似度。
6)热力图展示。
相似度得分在0~1之间,得分越接近1说明测评对象“集合”或网络安全问题“语义”之间的相似度越高。
为找到各单位网络安全问题文档集中隐藏的主题结构,本研究使用基于gensim的LDA(Latent Dirichlet Allocation)主题建模[9-10],并对主题模型的结果进行解释和分析,以确定它们对单位网络安全的具体影响。具体步骤如下:
1)gensim分词处理。
2)创建词典(使用句子级别的tokens)。
3)构建文档词矩阵。
4)构建LDA模型。
5)计算LDA一致性得分,结合可视化LDA模型的效果,确定最佳主题数量。
6)重新运行LDA模型,获取每个句子的主导主题。
1.3nbsp; 数据可视化
使用热力图、桑基图(Sankey)等对数据分析结果进行可视化,直观展示数据挖掘结果,增强数据的易读性和理解性,为决策提供支持。整个研究设计流程如图1所示。
2" 医疗领域测评数据分析实验
本研究针对2021—2023年河北省55家医院的等级测评数据,采用相似度计算、主题构建进行数据挖掘,通过实验结果分析得出结论,为各相关方提供有效参考。
2.1" 数据选取
医院的信息系统,一般包括HIS(医院信息管理系统)、PACS(影像储存和传输系统)、LIS(医院实验室信息系统)、EMR(电子病历系统)以及互联网医院系统。在样本选择时,在“安全通用要求”方面,考虑到同一家医院内的HIS、PACS、LIS、EMR系统之间,在机房环境、网络安全、运维等方面存在技术和管理方面的复用,为避免重复分析,本研究仅针对最具代表性的HIS系统进行深入分析;在“安全扩展要求”方面,选取互联网医院系统作为研究对象。本研究选取52家医院的HIS系统、12家医院的互联网医院系统的等级测评数据(其中,有9家医院既有HIS系统又有互联网医院系统)。
2.2" 数据统计
2.2.1" 用户数据和系统数据
52个HIS系统中涉及省级医院6家、市级28家、县级18家,其中三甲、三级(即三甲以下)、二甲、二级(即二甲以下)的比例分别是34.6%、21.2%、30.8%、13.5%;HIS系统供应商,注册地是北京的公司占比55.8%,河北公司仅占比5.8%;东华公司一家独大,HIS系统市场占有率达19.2%。52个HIS系统中,第二级的有1个,第三级的有51个。
12个互联网医院系统均为第三级,有2个系统的扩展要求应用情况未采用“云计算”技术,而是“移动互联”方式,采用的云计算服务均为IaaS模式。
2.2.2" 资产数据
网络设备前三个品牌是H3C、华为、锐捷;安全设备前三个品牌是深信服、H3C、天融信;服务器操作系统Windows和Linux系列占比分别为58.9%、33.76%,数据库ORCLE、SQL Server占比分别为53.9%、26.9%。这些资产数据从设备品牌、操作系统、数据库等维度,可以评估出当前医院国产化产品的发展态势、替代能力。
2.2.3" 评估数据
评估数据包含网络安全问题(包含单项测评、整体测评以及不适用安全要求指标)、风险等级、漏洞扫描及渗透测试、上次测评整改情况等。
以网络安全问题的单项测评为例进行分析,选取的52个HIS系统单项测评数据中显示网络安全问题共有9 387个,75%的医院其安全问题数量低于或等于199个。排名前10的网络安全问题及其对应的测评项[5],如表2所示。涉及高风险的测评项均已实施弥补措施,降为中风险[11]。需要注意的是,同一家医院,针对同类测评对象,若存在相同的安全问题,则按单一数量统计,即多个楼层交换机,如“楼层交换机1”和“楼层交换机2”的同一安全问题仅统计一次。
从52个HIS系统测评数据中,采集医院级别、医院等级、网络安全问题及其对应的风险情况,运用Sankey图来展示数量,四层分别表示医院级别、医院等级、网络安全问题对应的安全类和风险等级,各分支宽度反映流量多少,如图2所示。
分析图2中不同级别和等级的医院网络安全问题,可以发现技术层面以“安全计算环境”问题最为突出,管理层面则集中在“安全建设管理”上,且多为中等风险。“安全计算环境”问题之所以显著,不仅由于网络安全问题的普遍性,更因测评对象种类繁多,包括89种不同的物理网络设备、安全设备、HIS系统、操作系统、数据库等软硬件,相比之下,安全物理环境、通信网络、区域边界及管理中心等测评对象则相对集中。
网络安全问题的整体测评是在单项测评的基础上,对整个系统的控制点间和区域间的互补、增强和削弱等关系进行具体判断,包括安全控制点测评、安全控制点间测评和区域间测评。52个HIS系统的整体测评主要是区域间的修正,由安全区域边界来修正安全计算环境的入侵防范,来降低安全风险。网络安全问题的不适用安全要求指标集中在自行软件开发和密码产品采购、管理。
对于风险等级和漏洞扫描及渗透测试,55家医院在开展等级测评工作时,有5家医院选择放弃或延后实施漏洞扫描和渗透测试,其余医院的测评报告中所附的漏洞扫描报告均是基于实施安全整改后的结果(在预测评阶段发现的高风险,被测单位均已及时修复),揭示的问题均为中低风险。
对于上次测评整改情况,52个HIS系统中15个是首次接受测评;12个互联网医院系统中2个是首次测评。对比上次测评结果,展现出暂未整改的情况主要有:机房未采取电磁屏蔽措施、未采用密码技术进行通信完整性验证、外包软件开发管理不完善、网络拓扑结构存在单点故障、未采用两种或两种以上组合的鉴别技术对用户进行身份鉴别、未部署可信验证设备等方面。
这些评估数据揭示了医疗行业整体的安全态势,为网络安全攻防演练提供有力的数据支持;漏洞扫描报告和渗透测试报告,为相关方提供了系统漏洞的详细信息,从而全面评估系统的安全性。
2.2.4" 结论数据
52个HIS系统(含多次测评的)只有1个等级测评结论是“良”(综合得分80分以上),其余均为“中”(综合得分70分以上),也就是,测评对象中均存在安全问题,但不会导致被测对象面临高等级安全风险。
10个互联网医院系统的云计算平台等级测评结论均为“优”,且结果均复用云计算平台委托的其他测评机构出具的结论[12]。鉴于此,后面就不再进一步分析互联网医院系统。
2.2.5" 管理数据
测评准备阶段5人日,方案编制3人日,现场测评5人日,报告编制5人日。这些管理数据为信息化主管部门在等级测评、风险评估等安全服务中提供了经费、配合时间和人员配置的参考。
2.3" 数据处理
将被测系统的网络设备、安全设备、服务器、终端设备、系统管理软件、业务应用系统等名称进行规范,以确保数据的一致性和准确性,如“医保专线防火墙”“银行防火墙”“卫健委防火墙”等统一规范为“专线防火墙”。
2.4" 相似度计算
对HIS系统进行相似度计算,为确保数据的一致性和可比性,舍弃第二级HIS系统数据,仅采用第三级数据,对51家医院的测评对象进行jaccard相似度计算,对测评对象及其网络安全问题“语义”进行余弦相似度计算,并将计算结果以热力图的形式直观展示,如图3所示。
图3中,医院编号根据医院级别按照县级、市级、省级的顺序由小到大进行排列,且在各级别内医院等级从二级、二甲到三级、三甲进行排列。热力图(a)显示各医院的测评对象集合的相似度相对较高,也就是说通过了等级保护第三级评估的各家医院在网络设备、安全设备等种类方面,整体是一样,差异性不大,如相似度最高的医院10和医院19之间的测评对象集合对比,如表3所示。
整体来讲,医院19的网络安全架构相较于医院10更具完备性。鉴于医院在网络安全和信息化方面的独特思考与侧重点,医院10在进行网络安全整改建设时,可以借鉴医院19。
热力图3(b)中各医院网络安全问题的相似度相对较低,而且从颜色变化来看,相似度并未显示出与医院级别、等级之间的直接关联。
将热力图3(a)和(b)进行对比,同样未发现测评对象集合相似与安全问题相似之间存在直接的关联。
基于相似度计算的结果,对于医院或主管部门来说,可以迅速识别出多家医院在网络安全方面存在的共性问题,网络安全管理人员了解这些问题的普遍性有助于他们制定更有效的修复策略。对于测评机构或监管部门来说,通过比较不同医院的测评报告,可以对网络安全等级测评的流程进行优化,例如,如果发现某些指标在多份报告中频繁出现且相似度较高,那么这些指标可能是重点关注的领域,需要在未来的测评中给予更多关注。异常高的某个相似度,是一个潜在的警告信号,可能某两份测评报告需要进一步调查分析。
2.5" LDA主题构建
针对HIS系统的网络安全问题,基于Gensim分词处理,使用句子级别的tokens构建文档词矩阵,并构建LDA模型,查看模型可视化效果并参考模型一致性指标,确定为3个类别,模型可视化显示如图4所示。
根据主题构建的分类情况,分析结果如表4所示。
第1类,共27家医院(省级医院4家、市级14家、县级9家),主要问题集中在系统自身的安全性不足,如存在默认账户、未定期进行漏洞扫描、系统为单机运行且不具备冗余措施,也未进行过补丁升级,同时在终端准入控制和杀毒软件方面存在缺陷。针对以上问题,医院应首先着手解决系统默认账户的问题,及时修改默认账户的用户名和密码,增强系统的初始安全性。其次,建立定期漏洞扫描机制,以便及时发现和处理潜在的安全威胁。对于系统的单机运行且无冗余措施的状况,应逐步构建冗余系统,提高系统的可靠性。同时,务必重视补丁升级工作,确保系统始终保持在最新的安全状态。在终端准入控制方面,制定严格的准入规则和流程,加强对终端设备的管理。另外,选择有效的杀毒软件,并保持其及时更新,提升终端的防护能力。
第2类,共13家医院(市级医院7家、县级6家),突出表现在应用系统和服务器交换机相关的安全隐患,包括未定期对备份数据进行恢复测试、未采用密码技术、未重命名默认账户,以及在终端安全管理和可信验证方面的不足。建议医院建立完善的数据恢复测试制度,定期对备份数据进行恢复测试,以确保在紧急情况下能够有效恢复数据。在密码技术应用方面,应采用先进的加密算法对敏感数据进行加密处理,保护数据的机密性和完整性。对于默认账户,立即进行重命名,并设置复杂的密码。同时,加强终端安全管理,实施终端设备的注册、认证和授权机制。此外,部署可信验证设备,增强系统的可信度和安全性[13]。
第3类,共11家医院(省级医院2家、市级7家、县级2家),重点是数据存储和备份方面的安全缺失,如未对重要数据进行加密存储、未提供异地数据备份功能,在系统默认账户处理和可信验证设备部署上也存在漏洞。数据安全至关重要,医院需要立即对重要数据进行加密处理,采用符合行业标准的加密算法,确保数据在存储和传输过程中的保密性。同时,尽快建立异地数据备份机制,选择可靠的备份存储介质和地点,保障在本地发生灾难或故障时能够快速恢复数据。对于系统默认账户,及时进行清理和规范设置,避免因默认账户带来的安全风险。在可信验证设备部署上,应根据医院的实际需求和系统架构,合理规划和部署相关设备,加强对系统和数据的可信验证[14-15]。
综合来看,不同类型的医院在网络安全方面存在的问题各有侧重,但都需要引起高度重视。医院应根据自身的类别和实际情况,有针对性地制定和实施网络安全整改措施,加强人员培训和管理,提升全体员工的网络安全意识,建立健全网络安全管理制度和应急响应机制,确保医院的网络系统安全稳定运行,保护患者的隐私和医疗数据的安全。
3" 结" 论
本研究基于机器学习算法,针对网络安全等级测评数据的分析需求,设计了包括样本选择、数据分类、模型构建、可视化展示的分析框架模型,通过相似度计算、主题构建等分析手段,挖掘数据潜藏价值,为网络安全保护带来新的视角和解决方案。鉴于等级保护数据的敏感属性,当前实验受限于较小规模的数据集,可能影响分析结论的全面性与泛化能力,这是我们未来研究中需考虑的重要因素。
展望未来,如何有效汇聚并整合测评机构海量的测评数据资源,以及如何最大化地将数据分析成果转化为各行业赋能,是需要继续研究的重点内容。我们将积极探索和应用新的数据挖掘技术,让网络安全等级保护测评数据在未来发挥更大的价值。
参考文献:
[1] 郭启全.网络安全保护平台建设应用与挂图作战 [M].北京:电子工业出版社,2023.
[2] 罗峥,袁静,马力,等.国家网络安全等级保护测评体系标准应用实践 [J].信息技术与标准化,2022(5):45-49.
[3] 赵佳璐,李格菲,葛晓囡,等.基于数据挖掘的等级保护测评数据再利用模型研究 [J].信息安全研究,2024,10(4):353-359.
[4] 中关村信息安全测评联盟.关于转发《网络安全等级保护测评报告模板(2021版)》的通知录 [EB/OL].(2022-10-09).https://www.djbh.net/detail?type=noticeamp;id=6.
[5] 马力,祝国邦,陆磊.《网络安全等级保护基本要求》(GB/T 22239—2019)标准解读 [J].信息网络安全,2019(2):77-84.
[6] 陈广勇,祝国邦,范春玲.《信息安全技术 网络安全等级保护测评要求》(GB/T 28448—2019)标准解读 [J].信息网络安全,2019(7):1-7.
[7] 贺承玮,陈柯序.网络安全等级保护测评中网络安全现场测评方法 [J].网络安全技术与应用,2024(1):12-14.
[8] 喻航,李红莲,吕学强.人大报告内容的文本分类 [J].计算机工程与设计,2021,42(6):1772-1778.
[9] 林广朋.基于LDA模型的网络信息内容安全分类系统设计 [J].长江信息通信,2022,35(7):53-55.
[10] 张宁.基于特征提取与聚类的医院档案数据分类方法 [J].微型电脑应用,2022,38(9):45-47.
[11] 中关村信息安全测评联盟.网络安全等级保护测评高风险判定指引:T/ISEAA 001—2020 [S].北京:中国标准出版社,2020.
[12] 侯爽,李寅,许扬.基于等保2.0标准的互联网医疗系统三级等保测评实践探索 [J].中国数字医学,2022,17(3):101-104.
[13] 汤其宇,王士勇,田鹏.基于等级保护制度2.0下两院区总体安全架构的建设与实现 [J].中国现代医生,2023,61(23):110-113.
[14] 李尚号,王勇.网络安全等级保护制度下的数据安全研究 [J].网络安全与数据治理,2023,42(12):67-70+89.
[15] 李智一,肖勇,沈绍武.湖北省中医医院网络安全建设现状分析与思考 [J].医学信息学杂志,2024,45(4):91-96+102.
作者简介:王云丽(1973—),女,汉族,河北高邑人,研究员,硕士,研究方向:网络安全、数据分析;陈志宾(1978—),男,汉族,河北唐县人,副研究员,硕士,研究方向:网络安全、数据安全;杨文焕(1989—),女,汉族,河北清河人,工程师,硕士,研究方向:人工智能、数据分析;王程(1978—),男,汉族,河北石家庄人,副研究员,本科,研究方向:网络安全、大数据;王甜甜(1997—),女,汉族,河北邯郸人,研究实习员,硕士,研究方向:人工智能;成彬(1973—),男,汉族,河北定州人,研究员,硕士,研究方向:网络安全。
基金项目:河北省科学院高层次人才培养与资助项目(2024G19)