基于深度学习的涉密敏感信息识别技术研究

known 发布于 2025-08-25 阅读(341)

摘" 要:为提升涉密敏感信息管理工作智能化水平,该文提出一种BERT-BGRU-CRF深度学习方法,实现对涉密敏感信息的自动识别。该方法先是采用BERT模型对文本信息进行预处理,再采用双向门控循环单元(BGRU)模型获取上下文语义特征,最后将提取后的信息输入到条件随机场模型中进行序列标注,从而得到最优解。实验结果表明,在自建数据集上,所提方法相较于BERT-CRF、BERT-LSTM-CRF、BERT-BiLSTM-CRF三个识别方法,在精确率、召回率和F1值等方面均取得了较高的分数,证明该方法是适用于涉密敏感信息智能识别工作的。

关键词:敏感信息识别;深度学习;门控循环单元;BERT;条件随机场

中图分类号:TP391;TP18 文献标识码:A" 文章编号:2096-4706(2024)11-0171-05

Research on Sensitive Information Recognition Technology Based on Deep Learning

ZENG Qingrui

(AECC Guiyang Engine Design Research Institute, Guiyang" 550081, China)

Abstract: To improve the intelligence level of sensitive information management work, this paper proposes a BERT-BGRU-CRF Deep Learning method to achieve automatic recognition of sensitive information. This method first preprocesses the text information using the BERT model, then uses the Bidirectional Gated Recurrent Unit (BGRU) model to obtain contextual semantic features, and finally inputs the extracted information into the Conditional Random Field model for sequence annotation to obtain the optimal solution. The experimental results show that on the self-built dataset, the proposed method achieves higher scores in accuracy, recall, and F1 value compared to the three recognition methods BERT-CRF, BERT-LSTM-CRF, and BERT-BiLSTM-CRF, proving that this method is suitable for intelligent identification of sensitive information.

Keywords: sensitive information recognition; Deep Learning; Gated Recurrent Unit; BERT; Conditional Random Field

0" 引" 言

涉密敏感信息识别与分析是军工科研单位日常保密管理的重要工作内容。在内部管理方面,当前传统文件定密、标密等工作主要通过人工判别涉密敏感信息点的方式进行,工作效率较低且存在标密不准确的现象,如何依赖信息化技术提高敏感信息判定工作的效率,提高定密、标密等工作的准确性和智能化水平,是当前保密工作的现实问题和迫切需求[1]。在外部管理方面,随着互联网技术的快速发展,网络空间失泄密问题正在日益加剧,如何快速实现对网络空间涉密敏感信息的预警,及时发现和切断涉密敏感信息传播渠道,消除或降低影响也是未来国家安全保密工作的重要工作范畴。

深度学习作为人工智能的代表性技术,在对象理解加深、特征学习以及分类预测方面表现突出,可以帮助人类理解和总结文本信息,在敏感信息识别方面具有较大的潜力,是当前研究的热点领域。刘聪[2]基于情感分析算法设计了一种敏感信息识别方法并建立了相应的识别系统;黄建桥[3]基于BiLSTM-CRF模型实现了对网络敏感信息识别;李姝等[4]提出了融合关键词特征的Mer-Hi-Bert方法实现互联网新闻敏感信息识别;童瀛等[5]利用深度神经网络对网络中高敏感信息的实现监测与预警;朴承哲[6]构建了网络敏感信息的传感信息融合识别模型;王亚欣[7]设计了一种先是采用预训练语言模型进行预处理再采用双向长短时记忆(BiLSTM)和双向门控循环网络(BGRU)模型的敏感信息识别模型;黄诚等[8]提出了一种基于ELMo语言模型词嵌入和A-ELMo注意力机制的敏感信息检测方法;路松峰等[9]提出了融合变体字还原和语义分析的敏感信息检测模型。Neerbek等[10]提出了一种在递归神经网络中将敏感文档与非敏感文档分开的学习短语结构,能够用于更复杂的敏感信息特征检测;Yang等[11]提出这是一种基于用户隐式规范识别敏感数据的自动化方法,在该方法中综合考虑了语义、句法和词汇信息,以描述性文本的语义来识别敏感数据。

实现涉密敏感信息的智能化、精准化管理,是未来保密工作的重要研究课题。本文利用深度学习技术对涉密敏感信息智能化识别进行了初步的研究,提出了BERT-BGRU-CRF模型,并在基于开源信息构建的涉密敏感信息数据集上,与其他三个模型进行了对比验证,证实了所提方法的可行性。

1" 识别方法

涉密敏感信息识别本质上是一项命名实体识别工作。本文提出了一种基于BERT-BGRU-CRF深度学习模型的军工敏感信息识别方法,模型结构如图1所示。具体步骤如下:

1)数据预处理,即对原始的敏感信息文本数据集进行处理,并将数据集为H = {h1,h2,…,hn},其中第i个敏感信息文本为hi = lt;wi1,wi2,…,wingt;。预定义实体类别为C = {c1,c2,…,cm}按字符等级划分和标注,标注时字符和预定义类别用空格分隔。

2)构建敏感信息文本训练数据集。

3)模型训练,即训练BERT-BiGRU-CRF识别模型。以敏感信息文本集为例Dtest = {d1,d2,…,dn}作为输入,并将实体及其对应的类别对作为输出:{lt;m1,c1gt;,lt;m2,c2gt;,…,lt;mn,cngt;},其中实体mi = lt;hi,bi,eigt;为文档中出现的实体;hi、bi和ei分别为hi中mi的首尾位置,且实体间没有重叠要求,即ei<bi+1。

BERT-BGRU-CRF模型包括三层结构,第一层BERT模型,主要是输入的文本信息进行初步的预处理,将句子中的每个单词转换为低维向量形式;第二层BGRU模型,对预处理后的信息开展编码和解码工作,旨在从上下文中自动提取语义和时间特征;第三层CRF模型,旨在求解输出标签之间的依赖关系,得到文本的全局最优标注序列,生成敏感词的预测结果。

1.1" BERT模型

BERT预训练语言模型自2018年由谷歌发布以来,已在越来越多的自然语言处理研究中用作下游任务的第一个模型。BERT模型采用了双向Transformer作为其特征提取器,所以具有较强的特征提取能力,在经过优化改进后,在各种文本挖掘任务中具有广泛的应用潜力。在BERT-BGRU-CRF模型中,可直接将整个句子输入到BERT模型中,经该模型特征提取后再以特征向量的形式输出,用作下一层模型的输入。BERT模型的预训练由“预训练-微调”两个阶段构成。本文所提的模型中,输入的句子输入到BERT模型中,首先调用BERT模型在预训练阶段已经训练好的参数,对模型进行初始化操作,后在自建的敏感信息数据集上对模型进一步“微调”,完成敏感信息识别任务中的文本初始向量化工作。

1.2" BGRU模型

门控循环单元(Gated Recurrent Unit, GRU)是在长短期记忆网络(LSTM)神经网络基础上,通过将LSTM模型的遗忘门和输入门合并得到更新门,并增加细胞和隐藏两个状态的方式,对LSTM模型改进优化,得到的神经网络模型。相较于LSTM模型,改进后的GRU模型在保持了前者特征提取效果的同时,不仅有效解决了重要信息记忆过程中的梯度消失问题,同时也具有模型结构简单、快速收敛、模型参数较少等优点,其结构如图2所示。

在图2中,t为模型所处的某一时刻,xt为某一时刻的输入,ht为模型在某一时刻的输出。在模型动态门结构中,更新门zt主要作用在于控制前一时刻(即t-1)隐藏层的输出对当前时刻(即t时刻)隐藏层的影响程度,而重置门rt主要功能是控制忽略前一时刻(即t-1)隐藏层中的有效信息的程度,其输出范围值从0到1,其中0值为完全丢弃当前信息,并允许忘记前一计算状态,1为完全保留。GRU的计算式如(1)~(4):

zt = σ (Wz [xt,ht-1] + bz)" " " " " " " " " (1)

rt = σ (Wr [xt,ht-1] + br)" " " " " " " " " (2)

= tanh(Wh [xt,rt ht-1] + bh)" " " " " " " (3)

(4)

其中,ht-1为在t-1时刻隐藏状态输出的激活值; 为t时刻候选隐藏状态;W为单元的权重,b为单元的矩阵偏置。

由于GRU是一种单向神经网络结构,状态的传递是从前到后的,为了获取来自两个方向的上下文语义特征,在本文所提出的模型中使用BGRU [12]模型在前后方向上开展信息提取,最终输出的信息是:

(5)

其中, 和" 分别为在t时刻的隐藏状态下,正向GRU和反向GRU。

1.3" CRF函数

敏感信息识别本质上是一个多分类问题。经过BGRU层后得到整个句子的向量表示后,将其输入到CRF层中,防止可能会出现的标注无效情况。CRF通过将所有特征进行全局归一化来得到全局最优解,能够较好地解决标记偏置等问题。

对于给定输入序列x = (x1,x2,…,xn)和对应的标签序列y = ( y1,y2,…,yn)CRF定义评估分数为:

(6)

其中,W为转移矩阵, 为从标签yi-1到标签yi的转移概率, 为输入xi映射到标签yi的非归一化概率。

输入序列到标签序列的对应概率p ( y x)可用Softmax函数进行计算:

(7)

其中,Yx为所有可能预测的标签序列。

在训练中,最大化p ( y x)的对数似然,可将损失函数定义为:

(8)

解码时,选择y*为输出预测标签序列,通过动态规划算法求得最优解:

(9)

2" 实验与分析

2.1" 实验数据

由于保密的需要,本文中所采用的数据主要以外军同类型装备开源信息为主。数据信息主要涉及武器装备档、相关研究论文、新闻、论坛等。由于部分数据存在较多特殊符号,在数据集构建过程中采用正则表达式等方式对原始数据进行了预处理。通过整理得到敏感信息数据12 100条,将敏感信息定义为机构(ORG)、指标(IND)、进展(PRO)、名称(NAM)、事件(EVE)、用户(USE)6类,并采用BIO标注规范进行标注(如图3所示),共计8 634个敏感关键词。根据实验要求,将构建的数据集按照8:1:1进行划分训练集、验证集和测试集,用于模型的训练、验证和测试。数据集分布如表1所示。

2.2" 实验环境及参数设置

实验所采用的实验环境配置,如表2所示。

BERT-BGRU-CRF模型参数的设置对模型的识别精度和工作的稳定性有很大的影响。本文为了充分利用预训练模型,BERT层采用与官方模型发布的超参数保持一致,如表3所示。BERT-BGRU-CRF模型参数通过调参优化获得,主要参数调参结果如图4-7所示。当前常见的优化器主要包括SGD、Adagrad、RMSProp、Adam和Adamax,由图4可知,训练模型使用Adam优化器效果最好、准确率最高。选定优化器后对模型训练次数Epoch、模型批量大小batch size和学习率lr分别进行调整,由图5-7可知,当模型Epoch设置为25、batch size设置为32、学习率lr设置为0.001时,模型能够获得较好的识别效果。

2.3" 评估标准

通过准确率P、召回率R和调和平均值F1对识别指标进行实验结果评价,具体公式为:

(10)

(11)

(12)

其中:Tp为模型正确识别出的敏感词数;Fp为模型识别出的不相关敏感词数;Fn为模型没有检测到的敏感词数。

2.4" 实验结果及分析

为验证本文所提出的敏感信息方法的有效性,本文将该模型,分别与BERT-CRF、BERT-LSTM-CRF以及BERT-BiLSTM-CRF三个识别方法在前文构建的数据集上分别进行对比实验,对比其精准率、召回率以及F1值,实验结果如图8、9所示。

通过图8、图9可知,BERT-BGRU-CRF方法相较于BERT-BiLSM-CRF、BERT-LSTM-CRF、BERT-CRF等方法其准确率分别提升了1.03%、2.00%、3.94%,其F值分别提升了0.85%、1.84%、4.03%,这表明所提方法具有可行性,可以满足涉密敏感信息识别工作的要求。对比分析BERT-BGRU-CRF与BERT-BiLSTM-CRF两种方法,作为BiLSTM模型的重要改进,BGRU在准确率和F值提升仅为0.99%和0.79%,这可能与所构建的数据集多是领域信息,特征较为明显有着直接关系。综上分析四种方法可知,领域文本上下语义蕴含着重要且丰富的信息,敏感信息识别需要注重对长句子信息的提取。

3" 结" 论

针对当前涉密敏感信息人工识别工作量大、耗时耗力等问题,本文提出了BERT-BGRU-CRF深度学习方法,并在自建敏感信息数据集上通过实验对比验证了该方法的有效性。研究结果表明,深度学习技术在涉密敏感信息的识别上具有较高的应用潜力,既可在内外网数据交换、文件定密等过程中实现对信息的初步鉴别,也可对公共网络空间相关敏感信息进行全天候监测预警,是未来安全保密技术的重要发展方向。在以后的研究中,一方面既要进一步丰富涉军领域敏感数据,加大对行业“黑话”、变体信息、缩写词等信息的识别分析等,另一方面,也要加大对敏感信息识别方法的性能优化和应用场景拓展。

参考文献:

[1] 杨玮祺.基于深度学习的辅助定密系统研究与实现 [D].北京:北京交通大学,2021.

[2] 刘聪.基于情感分析的敏感信息识别方法研究 [D].南京:南京理工大学,2020.

[3] 黄建桥.基于深度学习的网络敏感信息感知研究 [D].武汉:湖北工业大学,2020.

[4] 李姝,张祥祥,于碧辉,等.互联网新闻敏感信息识别方法的研究 [J].小型微型计算机系统,2021,42(4):685-689.

[5] 童瀛,周宇,姚焕章,等.深度神经网络的网络高敏感信息预警算法 [J].西安工程大学学报,2021,35(1):69-74+87.

[6] 朴承哲.基于改进深度学习的网络敏感信息快速过滤研究 [J].宁夏师范学院学报,2021,42(1):85-90.

[7] 王亚欣.基于文本内容的敏感信息识别 [D].兰州:兰州大学,2022.

[8] 黄诚,赵倩锐.基于语言模型词嵌入和注意力机制的敏感信息检测方法 [J].计算机应用,2022,42(7):2009-2014.

[9] 路松峰,郑召作,周军龙,等.融合变体字还原和语义分析的敏感信息检测 [J].湖北大学学报:自然科学版,2023,45(6):879-887.

[10] NEERBEK J,ASSENT I,PETER D. Detecting Complex Sensitive Information via Phrase Structure in Recursive Neural Networks [C]//22nd Pacific-Asia Conference on Knowledge Discovery and Data Mining.Melbourne:Springer,2018:373-385.

[11] YANG Z Q,LIANG Z K. Automated Identification of Sensitive Data from Implicit User Specification [J/OL].Cybersecurity,2018,13(1)[2024-02-18].https://cybersecurity.springeropen.com/articles/10.1186/s42400-018-0011-x#citeas.

[12] YU Q,WANG Z Y,JIANG K W. Research on Text Classification Based on BERT-BiGRU Model [J].Journal of Physics:Conference Series,2021,1746(1):012019.

作者简介:曾庆瑞(1983.02—),男,汉族,山东菏泽人,工程师,本科,研究方向:安全保密技术。

收稿日期:2024-03-13

标签:  模型 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor