摘" 要:卷积神经网络因其强大的特征提取能力,已成为当前视觉行为识别任务中的主流方法。为应对公共场所吸烟行为有效监测预警,文章提出了一种基于自注意力卷积神经网络的吸烟行为识别方法。通过分析吸烟行为在图像和视频中的关键特征,设计了一种高效的卷积神经网络模型。该模型通过引入自注意力机制,能准确高效提取图像的关键特征,以实现对吸烟行为的准确识别。实验结果表明,所提出的方法在不同场景下均表现出良好的识别效果和鲁棒性,具有较高的实用价值。
关键词:卷积神经网络;吸烟行为识别;自注意力
中图分类号:TP391.4" 文献标识码:A" 文章编号:2096-4706(2024)22-0020-05
Smoking Behavior Recognition Method Based on Self-Attention Convolutional Neural Network
Abstract: Convolutional Neural Network has become the mainstream method in the current visual behavior recognition task because of its powerful feature extraction ability. In order to effectively monitor and warn smoking behavior in public places, this paper proposes a smoking behavior recognition method based on Self-Attention Convolutional Neural Network. By analyzing the key features of smoking behavior in images and videos, an efficient Convolutional Neural Network model is designed. This model can accurately and efficiently extract the key features of images by introducing Self-Attention mechanism to achieve accurate recognition of smoking behavior. The experimental results show that the proposed method has good recognition effect and robustness in different scenarios, and has high practical value.
Keywords: Convolutional Neural Network; smoking behavior recognition; Self-Attention
0" 引" 言
吸烟行为不仅对个人健康构成严重威胁,还对公共卫生环境造成不良影响。在公共场所,吸烟行为的管理和监测一直是个难题。传统的监测方式存在效率低、成本高、易漏检等问题,难以满足现代城市管理的需求。随着计算机视觉和深度学习技术的快速发展,基于视频行为识别技术逐渐成为解决这一问题的有效手段。卷积神经网络作为深度学习领域的重要分支,以其强大的特征提取和分类能力,在视频行为识别任务中表现出色。
目前吸烟行为识别方法大部分是以通过大量的吸烟行为图片与高性能显卡搭建卷积神经网络来进行学习,以达到识别吸烟行为的目的。主流方法基于卷积神经网络的算法,例如YOLO、SSD、R-CNN等。这些神经网络算法具有较高的精度,但在一些特殊场景下识别精准度有待提高[1]。本文提出一种基于卷积神经网络的吸烟行为识别方法,旨在通过自动、实时、准确地识别图像和视频中的吸烟行为,为公共场所的吸烟管理提供有力支持。该系统通过训练和优化卷积神经网络模型,能够学习到吸烟行为的关键特征,并在多种场景下实现高效、准确的识别。
1" 研究进展
在吸烟行为识别领域,一些研究已经取得了显著的进展。传统方法多依赖于特征工程和模式识别技术,通过手工设计特征来区分吸烟行为与非吸烟行为,但这些方法往往受限于特征设计的复杂性和泛化能力的不足。随着深度学习技术的兴起,特别是卷积神经网络的广泛应用,吸烟行为识别迎来了新的突破。卷积神经网络通过自动学习图像中的层次化特征表示[2],能够更准确地捕捉吸烟行为的复杂模式。研究表明,利用卷积神经网络进行吸烟行为识别,不仅提高了识别的准确率,还增强了系统的鲁棒性和泛化能力。张鹏超等[3]在对朱鹮识别是所使用卷积神经网络模型进行轻量化的处理的同时保证了一定的识别精准度。朱高兴[4]通过在YOLOv5的基础上增加多尺度特征检测层,引入协调注意力机制,采用大目标检测的预训练权重文件,对野生吸烟行为识别准确率上面提高了5.6%。朱伟东等[5]对海洋生物检测模型在复杂环境下对小目标存在特征提取能力不足、检测精度低的问题,提出了一种基于改进YOLOv10的海洋生物检测算法。此外,一些研究探索了多模态融合的方法,结合烟雾检测、人体姿态估计等多种技术,进一步提升了吸烟行为识别的综合性能。基于卷积神经网络的吸烟行为识别方法框图如图1所示。
2" 目标检测算法
2.1" 目标检测与行为识别
卷积神经网络因其独特的局部连接、权重共享以及下采样机制,在图像处理领域展现出了卓越的性能,能够自动从原始图像中提取出高层次的抽象特征,为后续的识别任务提供支持。在目标检测方面,本文借鉴了如YOLO、SSD、R-CNN等经典算法,不仅能够准确定位图像中的目标位置,还能通过回归的方式预测目标的边界框,为吸烟行为的初步识别提供重要参考。算法流程如图2所示。对于目标检测部分,算法通过预训练的卷积神经网络作为特征提取器,对输入的图像进行特征映射,生成特征图。然后通过1×1卷积层将通道数转换为类别数[4],最后通过转置卷积层将特征图的高和宽转换为输入图像的大小。因此,模型输出图像与输入图像的高和宽相同,且最终输出通道包含了该空间位置像素的类别预测[5]。
2.2" 基于自注意力的卷积神经网络
为了增强模型对图像中关键信息的捕捉能力,特别是处理吸烟行为识别时可能遇到的复杂场景和长距离依赖问题。本文提出了一种结合自注意力机制的卷积神经网络架构,如图3所示。自注意力机制允许模型在处理每个图像位置时,都能够考虑到其他所有位置的信息,从而捕获到全局的依赖关系[6]。
在本文方法中,自注意力机制被设计为一个独立的模块,并嵌入卷积神经网络的特征提取层之后。该模块接收由卷积神经网络卷积层输出的特征图作为输入,并应用自注意力机制来生成增强的特征表示。给定一个输入序列x1,…,xn,其中任意xi∈Rd(1≤i≤n)。该序列的注意力输出为一个长度相同的序列y1,…,yn,其中:
yi = f(xi(x1,x1),(x2,x2),…,(xn,xn))∈Rd(1)
根据式(1)中定义的注意力汇聚函数f,通过将自注意力机制引入CNN架构中,模型能够在处理吸烟行为识别任务时,更加准确地捕捉到图像中的关键信息。为了使用序列的顺序信息,通过在输入表示中添加位置编码来注入绝对的或相对的位置信息[7]。
假设输入表示X∈Rn×d包含一个序列中n个图像的d维嵌入表示[8]。位置编码使用相同形状的位置[9]嵌入矩阵P∈Rn×d输出X+P,矩阵第i行、第2j列和第2j+1列上的元素[10]分别为:
从图4可以看出,位置嵌入矩阵的第6列和第7列的频率高于第8列和第9列。第6列和第7列之间、第8列和第9列之间的偏移是由于式(2)中正弦函数和余弦函数的交替。
3" 数据集
3.1" 预训练数据集
本文通过使用COCO Keypoints 2017大规模人体姿态数据集作为预训练数据,能够首先学习到丰富的人体结构特征和动态变化模式。数据集包含了的正负样本各10 000张,覆盖了多样化的现实场景和复杂背景。正样本捕捉了室内、室外、车内等多种环境下的吸烟行为,以确保模型能够应对实际应用中的各种情况。负样本则广泛覆盖了日常生活中的各种非吸烟场景,通过增加数据集的区分度,帮助模型更准确地识别吸烟行为。本文算法在COCO Keypoints 2017数据集预训练结果如图5所示。
3.2 图像增强
图像增强旨在改善图像数据的质量,并提升模型的泛化能力和识别性能。在吸烟行为识别任务中,由于实际场景中采集的图像可能受到光照、角度、遮挡等多种因素的影响,直接使用原始图像进行训练可能会导致模型泛化能力不足。因此,通过应用图像增强技术来改善图像质量,增加数据的多样性,是提高吸烟行为识别准确率的有效手段。
本文采用了多种图像增强方法,涵盖了几何变换,如旋转、翻转、裁剪和缩放、色彩变换,如亮度调整、对比度调整和色彩抖动等。将随机裁剪一个面积为原始面积10%~100%的区域,该区域的宽高比在0.5到2之间随机取值。此外,区域宽度和高度都被缩放为200像素。
在训练过程中,对图像进行实时随机增强处理,以使模型能够学习到更加泛化的特征表示。不仅有效地增加了训练样本的数量,还显著提高了模型对光照、角度、遮挡等变化的鲁棒性。同时,通过对测试集进行类似的增强处理,能够更准确地评估模型在实际应用中的泛化能力。吸烟行为图像的数据增强处理如图6所示。
4" 基于自注意力的卷积神经网络
4.1" 目标检测模型
本文设计并实现了一个集成自注意力机制的卷积神经网络模型,其详细参数如表1所示。该模型的核心组件为一个深度卷积神经网络,该网络通过多层卷积层与池化层的结合,实现了计算效率与特征提取精度的双重优化。模型在卷积层之后应用了区域感兴趣池化,该池化层能够聚焦于图像中的关键区域,从而提取出对吸烟行为识别至关重要的特征信息。此外,为了进一步提升模型的识别性能,模型中引入了自注意力机制,该机制能够自动学习图像中各区域的相对重要性,并动态调整其权重,使模型能够更加聚焦于关键特征,从而提高吸烟行为的识别精度与效率。
4.2" 损失函数
损失函数在计算过程中已纳入矩形框A与B的重叠面积及中心点距离作为考量因素,却未将A与B之间的宽高比差异纳入计算范畴,这一局限性限制了模型训练的稳定性与收敛速度的优化潜力。为进一步提升训练性能,本文采用CIoU(Complete IoU)损失函数作为矩形框损失的度量标准。CIoU损失函数通过综合考量重叠面积、中心点距离以及宽高比等多个维度,实现了对矩形框间相似性的更全面评估,从而有助于提升模型在训练过程中的稳定性与收敛效率。
5" 实验及结果分析
5.1" 目标检测实验
本文首先在工控机搭载神经计算加速棒的硬件平台上对算法进行了实际测试和比较。基于实验结果,对算法参数进行调整,并重复实验流程,以在多种环境条件下评估算法的实际表现。在实验过程中,根据实测数据对算法进行了深入分析和优化,以确保在满足跟踪精度的同时,最小化系统的资源消耗。为了实现信息处理的高效性,本研究采用了手动参数调整策略,并在达到预定的精度阈值后终止训练,从而优化了训练过程。系统平台参数如表2所示。
将实时抓拍获取的数据集作为验证集,用以评估模型在真实场景下的性能,如图7所示。为了量化模型分类能力的准确性,记录验证集上的分类损失值(val/cls_loss),该指标通过比较模型预测类别分布与真实类别标记之间的差异来计算。如图8所示,val/cls_loss曲线展现出显著的下降趋势,这一趋势证明了本文所构建的模型在面对未见过的数据时,其分类对象的能力展现出了高度的鲁棒性和有效性。
本文算法与YOLO和SSD算法速度[11]如表3所示。通过对640×640尺寸吸烟行为图像检测实验。结果证明本文算法在准确率方面优于YOLO和SSD算法,平均提升了9%。算法在树莓派4(8 GB)平台上测试结果如表3所示。本算法在GPU上推理速度比SSD快3倍,略低于YOLO算法,准确率高于YOLO算法。
5.2" 基于自注意力的模型预测实验
本文的自注意力使用了非参数的注意力汇聚,根据数据集[12]来绘制模型的预测结果如图9(a)所示。其中,True为真实函数,Pred为预测函数[13]。从绘制的结果可以看出,模型预测线是平滑的,并且更接近真实情况。注意力权重如图9(b)所示,这里测试数据的输入相当于查询,训练数据相当于键,因为两个输入都是结果排序[14]的,所以“查询-键”对越接近,注意力汇聚的注意力权重就越高。说明本文方法在不同场景下均表现出良好的识别效果和鲁棒性。
6" 结" 论
本文提出了一种基于自注意力卷积神经网络的吸烟行为识别方法,通过深入分析吸烟行为的关键特征,并结合自注意力机制,显著提升了识别的准确性和鲁棒性。此外,自注意力模型通过非参数的注意力汇聚,有效地捕捉了图像中的关键信息,并通过位置编码注入了序列的顺序信息,进一步增强了模型对复杂场景的处理能力。模型预测结果与真实情况高度吻合,且注意力权重图显示了模型在不同场景下的识别效果和良好的鲁棒性,展现出了较高的实用价值和应用前景。
参考文献:
[1] 何依婷.基于孪生网络的肺部图像识别 [J].电视技术,2023,47(7):24-27.
[2] 张凤敏.基于情感信息的文本情感摘要 [D].上海:华东师范大学,2022.
[3] 张鹏超,张凡,黄俊霖,等.基于轻量化YOLOv5s模型的野外朱鹮实时检测方法:CN202310243623.0 [P].2023-03-14.
[4] 朱高兴.基于深度学习的野生动物目标检测研究 [D].淮南:安徽理工大学,2022.
[5] 朱伟东,何月顺,陈杰,等.基于改进YOLOv5的海洋生物检测算法 [J].计算机与数字工程,2022,50(8):1631-1636.
[6] 赵振扉.具有语义感知及生成对抗的系统日志异常检测 [D].成都:电子科技大学,2022.
[7] 张颖.基于深度学习的图像语义分割算法研究 [D].绵阳:西南科技大学,2021.
[8] 程思一.基于深度学习的甲状腺医学影像辅助诊断技术研究 [D].杭州:杭州电子科技大学,2022.
[9] 孙枕涟,周海波,雷敬婕.交通违法AI检测系统的设计与实现 [J].智能建筑,2020(3):42-44.
[10] 梁清源.一种基于预训练模型的数据库操作代码生成模块的设计与实现 [D].北京:北京大学,2022.
[11] 马司周.基于深度学习的多序列气温预测研究 [D].兰州:兰州理工大学,2022.
[12] 陈开润.数字病理图像组织区域半自动分割模型的研究与实现 [D].重庆:重庆大学,2020.
[13] 李晨曦,娄根,李慧姝,等.面向电力场景作业机器人的目标检测方法研究 [J].现代计算机,2021(18):109-112.
[14] 葛吴飞.端云协同智能的知识追踪方法研究 [D].贵阳:贵州师范大学,2023.