基于改进YOL0v8n的轻量化工地堆放木材异常检测算法

known 发布于 2025-08-25 阅读(208)

中图分类号:TP183:TP391 文献标识码:A 文章编号:2096-4706(2025)07-0058-07

Abstract:When the timber materialsare stackedontheconstruction site,theoutdoorenvironment is prone to abnormal problemssuchas moisture deformationand drycrackingonthe surfaceofthe timber.Aimingatthe problems ofpooraccuracy andhighcomputationalcomplexityoftheexisting detectionalgorithmsonthesurfaceof timber materials,alightweightsmall target detection algorithm(YOLO-ESN)basedonYOLOv8nis proposed.Thealgorithm introduces the SpatialandChannel ReconstructionConvolution (SCConv) module and the Normalized WassrsteinDistance (NWD)lossfunction forsmal target detection.Atthesametime,itembeds theEffcientMulti-ScaleAtention(EMA)modulebasedonCross-SpatialLeaminginto thebackbone network toreduce the impact ofoccusionandbackgroundinterference.Theimprovedalgorithmis experimentally verified on the timber defect dataset. Compared with the original algorithm,its is increased by 3 . 6 % ,and the parameter quantity is reduced by 23 . 3 % ,which realizes the real-time and accurate detection of the abnormal situation of stacked timbermaterials.

Keywords: improvedYOLOv8nalgorithm; constructionsite timber anomalydetection; lightweight; smalltargetdetection

0 引言

木材作为生物材料常年暴露在室外,易受人为操作不当、虫蛀等因素影响而受损。而且木材在潮湿环境中容易吸收水分,进而导致膨胀、变形。潮湿的木材还容易滋生霉菌和害虫,降低木材的使用寿命[1]。在施工中使用这些受损的木材,可能会带来诸多安全隐患[2]。

在工地安全监管领域,传统的工地木材检查方式主要有人工检查和机器检测。人工检测木材缺陷效率低下,且带有主观性[3]。机器检查则存在操作不便、维护成本昂贵的问题。这些因素限制了人工和机器检查的大规模应用。

近年来,深度学习技术兴起,随之出现的卷积神经网络有力地推动了目标检测的发展。基于深度学习的卷积神经网络目标检测算法依据检测阶段可分为两类:一类是二阶段检测算法,例如R-CNN4、Fast-RCNN[5]以及Faster-RCNN等方法;另一类是单阶段检测算法,涵盖YOLO系列、SSD系列以及OverFeat等。在工地监测物料异常时,可能会遭遇目标较小导致检测不准确以及模型参数过大等问题。

其中,YOLOv8n作为YOLO系列中的模型,具备更高的精度和更小的参数量,成为实现工地安全自动化监控[10]的关键技术之一。针对上述问题,本文选用综合性能优异的YOLOv8n作为基准模型,并在其基础上对小目标检测的综合性能[1以及轻量化程度进行提升。本文将通过增添注意力机制、更换卷积方式和改进损失函数等手段,使YOLOv8n在工地木材物料异常检测方面更加高效。

1 YOL0v8n简介

YOLOv8能够应用于目标识别、姿态估计以及实例分割等任务。本文选用体积小、精度高的YOLOv8n网络,其网络结构如图1所示。在网络结构方面,YOLOv8n做出了更具适应性的改进,使用数据流动性更为高效的模块C2F替换了原本的C3模块。在C2F中,通过拼接来自不同深度的特征,使提取的不同特征得以充分融合。

图1YOL0v8n结构图

2 本文模型

2.1 YOLO-ESN检测算法

本文以YOLOv8n为基础算法进行改进,提出YOLO-ESN检测算法,其算法网络结构如图2。该算法主要有3个改进部分。鉴于工地背景复杂,而YOLOv8n提取有效信息的能力有限,于是在Backbone最下方加入EMA注意力机制[12]。利用注意力机制的特性,将注意力聚焦于更为关键重要的特征,从而能从大量信息中筛选出相对重要的信息,进而提升模型的检测精度。由于检测目标中存在目标较小的情况,为解决对小目标的敏感性不足和漏检率较高的问题,引入NWD[]来替换原模型的IoU损失函数。NWD可以一致地反映分布之间的距离,进而始终如一地反映边界框之间的相似性,有助于提高模型对小目标的检测性能。为确保该算法能够实现实时检测,引入轻量型SCConv卷积模块[14]替代之前C2f中的Bottleneck。该模块能够显著降低模型的计算复杂度和参数量,使模型在工地场景中得以高效运行。

图2YOLO-ESN结构图

2.2 改进主干网络

对于尺寸较小或受遮挡的木材,YOLOv8n的主干网络提取有效信息的能力有限。而注意力机制能够减轻遮挡带来的影响,捕捉关键特征[15]。因此,在主干网络Backbone中加入注意力模块,增强对目标的关注度,从而提升模型的检测精度。

注意力机制能够自动为不同的输入部分分配不同程度的注意力权重,突出重要部分,同时抑制不太重要的部分。Hu等[率先提出通道注意力机制SE(SqueezeandExcitation)模块。之后,在SE的基础上又提出了空间与通道注意力机制CBAM(Convolutional Block Attention Module)[17],该机制还考虑到了空间因素。随后,Su等提出EMA(Multi-ScaleAttention)注意力机制。该注意力机制将不同资源上的特征分成多组,使每组特征在空间中均匀分布,利用不同尺度的卷积来提取多尺度特征,通过一个注意力分支计算每个尺度特征的权重重要性,并将不同尺度特征加权融合,得到最终的特征表示。EMA注意力机制结构如图3所示。

输入特征图 X ,EMA根据通道维度划分出 G 个子特征组 X = [ X 0 , X:⋅ s X G-1 ] 。由图3可知,EMA划分出3条并行的通道来提取分组特征图的注意力权重,其中两条通道提取一维特征,第三条提取三维特征。在一维特征通道中,两个一维全局平均池化分别沿着两个空间方向对特征进行提取;在三维通道中,仅有单个内核用于捕获多尺度特征。捕获完成后,通过跨空间信息聚合方法对输出特征进行计算,计算结果为两个空间注意力权重值的总和。之后,再通过Sigmoid激活函数突出显示所有像素的全局上下文像素,最终输出特征图 X ,输出特征图与输入特征图的维度一致。

图3EMA模型图

EMA注意力机制实现了不同通道之间的特征交互,可以扩大特征空间,提高响应速度,适合识别较小的目标。因此,本文将EMA注意力机制置于YOLOv8n网络的Backbone结构中,这有利于提升网络对工地中木料异常情况目标的特征提取能力。

2.3 轻量化模型

轻量型模型是一类在不显著损失精度的前提下,尽可能降低模型参数量、计算量以及存储需求的神经网络模型。早期出现的轻量化模型大致分为两类,即SqueezeNet[18]和MobileNet[19]。SqueezeNet通过引入深度可分离卷积,降低了标准卷积层的计算成本;MobileNet则采用分组卷积等技术,以适应边缘设备的资源限制。后来的MobileNetV2引入反向残差块,进一步优化了设计。这些改进使得卷积神经网络在维持一定准确率的同时,计算量和参数量大幅下降。之后,He等人提出了SCConv(SpatialandChannelReconstructionConvolution)空间和通道重建卷积。SCConv是一种可直接替代标准卷积操作的插件式卷积模块,能够应用于各类卷积神经网络中,用以降低冗余特征并减少计算复杂性。

由于原YOLOv8n网络中的C2f结构较为复杂,致使模型计算量较大、检测速度慢,不利于在工地应用场景中的嵌入式设备上部署。针对这一问题,SCConv模块能够利用特征图之间的空间和通道进行冗余压缩,进而减少冗余计算并促进代表性特征的学习。因此,使用SCConv模块替换C2f中的

Bottleneck,提出了C2fSC模块,C2fSC模块的替换结构如图4所示。改进后的C2f能够在减少资源消耗的同时,提升模型的检测性能。

图4C2f-SC模块替换结构

2.4 损失函数的改进

在机器学习中,损失函数用于衡量模型预测值与真实值之间的差异。本文主要研究提升工地中小目标的检测性能,而YOLOv8n的损失函数IoU在检测小目标物体时,对微小物体的位置偏差极为敏感。所以,使用IoU度量可能出现遗漏或误检问题,致使模型的检测精度降低。因此,本文引入基于Wasserstein距离度量方式的损失函数NWD,来替代标准的IoU。

NWD通过用Wasserstein距离取代IoU,成为一种新的评估方法,其原理为:先将之前的预测框和真实框转换为高斯分布,把之前的IoU计算转变为计算高斯分布两条直线的距离,之后使用Wasserstein距离计算这两条直线的距离。假设边界框 ,真实框 建模的高斯分布为 ,Wasserstein计算式为:

之后将 归一化获得NWD新度量式:

式中: C 为一个与数据集密切相关的常数; 为预测框 A 的分布模型; 为真实框 B 的分布模型。

NWD损失函数通过引入二维高斯分布的Wasserstein距离,能够更准确地反映预测框与真实框的重叠状况,进而让模型有效地提升检测精度。

3 实验验证与分析

3.1 数据集

由于木材表面缺陷领域缺乏大规模的公共数据库,本研究采用的是Kodytek等公开发布的高分辨率木材表面缺陷图片。为证实YOLO-ESN改进模型在检测方面具有有效性,选取其中最具代表性的八种类别作为木材缺陷检测数据集。这八种缺陷类型分别是石英(Quartzity)、活结(Live_Knot)、树髓(Marrow)、树脂(Resin)、死结(Dead_Knot)、带裂纹的结(Knotwith_crack)、缺陷(Knot_missing)、裂纹(Crack)。将共计4000张图片按照7:1的比例划分为训练集和测试集。每种类型图片数量和框数如表1所示。

表1缺陷类型数量

3.2 实验环境

该实验的操作系统为Windows10,使用显存为16GB、型号为NVIDIAGeForceRTX3080的GPU。程序设计语言采用Python3.10,算法框架为PyTorch2.2.1。在YOLOv8n训练时,迭代次数设置为100次,batch size为8。

3.3 实验评价指标

为了验证本文模型的检测性能,实验采用精度 P (Precision)、召回率R(Recall)、平均精度均值

mAP(meanAveragePrecision)、参数量(Parameters)、运算速度(FLOPs)作为评价指标。

准确率 P 表示识别正确的数据所占的比例,其计算式为:

召回率 R 指在所有实际为正的样本中,被正确预测为正的样本所占的比例。其计算式为:

其中,TP(TruePositive)表示有木料异常并被正确分类为异常的次数;TN(TrueNegatives)表示木料无异常并被正确分类为无异常的次数;FP(FalsePositive)表示木料无异常却被错误分类为异常的次数;FN(FalseNegatives)表示木料异常却被错误分类为无异常的次数。

平均精度均值(mAP)表示数据集中所有类别的平均精度的均值,计算式如式(5)所示,其中 m 表示测试集中的样本个数:

3.4 消融实验

为了严谨评估本文所提出改进方法的效果,在YOLOv8n基准模型上逐步引入改进方法,开展消融实验,以此验证每个改进措施对算法性能的影响。在此部分,将准确率 P 、召回率 R , 、浮点计算数(FLOPs)、参数量作为评价指标,用以评估模型性能。首先针对注意力机制的加入位置进行对比分析,共设计3种注意力机制加入位置的对比方案,分别是将其加在backbone中的第10层、第13层和第16层。在相同实验条件下,在数据集上开展实验,实验结果如表2所示。

表2不同位置加入EMA性能对比

从表2可以看出,随着层数增加,效果也在不断改进,因此本文将EMA注意力机制置于主干网络最下方时,效果最为显著。随后,针对加入不同模块后的该算法开展消融实验。

由表3可知,首先将C2f改进为C2f-SC后,参数量下降了 34 % , 也有所提升;接着改进损失函数为NWD后,在参数量没有大幅增加的情况下,精度提升了 0 . 7 % ;最后加入注意力机制EMA,尽管参数量有少量提升,但仍比原算法降低了 23 % 精度相较于原算法提升了 3 . 6 % ,能够更好地应对工地中木材异常状况的检测。

表3在木材缺陷数据集上进行消融实验

3.5 效果对比图

对比图6和图7可以看出,YOLO-ESN在检测木材上较小目标的异常情况时,精度有显著提高,并

且能够检测出YOLOv8n未能检测到的异常目标。部分原图如图5所示。通过上述对比可知,YOLO-ESN能够有效应对工地上室外堆放木材异常情况的检测。

图5原图图6YOL0v8n检测结果图

3.6算法精度评价

YOLO-ESN在精度和mAP方面均优于原模型,这表从图8与图9的对比可以看出,经训练后的 明该模型能够更好地用于工地中异常木材的检测。

图8YOL0v8n训练过程图9YOLOv8-ESN训练过程

4结论

为解决实时检测工地中户外木材堆放时出现的孔洞、弯曲、膨胀等异常问题,提出了YOLO-ESN算法。该算法首先引入SCConv模块和NWD损失函数,在提高精度的同时减少了模型参数;同时采用EMA注意力机制来优化检测结果。试验表明,相较于基础模型,该模型的 提升了 3 . 6 % ,参数量降低了23 . 3 % ,实现了对木材异常情况的轻量且准确的检测。

参考文献:

[1]冯利军.建筑安全事故成因分析及预警管理研究[D].天津:天津财经大学,2008.

[2]裴文博,王水亮.建筑工地常见的安全隐患问题原因分析及对策建议[J].建筑安全,2020,35(10):52-55.

[3]QAYYUMR,KAMALK,ZAFART,etal.WoodDefects Classification Using GLCM Based Features and PSOTrainedNeuralNetwork[C]//201622nd InternationalConferenceon Automation and Computing (ICAC).Colchester:IEEE,2016:273-277.

[4] AGRAWAL P,GIRSHICK R,MALIK J. AnalyzingthePerformance of MultilayerNeural Networks for ObjectRecognition[C]//Computer Vision-ECCV 2014.Zurich:Springer,2014:329-344.

[5].GIRSHICKR.Fast R-CNN[C]//2015 IEEE IntermationalConference on ComputerVision(ICCV).Santiago:IEEE,2015:1440-1448.

[6]RENSQ,HEKM,GIRSHICKR,etal.FasterR-CNN:Towards Real-Time Object Detection with Region ProposalNetworks[C]//IEEETransactionsonPatternAnalysisand MachineIntelligence,2015,39(6):1137-1149.

[7]REDMONJ,DIVVALAS,GIRSHICKR,etal.YouOnlyLook Once:Unified,Real-Time Object Detection[C]//2016IEEE Conference on Computer Vision and Pattern Recognition(CVPR).LasVegas:IEEE,2016:779-788.

[8] LIU W,ANGUELOVD,ERHAND,et al. SSD:Single ShotMultiBoxDetector[C]//Computer Vision-ECCV 2016.Amsterdam:Springer,2016:21-37.

[9]SERMANETP,EIGEND,ZHANG X,et al.OverFeat: Integrated Recognition, Localization and Detectionusing Convolutional Networks[J/OL]. arXiv:1312.6229 [cs.CV].[2024-10-16].https://doi.org/10.48550/arXiv.1312.6229.

[10]陈俊宇.探究智慧工地在建筑工程安全管理和质量管理中的应用[J].产品可靠性报告,2023(8):45-46.

[11]韩强.面向小目标检测的改进YOLOv8算法研究[D].长春:吉林大学,2023.

[12] OUYANGDL,HE S,ZHANGGZ,et al.EfficientMulti-Scale Attention Module with Cross-Spatial Learning [C]//CASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICAsSP).Rhodes Island:IEEE,2023:1-5.

[13] WANG JW,XU C,YANG W,et al. A NormalizedGaussian Wasserstein Distance for Tiny Object Detection [J/OL].arXiv:2110.13389 [cs.CV].[2024-10-23].https:/doi.org/10.48550/arXiv.2110.13389.

[14]LIJF,WENY,HELH,et al.SCConv:Spatial andChannel Reconstruction Convolution for Feature Redundancy[C]//2023 IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).Vancouver:IEEE,2023:6153-6162.

[15]CHENYP,DAIXY,LIUMC,etal.DynamicConvolution:Attention Over Convolution Kernels [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:11027-11036.

[16] HUJ,SHENL,SUNG. Squeeze-and-ExcitationNetworks[C]//2018 IEEE/CVF Conference on Computer Visionand Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.

[17]WOOS,PARKJ,LEEJY,etal.CBAM:Convolutional BlockAttentionModule[J/OL].arXiv:1807.06521[cs.CV].[2024-09-28].https://doi.org/10.48550/arXiv.1807.06521.

[18]IANDOLAFN,HANS,MOSKEWICZMW,etal.SqueezeNet:AlexNet-level accuracywith5Oxfewerparametersand lt; 0 . 5 MBmodel size [J/OL].arXiv:1602.07360[cs.CV].[2024-09-12].https://doi.org/10.48550/arXiv.1602.07360.

[19]HOWARDAG,ZHUML,CHENB,etal. MobileNets:EfficientConvolutionalNeuralNetworksforMobile VisionApplications[J/OL].arXiv:1704.04861[cs.CV].[2024-09- 10].https://doi.org/10.48550/arXiv.1704.04861.

作者简介:王浩宇(1996一),男,汉族,山西长治人,硕士研究生在读,研究方向:图像处理

标签:  模型 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor