基于图像识别的矿车装载物识别系统

known 发布于 2025-08-25 阅读(456)

摘 要:目前我国矿山建设领域很多系统存在功能不完善、可操作性差、智能化程度较低、数据无法得到深度利用等问题。引入图像识别技术,对矿车装载物进行识别以此来提高分运效率,是解决上述问题的一个可靠途径。文章首先综合评估Faster R-CNN、SSD、YOLO、RetinaNet四种图像识别算法在矿车装载物分类中的实际性能,发现YOLO模型最佳。其次使用轻量级的MobileNet V3网络替换YOLO的特征提取网络,优化后的模型在保证精度的基础上,大小变为原有的1/5,且在不同环境下都能进行有效识别并分类。最后设计了人机交互界面并搭载触摸屏,实现了整套矿车装载物智能识别系统。

关键词:矿车装载物;智能识别;YOLO;轻量级模型;嵌入式平台

中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2024)20-0102-05

Mine Vehicle Loading Recognition System Based on Image Recognition

DU Sijie, GUAN Shijie, BU Yifan, HUANG Jiachen, HU Zhiheng

(China University of Mining and Technology-Beijing, Beijing 100083, China)

Abstract: At present, many systems of mine construction field in China have problems of imperfect functions, poor operability, low degree of intelligence, and the data cannot be deeply used. The image recognition technology is introduced to identify the mine vehicle loading so as to improve the separation efficiency, which is a reliable way to solve the above problems. Firstly, this paper evaluates the actual performance of four types of image recognition algorithms such as Faster R-CNN, SSD, YOLO, and RetinaNet in vehicle loading classification comprehensively, and it is found that YOLO model is the most suitable. Secondly, the feature extraction network of YOLO is replaced with a lightweight MobileNet V3 network, and the size of optimized model becomes the 1/5 of the original size on the basis of the guaranteed accuracy. And it realizes effective identification and classification in different environments. Finally, it designs the human-computer interaction interface and touch screen is equipped, realizing a set of complete and intelligent recognition system for mining vehicl016R/cb19CSasqQ9rEuEIw==e loading.

Keywords: mine vehicle loading; intelligent recognition; YOLO; lightweight model; embedded platform

0 引 言

煤炭行业是我国重要支柱产业,在我国能源结构中占据主导地位。但现代煤炭产业体系建设中存在许多行业痛点,亟须向智能化方向发展。如传统的以人工操作为主的煤矿副井矿车分运中,需要通过人眼识别分辨矿车装载物,存在误判率高、生产效率低等问题。为了提高煤矿智能化进程,煤炭行业需要进行现代化改革。为了推动煤矿智能化改革,近期的研究提出了一些解决方案。文献[1]提出采用图像除雾和行人目标检测算法来提升监控系统的性能,但需要进一步改进模型的精度。文献[2]利用红外图像信息分割以及基于形态学加权投票法的双通道信息融合技术,有效提高了采煤机作业区域人员检测的准确性、稳定性和适用性。此外,文献[3]提出了基于卷积神经网络的煤矿副井矿车装载物自动分类系统,通过边缘检测等方法实现了矿车的检测,并将检测结果输入基于卷积神经网络的分类算法,验证了卷积神经网络在矿车装载物分类中的可行性。尽管这些方法在一定程度上解决了煤矿副井矿车装载物分类的智能化问题,但由于矿车检测和装载物分类被分为两个独立的网络,会导致输出视频流出现严重的卡顿和掉帧等问题。

在此基础上,进一步运用图像识别技术,根据矿车装载物图像对矿车进行实时智能分运,利用嵌入式平台搭建了识别和控制系统,实现了人机交互。这一系统可以减少对人工判断结果的依赖,提高了煤矿生产的安全可靠性和产出效率。

故本文以Faster R-CNN、SSD、YOLO、RetinaNet四种图像识别算法对矿车装载物识别结果进行综合评价,并采用轻量级网络MobileNe代替YOLO模型的主干网络,以此来减小模型大小,减轻网络负担,提升识别速度。最终完成人机交互。

1 数据集构建及预处理

1.1 数据收集

本研究利用摄像头实地抓拍了约8 000张山东煤矿现场图像,并收集了约1 800张网络公开的煤矿实物图像,总计9 800张图像。这些图像用于建立一个包含煤、矸石和其他物料三种类别的煤矿副井矿车装载物图像数据集。该数据集具有良好的图像质量、样本数量平衡,并覆盖了不同光照条件下的情况。图1展示了三种矿车装载物的示意图,以便更直观地理解数据集的内容。

1.2 数据预处理

在进行图像识别训练前,需对采集到的图像进行预先标注的标签处理。在训练阶段,算法将通过学习这些已经标注的图像来提高其识别能力。本文采用了实地与网络相结合的方式来进行图像采集工作,以准备后续算法训练所需的数据。在图像处理过程中,按照图像识别领域常用的公开数据集PASCAL VOC2007的标准格式对数据进行了标注,并生成相对应的标签文件。为进行标注工作,本文使用Labelme图像标注软件,对JPEGImages中的煤矸石图像进行了人工标注[4]。标注的示例如图2所示,在确定图像中煤矸石的位置的同时,给定其相应的类别名称。这一工作将为后续的图像识别算法提供可靠的训练数据和标签信息。

1.3 图像数据增强

本文目前一共采集了9 800张矿车装载物图像,根据实际生产需求对矿车装载物图像进行人工划分,分为煤、矸石、物料三类图像。为了提高识别速度和识别准确性,需要对图像进行裁切,选择采用对连续帧小图像综合判断的方式提高准确率[5]。我们采集到的矿车装载物图像大小为1 280×960。为了便于后续模型训练,统一将这些图像截取为400×400大小的区域进行识别。

由于矿车经过时间具有不确定性,实地采集到的三种图像数量并不均匀,而算法模型的准确性需依托于大量数据,如果实际样本数量不平衡,可能导致算法无法完成较为真实和准确的特征学习,为进一步提高样本图像的多样性及代表性,需要对数据内已有图像进行增广处理。

在经过空间变换、色彩变换、图像拼接三种方法处理后,本文对数据集中的煤、矸石、物料进行了样本数据增强,使其每种样本数量均扩充为6 000张。然后将各类图像按照5:1的比例划分为训练集和测试集,划分完后的煤、矸石和物料图像训练集共有15 000张,测试集图像共有3 000张。表1为进行数据增强之后煤矿副井矿车装载物数据集划分情况。

2 算法对比

算法选择方面,首先考虑煤矿生产对实时性的要求。因此着重选择检测速度较快的典型单阶段目标检测算法YOLO及SSD进行试验。同时设置了速度较慢的双阶段目标检测算法中比较具有代表性的Faster-RCNN算法作为实验对照。

在保证系统鲁棒性的前提下,考虑到实际生产中矸石的种类远多于煤,因此需要解决煤与矸石样本不平衡的问题。为此引入了RetinaNet网络模型进行结果对比分析。从实时性、准确率、可移植性和体积大小四个方面评估以上算法,对结果进行综合分析,从而选择出最适合应用于煤矿实际生产的算法,将其嵌入到智能分运系统中。所有实验将在服务器环境下进行对比,表2为系统所依赖的实验环境。

实验中分别记录了四种模型在煤矿副井矿车装载物图像数据集上在NVIDIA GTX1080Ti和Jetson TX2上的分类表现,包括训练集准确率、测试集准确率、模型大小以及分类速度。这些指标用于全面评估四种模型在本系统中的适用性。图像识别模型的主要性能体现在分类和定位能力上,而mAP值则是其最直观的评估指标,mAP值越高,说明模型的精度越高。FPS值则用于体现检测速度,代表了目标检测模型的计算性能[6]。在实际应用中,一般综合考虑mAP和FPS两者来评估目标检测模型的性能。表3为将IoU阈值设置为0.8时,各模型的实验数据。

由以上检测结果可知,经典的图像识别模型Faster-RCNN[7]虽然有较高的准确率,但是在检测速度上相较于单阶段的图像识别算法存在很大差距。分析可知,在双阶段的目标检测算法中,加入了区域建议网络,较高的参数量和模型复杂度,使其在实际应用中受到较大的速度制约。该算法对于本系统而言,在处理实时视频流时容易造成系统卡顿。

单阶段图像识别模型SSD[8]在诸多模型中,对显存占用最小,因此SSD模型应用于该数据集时在速度上表现优越,但其在实际应用中,与速度相当的YOLO网络相比,其mAP较低,误报率与漏检率较高,检测精度表现最差。

单阶段目标检测网络RetinaNet在公开数据集上综合表现最佳,在一定程度上针对本项目的数据集中样本不均衡问题有所改善。但作为单阶段目标检测算法,存在速度瓶颈无法突破,且预测准确率较低的问题。

YOLOv4[9]模型的mAP为95.86%,可在矿车装载物的识别过程中达到较高的准确率,且YOLOv4模型的FPS在四种图像识别模型中平均最高,实时性能最好,检测速度最快。

故综合比较四种模型的检出速度、准确率、模型大小等因素,本文选择YOLOv4模型作为该矿车智能分类系统中的核心算法。

但矿车分运系统对实时性能要求较高,在处理视频流时,嵌入式平台Jetson TX2上的FPS应大于10,才能有效避免系统卡顿或实时视频流掉帧等问题。因此,为进一步提高总体系统的实时性,需对现有模型进行优化,减小模型体量,提高其算法效率。故本文选择采用减少模型复杂程度的方向对算法模型进行优化。

3 算法优化

解决高GPU消耗的传统方法之一是模型压缩,即对已经训练好的模型进行压缩,例如模型剪裁和模型量化等,能够减少网络参数,解决内存爆炸问题,同时提升运行速度,而不至于明显影响检测效果[10]。而轻量化模型的设计则着眼于采用更为高效的卷积方式,以降低网络参数的数量,同时又保持网络模型的性能不受损。因此,一些轻量级的网络模型得以出现,其中以基于轻量级主特征提取网络的MobileNet算法模型为典型。

其中MobileNetV1采用深度可分离卷积来改进基本的卷积运算单元,将标准卷积分解为深度卷积和逐点卷积两个步骤。深度卷积阶段使用单个卷积核对单个输入通道进行卷积,生成与输入通道数相同的深度,并通过逐点卷积对其输出进行线性结合[11]。这一方法大大减少了模型的参数数量,简化了模型结构,同时显著提升了算法速度。MobileNetV2引入了逆残差结构和线性瓶颈结构,以解决特征退化和激活函数对特征的影响问题。逆残差结构通过1×1卷积进行维度升维,然后通过3×3深度可分离卷积进行特征提取,并最后通过1×1卷积进行降维。这有助于实现特征的重复利用和减缓特征的退化。线性瓶颈结构去除了小维度输出层后面的非线性激活层,保留了模型的表达能力,并减少了激活函数对特征的影响。MobileNetV3结合了V1的深度可分离卷积思想和V2的逆残差结构,同时引入了轻量级的注意力模型来调整通道权重。另一个改进是将Swish激活函数替换为H-Swish函数,以减少计算量并提高算法性能[12]。

MobileNet网络的引入为轻量级目标检测网络的发展提供了新的思路。实验结果表明,YOLOv4在矿车装载物图像数据集上表现优秀,但对于需要实时性的矿车分运系统而言,其庞大的模型体积并不适用。相比传统网络,MobileNet网络的优势在于其较小的体积[13],特别适用于本文中的智能矿车分运系统。它更适合在NVIDIA Jetson TX2嵌入式平台上运行,并且有望在拓宽应用场景方面发挥更深层次的作用。因此,本文利用轻量级的MobileNet网络结合在矿车装载物数据集上表现良好的YOLO网络,对网络模型进行了轻量级优化。这样做既保证了高准确率,又实现了模型的压缩,提高了系统的运行速率。

MobileNet系列网络可广泛用于分类任务,其主干部分负责进行特征提取。出于这一思路,提出了使用轻量级的MobileNet网络来取代YOLOv4中原有的主干特征提取网络CSPdarknet53,从而对图像进行特征提取,实现对模型的轻量化优化。在YOLOv4中,整个网络结构可分为三个主要部分:第一,主干特征提取网络Backbone,对应CSPdarknet53网络;第二,加强特征提取网络,包括SPP和PANet两部分;第三,预测网络YOLOHead,用于利用获得的特征进行目标预测。在这三个部分中,主干特征提取网络的作用是进行初始的特征提取,生成三个初步的有效特征层。加强特征提取网络则进一步提取特征并融合,以获取更深层次的语义特征,形成三个高语义的有效特征层。预测网络则利用加强后的特征层进行目标检测和预测。

鉴于YOLOv4中的加强特征提取网络和预测网络已经相对简化且实用,因此本文主要对主干特征提取网络进行了优化处理。通过使用MobileNet系列网络替代CSPdarknet53进行特征提取,并对三个初步的有效特征层进行进一步的加强处理,从而完成了网络模型的轻量化优化[14]。

在模型优化的过程中,首要任务是构建加强特征金字塔,利用主干特征提取网络获取的3个有效特征进行加强。接着,根据MobileNet的网络结构特点,设计并利用其网络获取3个有效特征层,然后将这些有效特征层替换原有主干网络CSPdarknet53中的特征层。最后,将其中的普通卷积核替换为MobileNet网络中突出特点的深度可分离卷积[15]。

通过使用MobileNet网络取代YOLOv4中的主干特征提取网络,目的在于降低模型复杂度,将特征提取结果融合到YOLOv4网络中。这样一来,在保持YOLOv4优秀检测精度的同时,利用MobileNet网络精简模型,加快速度,降低模型大小,使得网络模型更适应本文系统的需求,进而获得更出色的性能。图3所示为YOLOv4网络结构优化结果。

本文共选取3种具有不同特点的MobileNet网络进行主干特征提取网络的替换,轻量化的模型大小和参数量变为原来的1/5,检测速度为原网络的两倍,且对精度影响较小,如表4所示。

最后使用PyQt5来搭建人机交互界面,完成矿车装载物图像识别工作。图4为识别测试样例。

4 结 论

针对煤矿智能化进程中凸显的煤矿分运自动化程度较低等问题,本文结合煤矿副井实际情况,提出了基于目标检测的智能煤矿副井分运系统,旨在解决长期以来困扰煤矿生产的副井轨道运输问题。将目标检测算法与算力大、体积小的嵌入式平台结合,设计出一套准确率高、实时性强,并具有较强可拓展性的智能煤矿副井分运系统,以应对煤矿智能化改革的迫切需求,基本解决了煤矿副井矿车装载物的分类问题。

首先,设计并完成了基于目标检测的智能煤矿副井分运系统整体架构,并详细描述了各个模块及其工作流程。为了满足系统训练的需要,本文结合煤矿副井生产实际情况,建立了煤矿副井矿车装载物图像数据集,并通过数据增强的方法确保三种装载物样本的数量均衡。最终得到了一个包含18 000张图像的完整的数据集。按照5:1的比例划分测试集和训练集,进行算法测试工作,

其次,以煤矿副井矿车装载物图像数据集为样本,使用双阶段Faster-RCNN算法和典型的单阶段算法YOLOv4和SSD进行了算法分析实验。同时,针对样本不平衡的现实问题,加入RetinaNet网络模型进行了训练和实验结果对比分析。最终,实验结果显示,以上四种模型在测试集上的最高准确率都超过了89%。通过评估四种模型的表现,我们最终决定选用YOLOv4模型作为煤矿副井现场实时分类的模型,其模型分类准确率达到了95.86%。

最后针对煤矿副井的真实情况,重点对网络进行了模型的压缩及优化。为此,我们设计了人机交互图形界面,搭载了触摸屏,与Jetson TX2平台组成了一套完整的煤矿副井轨道运输智能分运系统,以进一步提高系统的实用性和可操作性。

参考文献:

[1] 夏黎明.煤矿井下图像除雾与目标识别研究 [D].太原:太原科技大学,2024.

[2] 魏东,王忠宾,司垒,等.采煤机作业区域人员精确检测方法研究 [J].工矿自动化,2022,48(2):19-28.

[3] 刘彪,郭翔,张帆,等.基于卷积神经网络的煤矿副井矿车装载物自动分类系统 [C]//第32届中国控制与决策会议论文集(2).合肥:出版社不明,2020:580-585.

[4] 刘洪利.基于深度学习的轻量化目标检测算法研究 [D].北京:北京交通大学,2020.

[5] 孙继平.基于图像识别的煤岩界面识别方法研究 [J].煤炭科学技术,2011,39(2):77-79.

[6] 石超君,邱波,周亚同,等.基于卷积神经网络的恒星光谱自动分类方法 [J].光谱学与光谱分析,2019,39(4):1312-1316.

[7] ROH M C,LEE J Y. Refining Faster-RCNN for Accurate Object Detection [C]//2017 Fifteenth IAPR International Conference on Machine Vision Applications (MVA).Nagoya:IEEE,2017:514-517.

[8] 张帆,栾佳星,崔东林,等.基于SSD-LeNet的矿井移动目标检测与识别方法 [J].矿业科学学报,2021,6(1):100-108.

[9] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection [J/OL].arXiv:2004.10934 [cs.CV].[2024-02-16].https://doi.org/10.48550/arXiv.2004.10934.

[10] 李端,张洪欣,刘知青,等.基于深度残差卷积神经网络的心电信号心律不齐识别 [J].生物医学工程学杂志,2019,36(2):189-198.

[11] DOLLAR P,WOJEK C,SCHIELE B,et al. Pedestrian Detection: Abenchmark [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009:304-311.

[12] 李永盛,何佳洲,刘义海,等.基于图像检测识别的数据增强技术 [J].舰船电子对抗,2021,44(1):66-70.

[13] 周凯龙.基于深度学习的图像识别应用研究 [D].北京:北京工业大学,2016.

[14] 李鸿.基于轻量化网络的目标检测算法研究 [D].北京:中国科学院大学(中国科学院光电技术研究所),2022.

[15] 赵立波.基于改进YOLO的车辆及行人识别算法研究 [D].南京:南京邮电大学,2023.

作者简介:杜思洁(2002—),女,汉族,黑龙江黑河人,本科在读,研究方向:人工智能;官世杰(2002—),男,汉族,四川成都人,本科在读,研究方向:人工智能;卜一凡(2002—),女,汉族,湖北襄阳人,本科在读,研究方向:人工智能;黄嘉琛(2003—),男,汉族,山西朔州人,本科在读,研究方向:人工智能;胡之恒(2003—),男,汉族,北京人,本科在读,研究方向:人工智能。

标签:  矿车 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor