摘" 要:传统核酸咽拭子采集方法是由医护人员进行人工采集,耗费大量医疗资源,且存在较高的感染风险。现有的自动机械臂核酸采样系统大多采用固定位置的一次性咬口器定位口腔,实际使用不灵活。为了降低采集成本与医护人员感染风险,设计了一种基于YOLOv8的机械臂核酸咽拭子自动采集系统。该系统采用YOLOv8目标检测算法进行咽部区域识别,结合深度相机进行咽部三维定位,当被采集者进入机械臂工作空间后,由视觉伺服系统和力控反馈系统控制机械臂夹取咽拭子完成咽部核酸咽拭子自动采集。实验结果表明,系统对咽部区域的识别率较高,力控反馈效果良好,能够满足现场使用需求。
关键词:机械臂;深度相机;机器视觉;YOLOv8;力控反馈;自主定位
中图分类号:TP242" " 文献标识码:A" 文章编号:2096-4706(2024)22-0177-07
Research on Automatic Nucleic Acid Throat Swab Collection System of Robotic Arm Based on YOLOv8
Abstract: The traditional nucleic acid throat swab collection method is manually collected by medical staff, which consumes a lot of medical resources and has a high risk of infection. Most of the existing automatic robotic arm nucleic acid sampling systems use disposable bite devices to locate the mouth, but it is not flexible in actual use. In order to reduce the collection cost and the infection risk of medical staff, a robotic arm automatic nucleic acid throat swab collection system based on YOLOv8 is designed. This system adopts the YOLOv8 object detection algorithm for identification of pharyngeal region, and combines with a depth camera for pharyngeal 3D localization. When the collector enters the working space of the robotic arm, the visual servo system and the force control feedback system control the robotic arm to clamp the throat swab to complete the automatic collection of the pharyngeal nucleic acid throat swab. The experimental results show that this system has a high recognition rate of the pharyngeal region, and the force control feedback effect is good, which can meet the needs of field use.
Keywords: robotic arm; depth camera; Machine Vision; YOLOv8; force controlled feedback; autonomous positioning
0" 引" 言
传统核酸采集方法中,需要医护人员进行人工咽拭子采集,耗费大量医疗资源的同时,存在较高的感染风险。此外,手动操作的不稳定性也可能导致采集误差,对公共卫生和疾病控制造成更大压力。因此,针对更加自动化、智能化的核酸咽拭子采集装置的开发迫在眉睫。
目前,由于机械臂控制技术和机器视觉技术的进步,将两者结合的研究成果在多个领域得到广泛应用[1]。例如,一种用于自动化静脉采血和血液收集的六轴机器人系统,该系统利用机器人的精确控制和感知能力,实现了无人化的静脉采血和血液收集过程。庞云亭等[2]基于机器视觉技术研究设计出了视觉跟踪系统,实现了仿生机器人头部对选定目标的实时追踪。焦恩璋等[3]利用机器视觉原理,成功设计了能够实现分拣技术的工业机器人。陈璟[4]使用机器视觉提取目标轮廓点云,成功实现了机械臂的目标稳准抓取。
针对基于机械臂核酸咽拭子自动采集的研究与应用也有所进展。清华大学与山东烟台清科嘉研究院[5]于2022年4月实现了基于七轴机械臂的自动核酸咽拭子采样,采样者需根据提示将嘴对准咬口器协助机械臂工作。上海人工智能研究院[6]开发的“智能移动核酸采样车”可同时搭载2台核酸采样机器人。目前大部分机械臂咽拭子自动采集装置采用一次性咬口器作为定位待检人员咽部的定位基准,而一次性咬口器的安装高度相对固定,不利于针对非该高度的待检人群进行自动化检测。且向待检人员发放大量符合医疗标准的一次性咬口器,在一定程度上也会增加医疗资源的消耗。
针对该问题,本文拟将双目深度测量技术与目标检测算法YOLOv8相结合,实现针对待检人员面部的自主定位,得到一种创新式的核酸咽拭子获取方式——基于YOLOv8的机械臂核酸咽拭子自动采集系统。并基于咽部识别准确率等性能指标对该系统的性能进行仿真评价,为未来现场使用提供有利的实验基础。
1" 系统总体构建
本文构建的基于YOLOv8的机械臂核酸咽拭子自动采集系统总体方案如图1所示。该系统主要由单支咽拭子传送系统、基于YOLOv8的咽部区域识别定位系统和机械臂三部分组成。首先,单支咽拭子传送系统从咽拭子储存区中取出一支咽拭子,并交给机械臂末端夹爪夹取。然后,核酸咽拭子被采集者(以下简称被采集者)根据语音播放器的指引进入机械臂工作范围。在咽部区域识别系统与力控反馈系统辅助下,机械臂自主完成核酸咽拭子的采样任务。随后,机械臂将取样的咽拭子放入咽拭子封装区的试剂盒中,并由智能运输机器人进行试剂盒的运输更换。最后,机械臂在酒精消毒区自动消毒后进入下一轮工作循环。
1.1" 单支咽拭子传送系统设计
为保持夹爪夹取咽拭子的位置一致,本文设计了该单支咽拭子传送系统,总体方案如图2(a)所示,由咽拭子储存区、咽拭子传送区、系统控制模块3部分组成。该系统可储存多只咽拭子,降低医护人员工作频率;实现了传送单支咽拭子到指定位置,便于机械臂夹爪更准确地完成夹取。
1.1.1" 咽拭子储存区
该区域可装载大量咽拭子。在该区与咽拭子传送区间,有仅容一条咽拭子通过的间隙,保证每一次传送装置工作时,仅传送一条咽拭子到咽拭子放置区。避免了多根咽拭子被拿取的问题。
1.1.2" 咽拭子传送区
咽拭子传送区结构如图2(b)所示。主要分为左、右两部分,右部分为储存区域下方与电机相连的单根滚轴,左部分为两根并列排放的滚轴,滚轴外侧有互相贴合的齿轮,并由传送区上方电机带动。左侧两根滚轴中间留有缝隙。整个传送结构流程是:右部分滚轴带动从咽拭子储存区缝隙掉落的单支咽拭子,传送至左部分滚轴中间的缝隙区域,左部分滚轴通过上方的电机和齿轮结构,把咽拭子完全传送至咽拭子放置区。
1.1.3" 系统控制模块
控制模块由STM32单片机、电机与红外传感器构成。单片机安装于储存区上方,控制红外传感器与电机。红外传感器安装于咽拭子出口处。当红外传感器检测到咽拭子传输至咽拭子放置区,向单片机发送信号使电机停止,同时单片机发送信号触发机械臂夹爪的咽拭子夹取动作夹取咽拭子。当传感器检测到咽拭子被夹取之后,向单片机发送信号使电机重新启动并重复上述步骤。
1.2" 咽部区域识别定位系统设计
该部分流程图如图3所示,主要由双目摄像头、辅助光源、语音播放器及计算机等部分构成。为保证机械臂末端可实时定位被采集者咽部区域,将双目摄像头安装于机械臂末端,摄像头方向对齐夹爪正前方,辅助光源设置于摄像头旁。机械臂从单支咽拭子传送装置夹取到咽拭子后,调转夹爪方向至被采集者一侧,语音播放器提示被采集者进入机械臂工作区域。双目摄像头获取RGB图像发送至计算机进行亮度检查和图像预处理,并调整机械臂夹爪对准被采集者面部。随后语音提示被采集者张开嘴巴并发出“啊”的声音暴露喉咙、保持上半身静止,结合深度图像对被采集者咽部区域进行识别并实时计算目标三维坐标,准备无误后执行咽拭子采集任务。
摄像头选用Intel的Realsense D455型双目深度摄像头,实物图如图4所示。该摄像头利用左右红外相机和红外光装置获取深度图像,可以同时返回RGB图像流与深度图像流。
该摄像头主要相关参数如表1所示。Intel Realsense官方提供了深度图像自动校准程序,用于消除摄像头获得深度图像信息时产生的误差。摄像头上有螺钉安装孔位,可根据实际情况适当调整摄像头安装位置与镜头角度,以满足不同的场地使用需求。
1.3" 机械臂伺服控制系统设计
该系统由机械臂、夹爪与计算机共同构成。机械臂选用UR3六轴柔性机械臂,参数如表2所示。夹爪具有力位速可控的优点,可以对夹爪的夹持位置、夹持力度和运行速度进行编程调节。在机械臂末端安装取样夹爪,取样时,控制机械臂将夹爪移动至咽拭子正上方,夹爪对单个咽拭子进行夹取,咽拭子尾部正对夹爪感应端以实时接收咽拭子压力变化。在双目摄像头的指引下,机械臂开始执行咽拭子采集任务。将咽拭子伸入被采集者咽部,并实时监测咽部与咽拭子间的压力变化以控制夹爪运动速度。完成采集后,机械臂将咽拭子装入试管并封装。利用机械臂结构使整套系统更加灵活便捷,可以任意调整取样的位置与角度,安装方便,适用性较强。
2" 基于YOLOv8的咽部识别算法
在计算机接收到双目摄像头获取的实时RGB视频流信息后,利用双目摄像头的官方库pyrealsense获取相同帧下的RGB图像流与深度图像流,并使用YOLOv8模型进行咽部检测并生成咽部区域标注框[7-8]。因此需要对YOLOv8模型进行训练。
2.1" YOLOv8模型训练
YOLO系列神经网络是当前目标检测领域中性能最优的神经网络之一。本文选用YOLO系列目前精度最高的YOLOv8网络对咽部区域进行识别。YOLOv8的网络结构如图5所示,主要由Backbone层、Neck层和Head层构成:Backbone层主要由Conv卷积层和梯度流丰富的C2f层构成,用于提取图像特征,为目标检测任务提供基础特征表示。Neck层中的上采样Upsample层与Concat层将Backbone层中不同层级的特征取出并进行特征融合。Head层使用Decoupled-Head解耦头结构,将回归分支与预测分支进行分离,从而加快了收敛速度,生成预测目标的Bounding Box、类别标签与置信度得分。
2.2" 数据集
本文数据集选用2021年全球开放数据应用创新大赛的口腔图像重要部位实例分割精度提升方案赛道数据集[9],数据集包含标注后的口腔图片835张,总标注数量4 899处,其中关于咽部区域的标注数量880处。部分数据集图像如图6所示。训练时将数据集图片按照7:2:1的比例划分为训练集、测试集和验证集。
2.3" 训练环境及训练参数
训练使用Ubuntu 20.04作为训练环境,使用PyTorch作为网络框架,使用CUDA 11.7.1对训练进行加速。训练的硬件测试环境CPU选用AMD Ryzen 5 5600 6-Core Processor @3.50 GHz,配备64 GB的RAM,GPU选用NVIDIA GeForce GTX 1080 Ti,24 GB显存。
训练时,将输入图像设置为640×640,使用AdamW作为优化函数对模型进行训练。模型训练周期(Epoch)为220,批量大小(Batch)为70,初始学习速率为0.01,采用自动混合精度AMP技术训练,该技术利用半精度浮点数加速训练过程,减少显存占用;在训练时设置Patience=50的早停策略来避免模型的过拟合。
2.4" 训练结果及实际应用效果
图7为训练结束后生成的可视化结果图,其中包含训练精度Precision、召回率Recall等训练过程变化数据。训练精度Precision最终达到了98.4%,召回率Recall最终达到了97.2%。模型实际检测效果图如图8所示,其识别速度快,经实验统计,模型识别速度可达33.3帧/秒,准确率较高,符合实际需求。图8(a)中显示了该区域的置信度以及与双目摄像头距离,图8(b)图中数字为该区域中心与双目摄像头距离。
3" 基于力控反馈的咽拭子采集
3.1" 手眼标定
得到咽部区域识别系统发送的咽部区域标注框后,取该标注框几何中心点作为咽部区域的三维位置点,由双目摄像头将该点坐标与摄像头内参矩阵进行变换处理,得到该点基于摄像头坐标系的三维坐标[10-11]。由于完成机械臂到该点的伺服控制需要将该点位置转换至基于机械臂基坐标系下的三维坐标,因此需要使用眼在手上的手眼标定方法确认摄像头坐标系到机械臂末端夹爪坐标系的变换矩阵camHend。
在图9中分别有标定板坐标系到摄像头坐标系的变换矩阵objectHcam、摄像头坐标系到机械臂末端夹爪坐标系的变换矩阵camHend、机械臂末端夹爪坐标系到机械臂基坐标系的变换矩阵endHbase和摄像头坐标系到机械臂基坐标系的变换矩阵camHbase。在机械臂某一位姿下,摄像头对标定板进行拍摄并标定,设标定板上的某一点在标定板坐标系下的坐标值为Pobject,经过objectHcam、camHend、endHbase的坐标系关系转换后可得到在机械臂基坐标系下的坐标值Pbase,转换关系如式(1)。其中objectHcam由拍摄的标定板图片计算获得,endHbase由机械臂位姿计算获得,camHend为求解的未知量。移动机械臂并进行第二次拍摄并标定,同一点下Pobject与Pbase保持不变,摄像头固定于机械臂末端固camHend不变,可得式(2)。其中与可用第一次标定的方法获得。
联立式(1)、式(2)可得式(3)。式(3)中 与 都已知,对式(3)进行求解即可得从摄像头坐标系到机械臂末端夹爪坐标系的变换矩阵camHend。
3.2" 咽拭子采集力控反馈
咽拭子采集过程中会与被采集者较为敏感的咽部进行接触,因此较小范围的压力变化也会引起被采集者的不适,压力过大甚至会损伤被采集者的咽部。参考已有研究团队的咽拭子采集压力研究[12-13],咽拭子末端压力在100~600 mN的范围内时采集的样本质量无明显差异,但高力组(>400 mN)的被采集者咽部疼痛率比低力组(≤400 mN)更高。因此本文将采集压力值限制在100~400 mN之间。
3.3" 采集路径规划
获得基于机械臂基坐标系的真实空间坐标后,需要对机械臂末端夹爪的采样路径进行规划[14]。根据新型冠状病毒标本采集方法[15],需要将咽拭子在被采集者两侧咽扁桃体来回擦拭至少3次,并在咽后壁上下擦拭至少3次。两侧扁桃体与咽后壁的实际位置如图10所示。本文规划的咽拭子采集路径如图11所示,其中A、C点位于两侧咽扁桃体,B点位于咽后壁处,考虑到被采集者的口腔内部可能存在差异,A、B、C三点都是在识别框中心点D的基础上估算的模拟点位。
机械臂末端夹爪夹取咽拭子伸入被采集者口腔后,咽拭子末端接触到识别框中心点D后向上移并触及B点,随后沿路线AB到达A点,机械臂控制咽拭子末端开始沿A—B—C—B—A的规划路径进行3次咽扁桃体来回擦拭任务。随后返回B点,以B点为中心进行垂直长度约1 cm的咽后壁上下擦拭任务,最终返回识别框中心点D,机械臂控制咽拭子退出被采集者口腔。采集任务全程压力传感器实时监测咽拭子末端压力变化:当咽拭子末端沿路径到达A、B、C点而压力低于100 mN时,控制机械臂末端沿原路径继续行进直至压力高于100 mN,并记录新点位作为真实点位;一旦监测到压力超过400 mN,停止机械臂运动,控制机械臂朝口腔外移动直至压力位于100~400 mN的区间内,并继续机械臂停止前的运动任务。
4" 结" 论
本项目针对现有核酸咽拭子采集方法人力物力资源消耗大、医护人员感染风险高的问题,设计了一套基于机械臂、夹爪、双目摄像头的机械臂核酸咽拭子自动采集系统,通过深度学习的目标检测算法YOLOv8与机械臂路径控制算法,实现了对被采集者面部区域的自动追踪以及咽部区域的自动识别。
基于传送带的单支咽拭子传送系统,根据实际需求对其进行了合理的样式设计。可根据实际情况调整单支咽拭子输出位置、角度等参数,有效降低了机械臂夹爪的咽拭子夹取难度。
咽部区域识别系统主要使用了深度学习的目标检测算法YOLOv8,该算法具有识别精度高、耗时极短等优点,能较为精确地对传至计算机的图像进行识别分析。该算法还可根据实际情况进行不同训练集的训练,可针对特殊口腔部位进行精准识别,灵活运用于不局限于核酸检测的不同口腔采样场景。
力控反馈的加入为核酸被采集者的咽部舒适度与安全性提供保障。同时基于咽部区域中心点的路径规划也在加快速度的同时保证了采集的科学性与有效性。
在使用过程中,医护人员可直接观察到被采集者的咽部检测信息与已采集的咽拭子样本数量,医护人员仅需按时添加咽拭子。该系统将作业环境与医护人员隔离开,较大程度上解决了传统核酸咽拭子采集方法的医护人员感染风险高的问题。本文设计的系统也可用于口腔其他部位的样本采集作业,具有较广阔的使用前景。
参考文献:
[1] BALTER M L,CHEN A I,FROMHOLTZ A,et al. System Design and Development of a Robotic Device for Automated Venipuncture and Diagnostic Blood Cell Analysis [C]//2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Daejeon:IEEE,2016:514-520.
[2] 庞云亭,黄强.基于双计算机的仿人机器人的视觉跟踪系统 [J].微计算机信息,2007(26):241-243.
[3] 焦恩璋,杜荣.工业机器人分拣技术的实现 [J].组合机床与自动化加工技术,2010(2):84-87.
[4] 陈璟.基于机器视觉的机械臂目标稳准抓取研究 [J].兰州职业技术学院学报,2023,39(4):70-72+86.
[5] 新华社.核酸采样用时仅35秒!中国自主研发咽拭子采样机器人助力疫情防控 [EB/OL](2022-04-04)[2023-12-21].https://baijiahao.baidu.com/s?id=1729175023194756438amp;wfr=spideramp;for=pc.
[6] 大河网. 核酸采样,机器人已经开始上阵了 [EB/OL](2022-5-25)[2023-12-21].https://news.dahe.cn/2022/05-25/1029184.html
[7] 黄及远,李敏,谢兵兵,等.双目视觉关键技术研究综述 [J].制造业自动化,2023,45(5):166-171.
[8] 任建华,张宁可,高瑞贞.用于并联机器人定位抓取的双目视觉算法实现 [J].制造技术与机床,2022(8):49-56.
[9] JavaRoom.口腔图像重要部位实例分割精度提升方案 [DB/OL].[2023-04-15].https://aistudio.baidu.com/datasetdetail/94616.
[10] 殷孝雎,周莉,孙志强,等.基于视觉识别的随动机械臂实验装置设计 [J].实验技术与管理,2023,40(11):168-174.
[11] 黄保林. 咽拭子自动采集系统的研究 [D].大庆:东北石油大学,2023.
[12] LI S Q,GUO W L,LIU H,et al. Clinical Application of an Intelligent Oropharyngeal Swab Robot: Implication for the COVID-19 Pandemic [J/OL].European Respiratory Journal,2020,56(2):2001912[2024-03-20].https://doi.org/10.1183/13993003.01912-2020.
[13] SUN F C,MA J J,LIU T Y,et al. Autonomous Oropharyngeal-Swab Robot System for
COVID-19 Pandemic [J].IEEE Transactions on Automation Science and Engineering,2023,20(4):2469-2478.
[14] ZHANG H,WANG Q W,CHI C L,et al. Design and Implementation of a Novel, Intrinsically Safe Rigid-Flexible Coupling Manipulator for COVID-19 Oropharyngeal Swab Sampling [C]//2021 IEEE International Conference on Robotics and Automation (ICRA).Xian:IEEE,2021:12282-12288.
[15] 疾病预防控制局.国家卫生健康委办公厅关于印发新型冠状病毒肺炎防控方案(第五版)的通知 [EB/OL].[2024-02-21].http://www.nhc.gov.cn/jkj/s3577/202002/a5d6f7b8c48c451c87dba14889b30147.shtml.