摘" 要:对人脸单遮挡模型和人脸多遮挡模型进行了研究,提出了一种基于深度学习的三维人脸重建抗遮挡网络,实现了对遮挡人脸的有效重建。改进的单遮挡模型通过预训练和权重的修改有效地实现了人脸图像上下文信息的捕获。改进的多遮挡模型通过特征扭曲和变换,使用分布的损失函数和不同的微分器得出重建的人脸图像。实验结果表明,提出的方法能够在多种遮挡情况下生成更为准确的三维人脸模型,具有更好的鲁棒性和抗遮挡能力。
关键词:深度学习;三维人脸重建;单遮挡模块;多遮挡模块
中图分类号:TP391.4" " 文献标识码:A" 文章编号:2096-4706(2024)11-0022-04
3D Face Reconstruction Anti-occlusion Network Based on Deep Learning
LI Xingqing1, WANG Zhibing3, YANG Runfeng2, ZENG Desheng1, NIE Yingying1
(1.School of Information Engineering, Guangdong Innovative Technical College, Dongguan" 523960, China;
2.School of Architecture, Dongguan Polytechnic, Dongguan" 523808, China;
3.School of Electronic Information, Dongguan Polytechnic, Dongguan" 523808, China)
Abstract: This paper researches both the face single-occlusion model and the face multiple-occlusion model. It proposes a 3D face reconstruction anti-occlusion network based on Deep Learning, realizing the effective reconstruction of occluded face. The improved single-occlusion model effectively realizes the capture of contextual facial information through pre-training and weight modifications. The improved multi-occlusion model employs a distributed loss function and distinct differentiators to achieve reconstructed facial images through feature distortion and transformation. Experimental results validate that the proposed method can generate more precise 3D facial models across various occlusion scenarios, demonstrating superior robustness and anti-occlusion capabilities.
Keywords: Deep Learning; 3D face reconstruction; single-occlusion module; multiple-occlusion module
0" 引" 言
三维人脸重建一直是计算机视觉和计算机图形学领域的难题。然而,在这项工作中,我们专注于解决单目人脸图像遮挡问题。从被遮挡的人脸图像中进行三维人脸重建有许多应用,如搜索的降维问题。在文献中,有一类方法通过优化姿态、纹理、形状和光照系数,将3D人脸与单目人脸图像进行匹配。另一类是基于卷积神经网络(CNN)和生成对抗网络(GAN)的方法而不是基于优化的方法,这是由于优化方法隐含的复杂性。这些方法对于人工和自然遮挡的人脸图像以及在不寻常光照下的单目人脸图像效果都很差。此外,它们将遮挡作为面部特征,从而从遮挡的人脸图像中重建出新的3D人脸[1,2]。
单目人脸图像的三维人脸重建是一个数学不适定问题。最近,我们发现人们对基于深度学习的方法来解决这一问题的兴趣激增。这些方法对遮挡具有极高的敏感性。因此,在本文中,我们提出了一种新的基于上下文学习的蒸馏方法来处理人脸图像中的遮挡问题,我们的训练方法集中于从预先训练的封闭敏感深度网络中学习知识,然后通过学习目标提取遮挡人脸图像的上下文信息。因此,我们的方法使用一个弱模型训练一个高度鲁棒的网络,针对部分和完全遮挡的人脸图像,尤其是现实生活中具有挑战性的面部遮挡效果较好。
此外,我们还提出了一种新的端到端训练方法来从目标图像的多个变化中重建3D人脸,以强调可见的面部特征在学习过程中的重要性。为此,与最新的先进方法相比,我们利用了一种新型的复合多遮挡缺失功能来恢复遮挡人脸图像,取得了较好的效果。在AFLW2000-3D人脸数据集的实验结果表明:我们重建的三维人脸遮挡图像效果较好。
1" 三维人脸重建技术
1.1" 传统三维人脸重建方法
传统的三维人脸重建方法主要包括结构光扫描、多视角立体视觉和单张图像重建等方法[3-5]。其中,结构光扫描使用结构光或激光投影器和相机的组合来捕捉人脸的深度信息,这种方法通常用于创建高质量的三维面部模型。多视角立体视觉方法通过使用多个相机从不同角度拍摄同一人脸,然后将这些信息融合在一起,以获得精确的三维重建,该方法需要多个摄像头或投影设备,对实际应用有一定的限制。单张图像重建方法提高重建模型对面部细节的还原能力是关键,不仅涉及面部的形状,还包括纹理信息,需要提前构建好的3D人脸模型,并且对于遮挡和复杂光照等问题缺乏自适应处理能力。
1.2" 基于深度学习的三维人脸重建方法
近年来,基于深度学习的三维人脸重建方法逐渐成为研究热点[6-8]。这些方法通常使用深度神经网络来从二维图像中还原三维人脸形状和纹理。3D FaceNet是一种使用卷积神经网络的方法,通过在大规模的三维人脸数据集上进行训练,将二维图像映射到三维人脸形状和纹理。该方法通常需要大量的标记数据。3DMM-CNN结合了三维形状模型(3D Morphable Model, 3DMM)和卷积神经网络。它使用3DMM来表示人脸形状和纹理,然后使用CNN来从单个二维图像中估计3DMM参数。3D-GAN——三维生成对抗网络(GAN)被广泛应用于三维人脸重建。一个网络生成候选的三维人脸,而另一个网络评估这些生成的三维人脸与输入图像的一致性,通过迭代训练,可以得到高质量的三维重建结果。
此外,还有一些方法通过学习大量的三维人脸数据,利用深度神经网络模型实现对三维人脸的自动重建,通过卷积神经网络、自监督等方法实现对三维人脸形状的重建[9-11]。
Deng提出了一种利用混合级图像的基于CNN的单图像人脸识别构造方法,该方法用于弱监督学习的信息,采用的损失包括鲁棒化图像级损失和观念层面的损失,得到了一种新的形状自信学习方案用于多图像人脸重构聚合,其预测子网也在没有事实标签的弱监管下得到了较好的重建效果。
Liu提出了一种自我监督的学习方法,该方法基于姿态引导网络进行单眼三维人脸重建。针对先验参数三维中姿态估计的瓶颈,提出利用三维人脸地标进行姿态参数的估算,可以从完全标记的3D地标和未标记的野外人脸图像中学习。利用嵌入在同一个人的多个帧中的形状的面部几何形状,来缓解从单个图像回归3D面部几何形状的病态性的形象,从而获得了较好的实验效果。
Zhu提出了一个大规模的详细的3D人脸数据集FaceScape以及相应的基准来评估单视图面部三维重建。通过对FaceScape数据的训练,提出了一种预测精细可操纵3D的新算法人脸模型,利用大规模、高精度的数据集,进一步提出了一种新的学习算法,与以往的方法不同,预测的三维模型从单个图像输入,具有高度的可操作性。
2" 具体方法
2.1" 改进的单遮挡人脸训练模型
使用基于上下文学习的蒸馏方法,从严重遮挡的2D人脸图像重建3D人脸,该模型利用RNet网络,从部分遮挡的2D人脸图像中预测3D人脸,使用预先训练的遮挡敏感RNet模型来训练 (Single-occlusion face, SOF)模型,得到较好的训练权重,结合输入图像通过预训练模型得到的训练权重,通过损失函数来反馈输入权重,利用目标图像中的上下文信息来促进模型的进一步学习,最后得到最佳的训练权重,如图1所示。
2.2" 改进的多遮挡人脸训练模型
为促进模型学习与多个遮挡的图像重建,在训练中使用新型复合多遮挡缺失的方法——多遮挡人脸模型(Multi-occlusion face, MOF),如图2所示。与SOF模型相比,MOF模型保证了重建的三维面网格的精度更高。同时,MOF模型对数据需求施加约束,它需要通过多个人脸遮挡图像来训练模型。为了得到更高的精度,需要先对提取的特征进行简单的扭曲和变换,然后使用分布的损失函数训练模型,最后通过不同的微分器得出重建的人脸图像,使用多个遮挡模式对模型进行训练,不仅更好地获取了人脸图像的上下文信息,而且保证了被遮挡人脸图像中重建的三维人脸具有更高的精度。
3" 实验结果
在本节中,描述了我们进行的实验,以评估我们提出的网络在具有遮挡的3D人脸重建中的性能。
3.1" 数据集
我们使用AFLW2000-3D数据集进行实验,该数据集包含2 000个带遮挡的3D人脸模型。数据集分为1 800个样本的训练集和200个样本的测试集。
由于人工遮挡的数据集有利于模型的遮挡鲁棒训练,我们从未被遮挡和自然遮挡的野外人脸图像中合成一个小规模的基于人工遮挡的数据集,训练集有500个样本,测试集有50个样本。我们将遮挡分为两个层次:单遮挡人脸图像和双遮挡人脸图像,单遮挡人脸重建效果如图3所示,双遮挡人脸图像重建效果如图4所示。
此外,我们还选取了不同肤色和不同遮挡颜色图像来验证我们的模型性能,实验结果表明,针对不同肤色和不同遮挡颜色图像,我们的模型也能得到较好的重建效果。
3.2" 实验结果
实验所使用的是64位Windows 11专业版,PyTorch深度学习开发框架,用Python作为开发语言,实验采用的GPU为NVIDIA GeForce RTX 3080 Ti。在训练过程中batchsize设置为1,初始学习率设定为0.000 5,Epoch为150。我们分别针对单遮挡人脸数据和多遮挡人脸数据进行了测试验证,以评估我们提出的网络在具有遮挡的3D人脸重建中的性能。实验结果如表1所示,对于单遮挡人脸数据,与3DFA、PPNet和FGNet相比,我们的模型在ACC和AUC上都取得了较好的效果。对于多遮挡人脸数据,整体ACC和AUC虽然差一些,但是还是要优于各基线方法,和FGNet相比,ACC高出0.71%,AUC高出0.83%。
3.3" 结果分析
在实验中,我们通过SOF模型和MOF模型来分别评估它们三维人脸图像重建的影响,并且通过修改预训练参数和权重参数检验实验效果,实验结果表明,特征变换和反馈权重都对模型的性能有一定的影响,其中SOF模型和MOF模型对整体的影响最为显著。去掉这些组件会显著降低网络的重建质量和鲁棒性。同时,我们发现引入不同肤色和不同遮挡颜色的人脸图像也会对网络性能产生一定的影响。通过这些实验,我们可以更好地了解网络中不同组件的贡献,并进一步优化网络结构和训练策略,以提高网络性能。
4" 结" 论
本文主要研究基于深度学习的三维人脸重建抗遮挡网络,针对实际场景下人脸可能存在各种遮挡问题,提出了一种新的三维人脸重建方法,解决了三维人脸单遮挡和多遮挡的问题。针对人脸单遮挡,我们从严重遮挡的2D人脸图像重建3D人脸,利用RNet网络预训练,从部分遮挡的2D人脸图像中预测3D人脸,通过目标图像中的上下文信息来促进模型的进一步学习。针对人脸多遮挡,我们提出了一种从每个人的多张人工遮挡人脸图像中学习3D人脸的方法,以提高从遮挡图像中重建3D人脸网格的准确性。实验结果表明,相对于基线方法,改进的单遮挡和多遮挡网络模型都获得了较好的重建效果。
参考文献:
[1] YI H W,LI C,CAO Q,et al. Mmface: A Multi-metric Regression Network for Unconstrained Face Reconstruction [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach:IEEE,2019:7663-7672.
[2] SAHIL S,KUMAR V. 3D Face Reconstruction in Deep Learning Era: A Survey [J].Archives of Computational Methods in Engineering,2022,29(5):3475-3507.
[3] 周佩,朱江平,孔令寅,等.基于旋转散斑结构光投影的三维人脸采集 [J].激光与光电子学进展,2021,58(4):402-412.
[4] 蔡麟,郭玉东,张举勇.基于多视角的高精度三维人脸重建 [J].计算机辅助设计与图形学学报,2020,32(2):305-314.
[5] 王静婷,李慧斌.单张图像三维人脸重建方法综述 [J].计算机工程与应用,2023,59(17):1-21.
[6] SCHROFF F,KALENICHENKO D,PHILBIN J. Facenet: A Unified Embedding for Face Recognition and Clustering [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston:IEEE,2015:815-823.
[7] TUAN A T,HASSNE T,MASI L,et al. Regressing Robust and Discriminative 3D Morphable Models with a Very Deep Neural Network [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu:IEEE,2017:5163-5172.
[8] MARRIOTT R T,ROMDHANI S,CHEN L. A 3D Gan for Improved Large-pose Facial Recognition [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville:IEEE,2021:13440-13450.
[9] YU D,YANG J,XU S,et al. Accurate 3d Face Reconstruction with Weakly-supervised Learning: From Single Image to Image Set [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach:IEEE,2019:285-295.
[10] LIU P,HAN X,LYU M,et al. Learning 3D Face Reconstruction with a Pose Guidance Network [J/OL].arXiv: 2010.04384 [cs.CV].(2020-10-09).http://arxiv.org/abs/2010.04384.
[11] ZHU H,YANG H,GUO L,et al. Facescape: 3D Facial Dataset and Benchmark for Single-view 3D Face Reconstruction [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(12):14528-14545.
作者简介:李杏清(1983—),女,汉族,云南腾冲人,副教授,硕士,主要研究方向:人工智能、图像处理、电子技术;王志兵(1984—),男,汉族,江西赣州人,讲师,硕士,研究方向:人工智能、图像处理;杨润丰(1979—),男,汉族,广东东莞人,副教授,博士,研究方向:数字信号处理;曾德生(1983—),男,汉族,福建龙岩人,副教授,硕士,研究方向:Linux、云计算;聂影影(1992—),女,汉族,河南永城人,讲师,硕士,研究方向:电子信息、物联网。
收稿日期:2023-10-20
基金项目:广东省教育厅2022年度普通高校科研平台特色创新类项目(2022KTSCX385);2021年广东省普通高校创新团队项目(2021KCXTD082);2022年东莞市社会发展科技面上项目(20221800903482)