摘" 要:人脸图像的多属性识别和多标签之间的依赖性建模研究,是计算机视觉和机器学习领域备受关注的研究课题。为借助多标签间的依赖关系提升识别效率,提出了一种基于图卷积神经网络的多标签人脸属性识别模型。该模型通过数据驱动的方式构建人脸属性间的有向图,并由图卷积神经网络将每个属性映射到对应属性分类器,以此对类别间的依赖关系进行建模。模型对图卷积神经网络中的相关矩阵和特征矩阵等关键元素进行了深入分析,使其能够胜任多标签人脸属性识别问题。实验结果表明,该模型在多标签人脸属性识别权威数据集CelebA上表现良好并能保持有意义的语义结构。
关键词:深度学习;人脸属性识别;图卷积神经网络;多标签分类
中图分类号:TP391.4;TP183" 文献标识码:A" 文章编号:2096-4706(2024)11-0116-05
Face Attribute Recognition Based on Graph Convolutional Neural Networks
LI Minghan, LIU Ke, ANG Yin
(South-Central Minzu University, Wuhan" 430074, China)
Abstract: The research on multi-attribute recognition of facial images and the modeling of dependencies between multiple labels is a highly concerned research topic in the fields of Computer Vision and Machine Learning. A multi-label facial attribute recognition model based on Graph Convolutional Neural Networks is proposed to improve recognition efficiency by leveraging the dependency relationships between multiple labels. This model constructs a directed graph between facial attributes in a data-driven manner, and maps each attribute to the corresponding attribute classifier using a Graph Convolutional Neural Networks to model the dependency relationships between categories. The model has conducted in-depth analysis on key elements such as correlation matrix and feature matrix in Graph Convolutional Neural Networks, enabling it to handle multi-label facial attribute recognition problems. The experimental results show that the model performs well on the authoritative dataset CelebA for multi-label facial attribute recognition and can maintain a meaningful semantic structure.
Keywords: Deep Learning; face attribute recognition; Graph Convolutional Neural Networks; multi-label classification
0" 引" 言
人脸属性识别亦称面部属性估计,是一种识别图像中是否存在特定面部属性的技术,这些属性包括但不限于微笑、眼镜和胡子等,可用以描述人脸图像中人类可理解的语义特征。尽管图像分类技术在学术和工业界已取得显著进展,但人脸属性识别的任务较之传统多标签分类任务更为复杂。这一复杂性源于人脸属性中的性别和年龄段等深层语义,此类属性需要通过推理而非直观判断来获取。通过深入分析这些面部属性的识别过程,探索将传统的卷积神经网络和图卷积网络这两种模型融合,以实现对人脸图像的多标签属性预测的可能性,从而解决图像分类中的复杂性多标签问题[1-3]。
本文所做研究不仅仅局限于理论分析,还涉及相应的实验设计方法。文中详细介绍了卷积神经网络和图卷积网络的结合方式,以及如何将其应用于人脸识别系统中。此外,还讨论了研究结果在现实世界的潜在应用场景。本文主要涉及计算机视觉、深度学习和图像识别领域,对人脸属性识别的理论基础、面临挑战以及实验设计方法进行了较为深入的探讨,进而帮助理解如何将这些技术应用于实际的人脸识别系统中。
1" 相关工作
1.1" 图像的多标签分类
图像分类是计算机视觉领域的重要研究方向,它包括单标签图像分类和多标签图像分类[4]。单标签分类旨在判断图片是否属于某个类别,主要涵盖二分类和多分类情况。多标签分类则判断图像中是否存在某些类别[5]。在多标签分类算法模型领域中,传统机器学习方法多采用SVM、ML-KNN和多标签决策树来进行多标签图像分类[6]。而深度学习领域则通过使用CNN-RNN联合模型来考虑类别间的相关性,以提高分类准确性[7]。
1.2" 图卷积神经网络在人脸识别中的应用
图卷积神经网络(GCN)是一种处理图结构数据的神经网络,近年来在人脸属性识别领域受到了广泛关注。GCN在捕捉图像中不同部分间的关系方面表现出色,特别是在解析人脸图像中复杂的属性关系和人脸识别应用过程中,提供了一个新的视角,即通过捕捉面部不同区域间的关系来提高属性预测的准确性[8]。
1.3" 人脸属性分析
人脸属性分析是基于深度学习的面部属性分析的重要组成部分,主要包括面部属性估计(FAE)和面部属性合成(FAM)。如图1所示,FAE方法可分为基于部件的方法和基于整体的方法。部件方法关注于面部特定部分的属性,而整体方法则学习属性关系和统一框架中的面部属性。整体FAE算法通常利用额外的辅助信息,如属性分组或标识来定制其网络架构[9]。人脸属性分析算法的发展进程如图2所示,这些方法的发展不仅增强了人脸属性预测的准确性,而且为未来的研究提供了新的方向和思路。
2" 研究方法
2.1" 研究思路
为了解决多标签图像分类的问题,本文提出一种基于全局思路的方法,旨在推理类别间的相关性。例如从人类已有的先验知识推理出沙漠中不太可能出现鲨鱼,而长有胡须的人很可能是男性。这种推理有助于降低多任务图像分类的难度[10]。
2.2" 图卷积神经网络
GCN是一种专为图数据设计的强大神经网络,适用于半监督分类任务。其核心在于通过节点间信息的传播来聚合邻居信息。与CNN在空域上的操作类似,GCN通过卷积方式聚合中心节点的邻居信息,但其处理的是非结构化图数据。GCN借鉴图信号处理的相关算法,能够从图数据中提取特征,并且使这些特征可以用于节点分类、图分类和链路预测等任务。这使得GCN特别适合处理复杂的人脸属性关系图数据。
2.2.1" GCN的输入与传播公式
GCN的输入包括一个特征矩阵X(N×D维)和一个邻接矩阵A(N×N维),其中N为节点数量,D为特征维度。GCN通过重归一化的拉普拉斯矩阵和非线性激活函数进行信息传播,神经网络的传播公式为:
(1)
(2)
其中" 为重归一化的拉普拉斯矩阵, 为第l层的图特征, 为第l层的权重矩阵,σ为非线性激活函数。
2.2.2" GCN的网络结构
一般而言,GCN的输入是一个邻接矩阵A均为共享的图,即每层GCN的A矩阵都是相同的。此处采用一个三层GCN网络结构,用于处理人脸属性关系图。即使在少量标签数据的情况下,GCN也能进行有效的特征提取。整体的正向传播的计算方法为:
(3)
在GCN中,即使只有很少的节点具备标签也能完成训练,即能有效实现半监督分类。在使用完全随机的参数矩阵时,GCN也能获得较好的效果[11]。
2.3" ResNet图像特征提取模型
残差网络(ResNet)是由微软研究院的四名学者提出的卷积神经网络。通过其跳跃连接机制和残差单元,显著提高了图像分类的性能。ResNet网络的主要特点是其每两层间增加了短路机制,使网络能够学习残差。本文所涉及的ResNet-50和ResNet-101网络结构参数的主要不同在于第四层卷积块的数量不同,因此它们对图像抽象化程度不同。ResNet-101比ResNet-50的卷积操作更多,可以聚合更多邻居信息,感受野更宽广。
2.4" 整体网络结构设计
本文的GCN模型结合了邻接矩阵和经过预训练的节点特征矩阵来构建属性关系图,并通过三层图卷积获得新的节点特征矩阵,然后将新节点特征矩阵作为多层感知机的隐藏层构建为分类器。最后将这一新的分类器经过多轮训练,以提高属性感知能力。
2.4.1" 属性邻接矩阵构建
在GCN中,构建有效的邻接矩阵A是至关重要的,因为它定义了节点间信息传递的方式。在研究过程中,通过分析数据集中的标签共现模式来构建这样的邻接矩阵,共现模式指的是训练集中不同标签间的条件概率关系。如图3所示,如果在具有“smile”属性的样本中,“young”属性出现的概率为0.75,那么从“smile”节点到“young”节点的边的权重就被设为0.75。相应地,如果在具有“young”属性的样本中“smile”属性出现的概率为0.47,则从“young”节点到“smile”节点的边的权重为0.47。这种方法允许构建一个包含40个面部属性的复杂邻接矩阵,从而形成一个详细的属性关系图。在该图中共有40个节点,每个节点代表一个不同的面部属性。这种基于共现模式的邻接矩阵构建方法在GCN的应用中是相对新颖的,它为理解和预测复杂的面部属性间的相互关系提供了一个强有力的工具。该方法的创新之处在于它使用了条件概率来量化和构建图结构,利用图结构来增强多标签图像分类的性能,体现出GCN在处理复杂关系数据时的优势。
2.4.2" 节点特征矩阵构建
在GCN的应用中,节点特征矩阵的构建也是至关重要的一步,它直接影响着网络的性能和预测准确性。在研究过程中,节点特征矩阵是通过一个经过精心训练的多层感知器(MLP)分类器获得的,这一方法有效地编码了每个属性的特征。
如图4所示,节点特征矩阵的获取过程如下:首先,将图像输入到一个编码器中提取特征;然后,通过全连接层对这些特征进行训练,确保训练集中的所有样本都得到学习。经过四轮训练后,全连接层学习到了人脸的40个属性表示;最后,提取全连接层中隐藏层的权重作为节点特征矩阵。
在前面得到的邻接矩阵和节点特征矩阵的基础上,即可构建一个包含40个面部属性的关系图。通过三层图卷积获得了一个新的节点特征矩阵,这个新的矩阵仅为原始矩阵的1/4。然后,将这个节点特征矩阵用作隐藏层权重,并与经过预训练的偏置结合,形成一个新的分类器。经过多轮训练,这个GCN分类器能达到较好的属性感知能力。
3" 实验与分析
3.1" 数据集
训练模型所使用的是CelebFaces Attributes Dataset(CelebA)人脸识别数据集,CelebA是由香港中文大学提供的面部特征属性数据集,它包含1万多个名人的20余万张人脸照片,下载的数据集包中含有原始人物图像和经过标准化裁剪的人脸图像,每张图片都有40个属性标签[12]。该数据集可用于人脸属性预测和人脸识别等计算机视觉领域任务。
3.2" 模型训练指标
为了全面评估所提出方法的性能,选择了准确率、精准率、召回率和绝对匹配率作为评价指标。这些指标共同提供了对模型性能的综合评估,其中绝对匹配率被认为是多标签分类任务中最为严格的评价指标。绝对匹配率要求模型对每个实例的所有标签都进行准确预测,这在多标签分类中是一个极具挑战性的目标。准确率、精准率和召回率则分别评估模型预测正确的标签比例、预测为正的标签中实际为正的比例和所有正标签中被预测为正的比例。
在训练过程中,通过监测这些指标的变化,可以更好地理解模型的学习过程和性能。从图5所示的损失变化曲线图中可以看出,与传统的MLP分类器相比,该方法在训练过程中表现出了更强的抗过拟合能力。这一点从损失曲线的平稳下降和较低的最终损失值中得到了体现。在以往评估多标签分类模型时所采用的方法,为我们的方案提供了坚实的理论基础。通过对这些指标的持续监控,能够确保模型的有效性和鲁棒性,从而在多标签分类任务中取得更好的效果。
3.3" 实验结果
3.3.1" 性能比较
通过对表1实验结果的分析,发现本文的GCN分类器方法在一些关键性能指标上略低于基于MLP的分类器方法。然而,当使用ResNet50作为特征提取器时,该方法在性能上几乎与MLP方法持平。此外,GCN分类器在模型尺寸方面远小于MLP分类器,只有后者的1/4大小。这表明所提出的方法具有更加轻量级的特点,比较适合应用于资源受限的环境,能够在需要较小模型和较低计算需求的特定场景下发挥优势。
3.3.2" 属性样本分布和预测准确率关系
在完成多轮实验后,从图6(a)的分析中发现属性样本的分布存在不平衡现象。然而,结合图6(b)的观察得知即便样本分布不平衡现象,样本数最少的10个属性并未出现在预测准确率最低的10个属性中。这表明样本分布的不平衡不是影响准确率的主要因素。
3.3.3" 预测准确率较低属性的特点分析
根据已有实验数据,进一步分析预测准确率最低的10个属性,发现这些属性具有以下特点:
1)直观特征较少,难以分辨。这些属性在视觉上不明显,使得即使是高级的特征提取器也难以准确识别。
2)情感色彩强烈,受主观影响较大。这类属性的判断在很大程度上受主观感受的影响,因此在不同人群或文化背景中可能存在较大差异。
3)与其他属性之间的边界模糊。此类属性与其他属性之间的界限不清晰,导致分类时容易出现混淆。
这些观察对于改进多标签分类系统具有重要意义。通过识别和优化这些具有挑战性的属性,可以进一步提升在处理复杂和细微的属性时分类器的性能。此外,这些发现也表明在设计和训练多标签分类系统时,应考虑到样本分布的不平衡和属性间的复杂关系。
4" 结" 论
本文提出了一种基于GCN的多标签人脸属性识别模型,该模型构建了一个描述人脸属性之间关系的有向图,并利用GCN将每个属性映射到对应的分类器,从而类别间的依赖性进行有效建模。在权威的CelebA人脸属性识别数据集上的实验结果表明,本模型取得了较好的识别性能。
为了进一步提升模型在特定属性识别方面的性能,未来的研究工作将集中于解决那些具有较少直观特征和较强情感色彩的属性所带来的问题。可继续深入探讨的策略包括:
1)数据增强和迁移学习。通过此类方法增加难以分辨属性的训练样本量,以提高模型在这些属性上的识别性能。
2)模型结构改进。引入更复杂的特征提取技术,例如注意力机制或对抗性训练,以更细致地捕捉这些属性的细微差别。
3)替代数据源选择。借助用户生成内容或社交媒体数据等替代数据源,以提供额外的训练数据,帮助解决此类属性识别问题。
此外,本文提出的基于GCN的模型也可以被用来压缩其他多标签分类器的尺寸,将其作为现有分类器的一个组成部分,以实现更高效、更轻量级的模型。这将开辟模型压缩和资源优化的新途径,尤其适用于资源受限的应用场景。
参考文献:
[1] 苏赋,吕沁,罗仁泽.基于深度学习的图像分类研究综述 [J].电信科学,2019,35(11):58-74.
[2] HUANG G,LIU Z,MAATEN L V D. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:4700-4708.
[3] KIPF T N,WELLING M. Semi-Supervised Classification with Graph Convolutional Networks [J/OL].arXiv:1609.02907 [cs.LG].(2016-08-09).https://arxiv.org/abs/1609.02907.
[4] 朱文登.基于计算机视觉的卫星频谱信号识别研究 [D].南京:南京邮电大学,2020.
[5] 周巍.图像识别技术在工业设计信息交互中的应用 [J].工业设计,2021(1):28-29.
[6] CHEN S F,CHEN Y C,YEH C K,et al. Order-Free RNN with Visual Attention for Multi-Label Classification [C]//Thirty-Second AAAI Conference on Artificial Intelligence 2018.Palo Alto:AAAI Press,2018:6714-6721.
[7] WANG J,YANG Y,MAO J H,et al. CNN-RNN: A Unified Framework for Multi-Label Image Classification [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition" (CVPR).Las Vegas:IEEE,2016:2285-2294.
[8] LIU Z W,LUO P,WANG X G,et al. Deep Learning Face Attributes in the Wild [C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:3730-3738.
[9] 曹猛,田青,马廷淮,等.人类面部属性估计研究:综述 [J].软件学报,2019,30(7):2188-2207.
[10] 袁梦奇,鲍秉坤.图像多标签学习的研究概述 [J].南京信息工程大学学报:自然科学版,2019,11(6):682-689.
[11] 安鹏进.注意力机制与图卷积方法融合的行程时间预测算法研究 [D].哈尔滨:哈尔滨工业大学,2020.
[12] LIU Z W,LUO P,WANG X G,et al. Large-scale CelebFaces Attributes (CelebA) Dataset [DB/OL].(2021-09-10).https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html.
作者简介:李名涵(1999—),男,汉族,四川成都人,本科,研究方向:计算机视觉与图神经网络;通讯作者:刘科(1979—),男,汉族,湖北荆州人,博士,研究方向:智能机器人;昂寅(1999—),男,汉族,安徽巢湖人,硕士在读,研究方向:机器视觉与自动驾驶。
收稿日期:2023-12-03
基金项目:中南民族大学教研项目(JYX19062)