摘 要:随着计算机运算能力的提升以及深度学习技术的发展,无须人工参与的深度学习方法已成为遥感影像分类的主流方法。因此,提出一种基于深度学习并嵌入注意力机制和融合多尺度特征的神经网络对遥感影像进行场景分类。该模型使用迁移学习减少训练样本不足带来的负面影响;在网络中嵌入注意机制、融合多尺度特征来提高对小尺寸地物目标分类的能力,并验证了模型的有效性。通过实验分析得出所提模型对遥感影像场景分类是可行且有效的。
关键词:注意机制;遥感影像;场景分类;多尺度融合
中图分类号:TP751;TP183 文献标识码:A 文章编号:2096-4706(2024)08-0138-05
0 引 言
遥感影像分类是遥感应用中最关键的技术之一,遥感应用的发展受限于很多因素,其中之一就是遥感影像分类精度。遥感影像空间分辨率大、蕴含信息丰富、空间结构复杂、特征分布不一致等问题都是导致遥感影像分类任务存在挑战的原因。此外,要想获取带标签的遥感影像数据,需要经验丰富的专业人士来手工进行标注,该方式耗时且成本高。如果训练一个模型能够只使用少量的训练数据,并且分类效果能够有所保证,那么该模型可以显著提高遥感影像分类的效率。传统的遥感影像分类方法所使用的特征是人工设计的,特征质量无法保证,导致最终分类效果通常是欠佳的[1]。而计算机运算能力的提升和深度学习技术的发展,使无须人工参与的深度学习方法成为遥感影像分类的主流方法。因此,本文使用深度学习技术来对天水市花牛苹果树样本遥感影像场景分类模型进行进一步研究。
1 问题描述和模型介绍
遥感影像场景分类是指为每张遥感影像都分配一个地物类型标签,有着十分广泛的实际应用。常规的遥感影像分类框架通常是先对遥感影像进行裁剪、旋转、归一化等预处理操作,接着使用特征提取器进行特征提取,然后对提取出来的特征进行选择,之后是将选择出来的特征输入到分类器进行分类,从而得到最终的分类结果[2,3]。
而在深度学习中,卷积神经网络在已经有了较为广泛的应用,具体到遥感影像场景分类的应用中,现有的先进方式也是基于深度学习的。要想使基于深度学习的遥感影像场景分类模型分类精度良好,前提条件是需要有良好的神经网络结构和大量的可训练样本。但在实际情况中,获取大量有标签的样本训练一个全新的网络是很困难的,而且在这个过程中,还会涉及参数的调优等操作[4,5]。此外,神经网络向着结构加深的方向发展,这使得神经网络需要训练的参数变多、调优的工作量加大。当训练样本不足或数据集质量低下时,会导致模型出现过拟合的情况。而迁移学习方法首先会使用大规模的数据集上来预训练得到一个模型,这个模型就是源域的模型;接着将该源域的模型迁移到目标域,并对模型进行微调,从而使得在目标域的分类任务上能具有良好的分类效果。使用迁移学习能够一定程度上解决训练样本不足导致的种种问题,因此将迁移学习和神经网络相结合也是当前的热点研究方向[6-8]。
此外因为遥感影像成像空间分辨率很大,而且不同的地物类型表现在图片中前景图片尺寸会出现一定的差异,如低密度的住宅区中会出现一定的绿植,绿植面积和住宅面积相差不大,会出现误分类的情况。因此,遥感影像场景分类模型中融合多尺度特征是一种提升小尺寸地物目标分类能力的合理手段[9,10]。基于此,本文提出一种基于迁移学习和多尺度特征融合的注意力网络模型用于遥感影像的场景分类,模型框架如图1所示。该模型首先使用迁移学习技术,用源域训练集预训练得到一个基模型,迁移基模型的特征提取器作为遥感影像分类模型的特征提取器,来减少训练样本不足的负面影响。此外,该模型在Block-5之后添加通道注意力机制来提高模型的泛化能力;使用了多尺度特征将VGG16模型中的Block-3输出的特征图、Block-4输出的特征图、Block-5经过通道注意力机制后输出的特征图进行融合来提高不同尺度目标物体识别能力。
2 实验设计
2.1 数据介绍
本实验在Intel(R) Core(TM) CPU 、Ubuntu 16操作系统、NVDIA显卡、16 GB RAM环境下进行,使用Python语言、TensorFlow深度学习框架。实验数据采用天水市2010—2020中Landsat地表反射率影像数据,并获取了SRTM高程数据。
2.2 评价指标
为了验证所提方法的有效性,通过综合精度(Overall Accuracy, OA)、平均精度(Average Accuracy, AA)两个常用指标来衡量该方法的有效性。所有的实验结果指标对应的值取的都是各指标在10次实验后对其求平均的结果。
2.3 实验设计
为了证明提出方法的有效性和普适性,本文设计了以下实验:
1)为了证明迁移学习的有效性,进行冻结不同层次网络的对比实验。
2)为了证明注意力机制的有效性,进行使用注意力机制和不使用注意力机制的实验。
3)为了验证基于迁移学习、注意力机制和多尺度特征融合在各网络上的有效性,进行只使用各网络和在各网络上嵌入注意力机制并进行多尺度特征融合的对比实验。
3 结果分析
3.1 迁移学习有效性分析
在遥感影像场景分类任务上,针对迁移有效性的实验结果如表1所示。该组实验中,训练集和测试集的比例为20%和80%,使用的特征提取器为VGG16网络训练得到的特征提取器。表中冻结模块所在列表示VGG16网络的特征提取器中被冻结的模块;OA所在列表示的是综合精度。根据表1实验结果可以看出,当特征提取器的所有层冻结之后,分类效果是最好的;而对特征提取器进行微调时,不论是设置哪些层可训练,其分类精度都断崖式下降。推测出现这种情况的原因是参与模型训练的数据相对于VGG16网络过少导致的。总之,实验结果还是证明了迁移学习的有效性,在实际应用中使用数据量丰富的源域数据集预训练得到的特征提取器来减少模型训练时间,提高效率。
由表1结果可以分析出,VGG16网络中,对特征提取器中的所有Block进行冻结表现最佳;对部分Block不进行冻结,让它们参与训练,模型的表现会很糟糕。因此后续的实验中,将VGG16中用于特征提取的5个Block全部冻结不参与训练。
3.2 注意力机制有效性分析
注意力机制有效性的实验验证结果如表2所示,该实验中训练集和测试集比例分别为20%和80%。首行表示使用的网络类型,其中VGG16表示的是使用VGG16网络且未使用注意力机制,VGG16_SE表示的是使用VGG16网络且使用了注意力机制;VGG19表示的是使用VGG19网络且未使用注意力机制,VGG19_SE表示的是使用VGG19网络且使用了注意力机制;Inception表示的是使用Inception网络且未使用注意力机制,Inception_SE表示的是使用InceptionV3网络且使用了注意力机制。在VGG16、VGG19和InceptionV3网络上分别不添加注意力机制和添加了注意力机制的实验结果表明,在VGG16网络中嵌入注意力机制是有效的。
冻结使用ImageNet训练得到的用于特征提取的所有Block,不使用注意力机制,只对分类器进行训练的实验结果如图2所示,其中图2(a)为综合精度随着Epoch的变化曲线图,图2(b)为损失随着Epoch的变化曲线图。
不使用注意力机制,冻结使用ImageNet预训练得到的特征提取器中的Block-1、Block-2和Block-3,只训练特征提取器中的Block-4和分类器,其实验结果如图3所示,其中图3(a)为综合精度随着Epoch的变化曲线图,图3(b)为损失随着Epoch的变化曲线图。
使用注意力机制,冻结使用ImageNet训练得到的特征提取器,训练通道注意力机制部分(SENet)和分类器,其精度和损失图如图4所示。从图中可以看出注意力机制的加入对精度和损失的影响非常大,加入注意力机制后精度明显提高,损失也逐渐降低。
根据以上所示的实验结果,可以得知使用的不论是VGG16、VGG19还是InceptionV3网络,在添加了注意力机制后模型的分类精度有所提升,损失会下降。此外,根据这些实验结果,可以得知选取迁移学习的源域模型结构也很重要,针对遥感影像场景分类,迁移VGG16和VGG19的特征提取器都较为有效,而InceptionV3的特征提取器表现差一些。
3.3 多尺度特征融合模型有效性分析
为了验证提出方法的有效性,进行了只使用迁移学习和使用迁移学习+注意力机制+多尺度特征融合的对比实验,实验结果如表3所示。表3是在数据集上进行的VGG16和VGG16_fs_SE对比实验结果。
当仅使用特征融合机制,冻结使用ImageNet训练得到的用于特征提取的所有Block,训练分类器时,其精度和损失图如图5所示。
表3的结果表明在VGG16网络上嵌入注意力机制、融合多尺度特征后,OA和AA都会有所提升。此外从图5中也可以看出特征融合机制对精度有所提高,对损失有明显的降低。以上这些指标都表明了网络中嵌入注意力机制、融合多尺度特征后模型的分类表现会更佳。
4 结 论
本文主要针对遥感影像场景分类而提出基于迁移学习和多尺度特征融合的注意力网络模型。首先对遥感影像场景分类存在的问题和本文建立的模型进行描述。接着设计对比实验验证了模型的有效性,得出以下结论:
1)VGG16网络中,对特征提取器中的所有Block进行冻结时表现最佳;对部分Block不进行冻结而让它们参与训练,模型的表现会很糟糕。
2)使用的不论是VGG16、VGG19还是InceptionV3网络,在添加了注意力机制后模型的分类精度都有所提升,损失会下降。针对遥感影像场景分类,迁移VGG16和VGG19的特征提取器都较为有效,而InceptionV3的特征提取器表现相对差一些。
3)GG16网络上嵌入注意力机制、融合多尺度特征后OA和AA都会有所提升。特征融合机制对精度的有所提高,对损失有明显的降低。表明了网络中嵌入注意力机制、融合多尺度特征后模型的分类表现会更佳。
参考文献:
[1] 张康,黑保琴,李盛阳,等.基于CNN模型的遥感图像复杂场景分类 [J].国土资源遥感,2018,30(4):49-55.
[2] 罗畅,王洁,王世强,等.基于泛化深度迁移特征的高分遥感场景分类 [J].系统工程与电子技术,2018,40(3):682-691.
[3] 孟庆祥,吴玄.基于深度卷积神经网络的高分辨率遥感影像场景分类 [J].测绘通报,2019(7):17-22.
[4] ROY S K,KRISHNA G,DUBEY S R,et al. HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification [J].IEEE Geoscience and Remote Sensing Letters,2020,17(2):277-281.
[5] FANG L Y,LIU G Y,LI S T,et al. Hyperspectral Image Classification With Squeeze Multibias Network [J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(3):1291-1301.
[6] KANG X D,ZHUO B B,DUAN P H L. Dual-Path Network-Based Hyperspectral Image Classification [J].IEEE Geoscience and Remote Sensing Letters,2019,16(3):447-451.
[7] ZHOU P C,HAN J W,CHENG G,et al. Learning Compact and Discriminative Stacked Autoencoder for Hyperspectral Image Classification [J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(7):4823-4833.
[8] 胡丽,单锐,王芳,等.基于双通道空洞卷积神经网络的高光谱图像分类 [J].激光与光电子学进展,2020,57(12):356-362.
[9] 王振庆,周艺,王世新,等.IEU-Net高分辨率遥感影像房屋建筑物提取 [J].遥感学报,2021,25(11):2245-2254.
[10] 胡立栓.高光谱遥感影像光谱降维与空谱联合分类方法研究 [D].北京:中国地质大学(北京),2018.
作者简介:李靖霞(1984—),女,汉族,甘肃静宁人,讲师,硕士,主要研究方向:生态学、林业遥感;通讯作者:李文瑾(1984—),女,汉族,甘肃天水人,讲师,硕士,主要研究方向:林业、森林生态旅游。
收稿日期:2023-08-27
基金项目:甘肃省教育厅高校教师创新基金资助项目(2023A-245);甘肃省教育厅高校教师创新基金资助项目(2023B-321);2023年甘肃林业职业技术学院院列科研项目(GSLY2023-13B);2023年甘肃林业职业技术学院院列科研项目(GSLY2023-09A)
DOI:10.19850/j.cnki.2096-4706.2024.08.030
Research on Remote Sensing Image Scene Classification Method Based on
Transfer Learning and Multi-scale Fusion
LI Jingxia, LI Wenjin
(Gansu Forestry Polytechnic, Tianshui 741020, China)
Abstract: With the improvement of computer computing power and the development of Deep Learning technology, Deep Learning methods that do not require human intervention have become the mainstream method for remote sensing image classification. Therefore, this paper proposes a neural network based on Deep Learning, embedding Attention Mechanism and blending multi-scale features for scene classification of remote sensing images. This model uses Transfer Learning to reduce the negative impact from insufficient training samples. It embeds Attention Mechanisms and blends multi-scale features in the network to improve the ability to classify small-sized terrain targets, and verifying the effectiveness of the model. Through experimental analysis, it is concluded that the proposed model is feasible and effective for remote sensing image scene classification.
Keywords: Attention Mechanism; remote sensing image; scene classification; multi-scale fusion