电子与信息学报 09-04
武汉大学夏桂松团队:面向遥感图像解译的增量深度学习
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

面向多模态遥感数据、不同类型解译任务,武汉大学夏桂松教授团队(一作翁星星博士生)撰文全面调研了遥感图像智能解译增量学习方法,从遗忘问题解决思路、解译模型进化应用两个层面梳理了现有研究工作。在此基础上,从促进遥感图像解译模型进化研究的角度,展望和讨论了遥感领域增量学习的未来研究方向。

原文:翁星星 ,   庞超 ,   许博文 ,   夏桂松 .   面向遥感图像解译的增量深度学习 [ J ] .   电子与信息学报 , 预发表 . doi: 10.11999/JEIT240172.

一 研究背景

深度学习的发展推动了高精度遥感图像智能解译模型的涌现。然而,目前遥感智能解译模型大多基于预先定义的静态数据集独立训练,难以适应环境开放和需求动态的实际应用,严重阻碍了遥感智能解译模型的广域和长期运用。增量学习能使模型持续学习新知识,并保持对旧知识的记忆。因此,有必要研究面向遥感图像解译的增量学习方法,推动遥感智能解译模型演化、提升模型智能解译性能。

二 增量学习问题定义

根据训练数据标注 / 模型测试设置的差异,增量学习通常分为:任务增量学习 ( task incremental learning ) 、类别增量学习 ( class incremental learning ) 、域增量学习 ( domain incremental learning ) 。

其中,任务增量学习是指通过多阶段学习使深度模型逐步适应一系列的任务。在模型测试时,每个待测试图像都具有明确的任务编号。这使得模型训练只需关注单个任务内部的决策边界。

类别增量学习旨在引导模型在已知语义类别(称为旧类别)的基础上,从新采集的训练数据中学习识别新的语义类别,并且无需重新学习旧类别。

域增量学习的目标是让模型逐步适应同一类别的分布变化,提升模型的泛化能力。不同于任务增量学习,类别 / 域增量学习的测试阶段无需提供待测试图像所属的任务编号。

三 增量学习方法回顾

受隐私保护、存储限制等因素的影响,旧任务(或旧类别)的训练数据可能无法获取。若仅用新任务的数据训练模型,极易导致模型对旧任务知识的灾难性遗忘(catastrophic forgetting),从而在旧任务或旧数据上的性能下降。根据遗忘问题的解决思路差异,面向遥感图像解译的增量学习大致分为:基于知识蒸馏(knowledge distillation)、基于网络扩展(network expansion)、基于记忆回放(memory replay)的方法。

  ( 1 ) 基于知识蒸馏的方法将旧模型作为教师模型,指导新模型(即学生模型)学习。

具体实现是借助损失函数的形式约束新模型的参数更新。根据知识蒸馏实施的位置,现有研究可以分成输出空间知识蒸馏和特征空间知识蒸馏。前者将旧模型输出的概率分布作为新模型的学习目标,通过比较两者的输出概率分布传递知识。后者则将旧模型的特征表征视为新模型的学习目标,通过特征对齐实现知识的迁移。结合增量学习类别和解译任务特性,产生了多个知识蒸馏损失的变体。以地物分类的类别增量学习研究为例,代表性工作包括:背景建模的知识蒸馏损失缓解背景偏移对旧知识迁移的负面影响;结构化的知识蒸馏损失赋予特征空间知识蒸馏更大的灵活性,从而有效地平衡新知识学习和旧知识维持。

  ( 2 ) 基于网络扩展的方法通过为各阶段的新数据学习设置独立的网络参数,避免与旧知识相关联的模型权重被完全覆盖,从而达到旧知识保护和新知识学习的目标。

在没有模型参数量约束时,可以选择复制整个网络架构,例如,GeoBoost。与一组数据对应一个模型的非增量学习不同,GeoBoost 扩展网络是将其视为一个弱学习器,用于弥补先前累加学习器在新数据上的性能不足。每个弱学习器自身并不是一个独立的任务模型。网络整体扩展有效且易于实现,但随着学习阶段的增多,该方法会增加模型的存储成本和推理时间,不利于实际应用部署。鉴于此,多数研究专注于扩展网络的局部模块。例如,扩展轻量化残差模块,将共享特征转换为任务特定特征;扩展特征迁移模块,实现新模型向旧模型的特征转换。

  ( 3 ) 基于记忆回放的方法放宽了旧数据完全无法获取的限制条件,允许保留模型在每个训练阶段的部分旧数据,以帮助模型在学习新数据时复习先前学习的知识。

为了权衡数据存储成本和遗忘问题缓解,遥感领域增量学习研究采用随机抽样、群聚(herding)策略、类边界(class boundary)样本选择等方法,确保保留的少量数据能够尽可能代表原始数据集的分布。基于存储的旧数据,新模型可通过全监督的学习范式复习旧知识。然而,由于新旧数据之间巨大的数据量差异,新模型的预测很容易偏向新数据,从而导致新模型在旧数据上的性能不佳。因此,现有研究提出了若干预测偏差校正方法,包括训练样本抽样加权、损失函数加权、可分离学习策略,以及偏差校正层的应用。

四 遥感图像解译模型进化

当前,遥感领域增量学习研究侧重可见光遥感图像、合成孔径雷达图像和高光谱遥感图像的解译模型进化。如图 1 所示。其中,可见光图像解译模型进化是研究热点。

针对场景识别、目标检测、地物分类和变化检测等典型解译任务,提出了系列增量学习方法。知识蒸馏、网络扩展和记忆回放都已用于平衡新知识学习和旧知识巩固。面向合成孔径雷达图像解译的增量学习研究集中于目标识别模型的类别增量学习。现有研究普遍采用记忆回放解决旧类别遗忘问题。因此,研究重点包括如何选择具有代表性的旧类别样本,以及如何应对新旧类别数据量差异所引发的新模型预测偏差。针对高光谱图像解译的增量学习研究处于初步阶段,仅有几个工作探索了高光谱图像分类模型的类别增量学习和任务增量学习。

图 1 面向遥感图像解译的增量学习方法总结

五 研究展望

目前来看,面向遥感图像解译的增量学习研究处于起步阶段。鉴于前述研究进展,对遥感领域的增量学习研究展望如下:

( 1 ) 多样解译任务的增量学习

现有研究主要关注可见光遥感图像场景识别的增量学习。由于数据模态和解译任务之间的差异,现有方法难以支撑多样遥感图像解译模型的进化。以类别增量学习为例,新旧类别的高度相似性易导致解译模型在学习新类别后遗忘相似的旧类别。不同模态遥感数据的类别相似性成因各不相同。在可见光图像中,类别相似性主要源于地物目标具有相似的视觉特征(如纹理、形状等)。高光谱图像的类别相似性来自于地物目标相似的光谱曲线。至于 SAR 图像,不同类别的地物目标表现出相似的反射行为,是因为它们可能有相似的物理材料。针对遗忘问题的不同成因,亟需结合数据模态特性,设计增量学习方法。此外,已有研究依据地物分类任务的特性,设计逐任务知识蒸馏或背景建模知识蒸馏,提升了地物分类模型的旧类别知识巩固能力。因此,面向不同模态的遥感数据和不同类型的解译任务,有必要发展相应的增量学习方法。目前,高光谱图像、多光谱图像等遥感数据以及目标检测、变化检测等解译任务的增量学习方法仍有待进一步探索。

( 2 ) 增量学习研究基准的构建

遥感领域的增量学习研究通过拆分或组合常规遥感图像数据集模拟增量学习过程,以验证方法的有效性。这种模拟策略通常只能产生少量的增量学习阶段。例如,类别增量学习研究使用 Potsdam 数据集模拟最多 4 个阶段的模型训练。类似的,任务增量学习研究使用 4 个常规数据集模拟 4 个阶段的模型训练。少量的增量学习阶段不足以充分测试增量学习方法的性能。此外,由于数据集选择和划分机制的差异,难以公平地比较和筛选出最实用的增量学习方法。因此,迫切需要建立大规模的增量学习基准数据集,并制定统一的数据划分规则,为后续增量学习发展提供数据支撑。

( 3 ) 有限训练样本的增量学习

绝大多数研究假设不同阶段采集的遥感数据具备足够数量且标注精细的训练样本,用于学习新知识。然而,实际应用难以满足这个假设。例如,对于解译模型的任务增量学习而言,多阶段标注大规模遥感图像数据集既耗时又费力。因此,有必要研究适应训练样本有限的增量学习方法,降低解译模型在学习新知识时对样本数量和标注质量的要求。当前,弱监督学习(weakly supervised learning)和少样本学习(few-shot learning)等研究领域的前沿技术已经初步引入类别增量学习,降低了解译模型在学习新类别时对标注样本的依赖。

( 4 ) 网络架构无关的增量学习

随着深度学习的发展,解译模型的网络架构从卷积神经网络(Convolutional Neural Network, CNN)逐步转向 Transformer 或 Mamba,提升了智能解译的精度。无论采用何种架构的解译模型,实际应用均要求其具备持续学习的能力。然而,现有的增量学习研究几乎都是面向 CNN 架构的解译模型。已有研究表明,虽然某些增量学习方法在 CNN 架构中表现出色,但这些方法迁移至 Transformer 架构时并未能获得同等的性能增益。因此,需要开发与网络架构无关的增量学习方法,而不应仅限于某一个或某一类特定架构的解译模型。

( 5 ) 新旧知识整合的增量学习

现有的增量学习研究致力于旧知识的维持和新知识的学习,缺乏对新数据、新知识与旧知识之间相关性的挖掘,这限制了解译模型进化的实际应用。以地物分类模型的增量学习为例,由于传感器参数、成像条件、地理位置等因素的差异,新旧数据之间不可避免地存在分布差异。单纯地保留旧知识使得模型难以应对数据分布的变化,从而无法准确预测新数据上的旧类别目标。此外,不同阶段采集的遥感数据集往往包含重叠的类别标注信息,然而现有研究将多阶段数据集视为多个任务,分别设置并优化独立的预测头。这相当于为不同分布的同一类别训练了多个模型。在实际应用中,人眼难以区分数据分布,以便选择模型推理的预测头。因此,亟需开发新旧知识整合的增量学习方法,使得模型既能够利用旧知识促进新知识的学习,同时利用新数据巩固并优化旧知识。

作者团队:

博士生:翁星星、庞超、许博文

通信作者:夏桂松 教授 guisong.xia@whu.edu.cn

编辑 | 马秀强

校对 | JEIT 融媒

审核 | 陈     倩

本号发布信息旨在传播交流。如涉及图文版权等问题,请在 20 日内与本号联系,我们将第一时间处理。

第三十四届中国电子学会电路与系统学术大会第一轮通知

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

深度学习 武汉大学 数据标注
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论