AnytimeCL:难度加大,支持任意持续学习场景的新方案 | ECCV24

news/2024/11/7 9:42:37/文章来源:https://www.cnblogs.com/VincentLee/p/18531526

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Anytime Continual Learning for Open Vocabulary Classification

  • 论文地址:https://arxiv.org/abs/2409.08518
  • 论文代码:https://github.com/jessemelpolio/AnytimeCL

创新点


  • 在线训练时,每个批次由新训练样本和类别平衡的存储样本组成。
  • 在线学习每个标签的准确性,以有效对原始模型和调整后模型的预测进行加权。
  • 损失修改以支持“以上皆非”(不在预设标签内)的预测,这也使开放词汇训练更加稳定。
  • 中间层特征压缩,减少训练样本的存储并提高速度,同时对准确性的影响不大。

内容概述


论文提出了针对开放词汇图像分类的任意持续学习(AnytimeCL)方法,旨在突破批量训练和严格模型的限制,要求系统能够在任何时间预测任何一组标签,并在任何时间接收到一个或多个训练样本时高效地更新和改进。

AnytimeCL基于一种动态加权机制,结合了部分微调的模型的预测与原始的模型的预测。当有新训练样本时,用存储的样本填充一个类别平衡的批次更新微调模型最后的Transformer块,然后更新对给定标签的调优和原始模型准确度的估计,最后根据它们对每个标签的预期准确度对调优模型和原始模型的预测进行加权。

此外,论文还提出了一种基于注意力加权的主成分分析(PCA)的训练特征压缩方法,这减少了存储和计算的需求,对模型准确度几乎没有影响。

AnytimeCL


论文旨在通过将微调模型与原始模型相结合来增强开放词汇图像分类器以学习目标任务。调优后的模型使用与原始模型相同的编码器,但包含一个可训练的解码器。

对于一幅图像 \(x\) ,调优模型和原始模型都生成所有候选标签的概率,分别表示为 \(P_t(y|x)\)\(P_o(y|x)\) ,最终概率通过在线类别加权(OCW)进行加权:

\[\begin{equation} \label{eq:our_weighting} P(y|x) = \alpha_o(y) P_t(y|x) + \alpha_t(y) P_o(y|x), \end{equation} \]

在训练过程中,新样本被编码为中间特征(图像块的特征向量加上一个CLS标记),可以选择进行压缩并存储,以便在未来重复使用。

模型

  • 原始模型

原始模型是公开可用的CLIP ViT模型,该模型基于图像嵌入 \(e_{x}\)CLS标记)与文本嵌入 \(e_{y}\) 的点积,为图像 \(x\) 生成给定一组候选文本标签 \(\mathcal{Y}\) 的标签 \(y\) 的概率:

\[\begin{equation} \label{eq:class_wise_probability} P_o(y|x) = \frac{\exp(100 \cdot \cos(e_{x}, e_{y}))}{\sum_{y_k\in\mathcal{Y}} \exp(100 \cdot \cos(e_{x}, e_{y_k}))}. \end{equation} \]

  • 调优模型

调优模型仅调优最后的图像Transformer块,同时保持标签嵌入固定。这有助于特征与文本模态保持相关,并减少对接收标签的过拟合。

给定一个新样本,构造一个包含该样本的批次以及经过类平衡采样的存储训练样本。此外,使用一种正则化损失来帮助提高性能。如果真实标签不在候选标签中,那么每个候选标签都应该预测一个较低的分数。通过在候选集中添加一个“其他”选项来实现这一点,但由于“其他”没有具体的表现,仅用一个可学习的偏差项来对其建模。因此,训练调优模型的综合损失为:

\[\begin{equation} \label{eq:final_loss} \mathcal{L}(x, y, \mathcal{Y}) =\mathcal{L}_{\text{ce}}(x,y,\mathcal{Y} \cup \text{other}) + \beta \mathcal{L}_{\text{ce}}(x,\text{other},(\mathcal{Y} \cup \text{other}) \setminus y), \end{equation} \]

在线类别加权(OCW

在更新之前使用每个训练样本,根据调优和原始预测来更新对其标签正确性的可能性估计,从而对给定标签正确的模型分配更高的权重。应用指数滑动平均(EMA)更新方法在线估计它们,符合随时持续学习的目标。假设EMA衰减设置为 \(\eta\) (默认为 \(0.99\) ),当前步骤调优模型的估计准确性为:

\[\begin{equation} c_t(y) = \eta \hat{c}_t(y) + (1 - \eta) \mathbb{1}[y_t(x)=y]. \end{equation} \]

这里, \(\hat{c}_t(y)\) 是前一步骤中标签 \(y\) 的估计准确性; \(y_t(x)\) 表示调优模型对 \(x\) 的预测标签。由于指数滑动平均依赖于过去的值,将 \(c_t(y)\) 计算为前 \(\lfloor \frac{1}{1-\eta} \rfloor\) 个样本的平均准确性。 \(c_o(y)\) 也是以相同的方式更新的。

在获得 \(c_t(y)\)\(c_o(y)\) 之后,两个模型的权重为:

\[\begin{equation} \label{eq:final_alpha} \alpha_t(y)= \frac{c_t(y)}{c_t(y) + c_o(y) + \epsilon}, \qquad \alpha_o(y)= 1 - \alpha_t(y). \end{equation} \]

这里, \(\epsilon\) 是一个非常小的数(1e-8),用于防止除以零。对于调优模型未见过的标签,设置 \(\alpha_t(y)=0\) ,因此 \(\alpha_o(y)=1\)

存储的高效性与隐私性

模型的调优需要存储每个图像或者存储输入到调优部分的特征(或标记)。存储图像存在缺乏隐私和在空间和计算上低效的缺点,因为在训练中需要重新编码。存储特征可以缓解其中一些问题,但仍然使用大量内存或存储空间。

训练良好的网络学习到的数据高效表示往往难以压缩,如果尝试使用在某个数据集上训练的VQ-VAEPCA(主成分分析)来压缩特征向量,将无法在不大幅损失训练性能的情况下实现任何有意义的压缩。然而,每幅图像中的特征包含许多冗余。因此,计算每幅图像中特征的PCA向量,并将这些向量与每个特征向量的系数一起存储。

此外,并非所有标记在预测中都是同等重要的。因此,可以训练一个逐图像的注意力加权PCA,通过每个标记与CLS标记之间的注意力加权。最后,可以通过存储每个向量及其系数的最小/最大浮点值,并将它们量化为8位或16位无符号整数来进一步压缩。通过以这种方式仅存储五个PCA向量及其系数,可以将50768维标记( \(7\times 7\) patch 标记 +CLS标记)的存储从153K字节减少到5K字节,同时预测准确度的差异不到1%

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/828171.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

纯HTML5+CSS3实现一棵自己跳舞的树

代码没有多少,也没有用到任何图片,就实现了一棵可以自己跳舞的树。文件组成就简简单单的一个html和一个csshtml部分并不是很复杂,就是一些空的div,然后加上html模板也就那么十来行代码最关键的还是css部分,也不是很多,总共一百来行但就是上面这么简简单单的两个文件可以绘…

工地违规动火作业检测系统

工地违规动火作业检测系统利用现场监控摄像头对监控范围进行烟火监测,工地违规动火作业检测系统一旦发现烟火异常情况或火灾情况,无需人工干预,系统会迅速发出预警,弥补人力巡查的不足。工地违规动火作业检测系统的应用,不仅大大提高了火灾防控的效率和精度,更在很大程度…

车辆违规掉头车祸识别告警系统

车辆违规掉头车祸识别告警系统采用人工智能技术中的机器视觉分析识别技术。 车辆违规掉头车祸识别告警系统通过现场监控摄像头对交通道路区域进行实时检测,系统能够自动识别车辆的行驶状态和轨迹,判断是否存在违规掉头行为。 车辆违规掉头车祸识别告警系统一旦检测到车辆违规…

排水口水体颜色识别系统

排水口水体颜色识别系统利用现场监控摄像头对排水口水体进行实时监测,排水口水体颜色识别系统通过机器视觉技术对水体颜色进行分析和识别。一旦发现异常颜色,系统将立即发出告警通知相关人员,以便他们能够及时处理。这种智能监测方式不仅可以提高监测效率和准确性,还能有效…

渣土车篷布未遮盖抓拍识别系统

渣土车篷布未遮盖抓拍识别系统利用现场监控摄像头对现场出入口的渣土车进行实时监测,当监测到渣土车未遮盖篷布未密封等行为时,立即抓拍告警同时将告警推送给相关管理人员。渣土车篷布未遮盖抓拍识别系统主要包括现场监控摄像头、AI分析识别模块、告警推送模块和后台管理模块…

优化生产流程:Ftrans机台设备数据采集方案智能解决!

机台设备数据采集在工业生产与制造、能源管理、交通运输、建筑物管理以及医疗健康等多个领域都有着广泛的应用场景。机台设备数据采集可以提高生产效率与质量控制、降低运营成本与维护成本、提升决策效率与准确性等。企业通常采取FTP脚本进⾏统一机台设备数据采集,虽然可以满⾜…

数据摆渡一体机:实现高效数据传输与智能管理的解决方案

内外网数据摆渡一体机主要用于在内网和外网、红区与绿区、高密网和低密网之间安全高效地传输数据,确保数据的完整性和安全性。这种设备可以帮助企业实现信息隔离,同时又能满足数据交换的需求。数据摆渡一体机的应用场景 数据摆渡一体机主要应用于以下场景: 数据隔离与安全:…

GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU

本文主要分享在不同环境,例如裸机、Docker 和 Kubernetes 等环境中如何使用 GPU。跳转阅读原文:GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU1. 概述 仅以比较常见的 NVIDIA GPU 举例,系统为 Linux,对于其他厂家的 GPU 设备理论上流程都是一样的。省流:对…

橡胶

关键节点。 下破3-4的节点 可能预示着只是个ABC反弹。且反弹结束。如果再向上突破18210则很可能17465就是这个中期底部。

一起了解早期使用的各种垃圾收集器

以上是 HotSpot 虚拟机中的 7 个垃圾收集器,连线表示垃圾收集器可以配合使用。 并行收集: 指多条垃圾收集线程并行工作,但此时用户线程仍处于等待状态。 并发收集: 指用户线程与垃圾收集线程同时工作(不一定是并行的可能会交替执行)。用户程序在继续运行,而垃圾收集程序…

F5 BIG-IP Next SSL Orchestrator 20.3.0 发布下载,新增功能介绍

F5 BIG-IP Next SSL Orchestrator 20.3.0 发布下载,新增功能介绍F5 BIG-IP Next 20.3.0 - 多云安全和应用交付 BIG-IP 是硬件平台和软件解决方案的集合,提供专注于安全性、可靠性和性能的服务 请访问原文链接:https://sysin.org/blog/f5-big-ip-next/ 查看最新版。原创作品,…