SyncOOD:增加OOD目标检测鲁棒性,自动化数据助您一臂之力 | ECCV24

news/2024/11/5 9:29:51/文章来源:https://www.cnblogs.com/VincentLee/p/18527205

本文是对公开论文的核心提炼,而非直接翻译,旨在进行学术交流。如有任何侵权问题,请及时联系号主以便删除。

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Can OOD Object Detectors Learn from Foundation Models?

  • 论文地址:https://arxiv.org/abs/2409.05162
  • 论文代码:https://github.com/CVMI-Lab/SyncOOD

创新点


  • 研究并发掘在大规模开放集数据上训练的文本到图像生成模型在目标检测任务中合成OOD对象的潜力。
  • 引入一种自动化的数据整理过程以获取可控的、带注释的场景级合成OOD图像,用于OOD目标检测。该过程利用大型语言模型(LLMs)进行新对象发现,并使用视觉基础模型进行数据注释和过滤。
  • 发现在保持ID/OOD图像上下文的一致性以及获得更准确的OOD注释边界框,对合成数据在OOD目标检测中的有效性至关重要。
  • 在多个基准上的全面实验证明了该方法的有效性,在使用最少合成数据的情况下显著超越了现有的最先进方法。

内容概述


分布外(OOD)目标检测是一项具有挑战性的任务,因为缺乏开放集的OOD数据。受到近期在文本到图像生成模型方面的进展的启发,例如Stable Diffusion,论文研究了基于大规模开放集数据训练的生成模型合成OOD样本的潜力,从而增强OOD目标检测。

论文提出了SyncOOD,这是一种简单的数据策划方法。该方法利用大型基础模型的能力,从文本到图像的生成模型中自动提取有意义的OOD数据,使得模型能够访问包含在现成基础模型中的开放世界知识。合成的OOD样本随后被用于增强一个轻量级、即插即用的OOD检测器的训练,从而有效地优化了在分布内(ID)/OOD的决策边界。

在多个基准上进行的广泛实验表明,SyncOOD在性能上显著优于现有方法,凭借最少的合成数据使用,建立了新的最先进性能。

SyncOOD


异常合成管道包括两个部分:

  1. 合成一组有效的照片真实感场景级OOD图像 \(\textbf{x}^{\text{edit}}\) ,记为 \(\mathcal{D}_{\text{edit}} = \left\{(\textbf{x}^{\text{edit}}, \textbf{b}^{\text{edit}})\right\}\) ,该图像包含新颖对象及其相应的标注框 \(\textbf{b}^{\text{edit}}\) ,这一过程基于从 \(\mathcal{D}_{\text{id}}\) 进行全自动化的区域级编辑。
  2. 选择和使用高效的合成数据,为训练OOD对象检测器提供伪OOD监督,与训练集中ID样本一起使用。

合成新语义对象

  • 从分布内对象想象新概念对象

如图 (a) 所示,基于训练集 \(\mathcal{D}_{\text{id}}\) 中的ID标签 \(\mathcal{Y}_{\text{id}}\) ,利用大型语言模型LLM(如GPT-4)广泛的知识和推理能力来检查视觉相似度和上下文兼容性,为每个ID对象标签设想了一组新颖对象,记为 \(\mathcal{Y}_{\text{novel}}\) ,同时保持了想象对象与ID对象之间的语义可分性。这能够关联ID对象,并通过使用包含上下文示例的提示来促进可能的新对象的概念化,以替换现有的ID对象。

  • 在指定区域内编辑对象

为了生成包含新概念 \(y_j \in \textbf{y}^{\text{novel}}_i\) 的新图像,选择替换现有图像中标签为 \(y_i^{\text{id}}\) 的现有ID对象,而不是寻找新的位置或从头生成图像。通过这样做,可以确保上下文兼容性,并消除场景上下文中的干扰,因为上下文得以保留。

如图 (b) 所示,使用稳定扩散修复(Stable-Diffusion-Inpainting)对ID图像进行区域级编辑,得到包含新对象的编辑图像 \(\textbf{x}^{\text{edit}}\) 为:

\[\begin{equation} \textbf{x}^{\text{edit}}=\text{SDI}(\textbf{x}^{\text{id}},\textbf{b}^{\text{id}},\textbf{y}^{\text{novel}}). \label{eq:sdi} \end{equation} \]

  • 细化新对象的注释框

由于扩散模型中的随机性,编辑对象的属性,如质量、体积和定位,可能与原始对象框不匹配。为了解决这个问题,如图 (c) 所示,设计一个基于SAM的高效、有效的细化器,以获取新对象的精确边界框。

使用从 \(\textbf{b}^{\text{id}}\) 扩展出的填充区域作为提示,并使用SAM输出该区域中新对象的最高置信度实例掩码 \(\textbf{m}^{\text{SAM}}\)

\[\begin{equation} \textbf{m}^{\text{SAM}}=\text{SAM}(\textbf{x}^{\text{edit}};\text{padding}(\textbf{b}^{\text{id}}, e)), \label{eq:sam} \end{equation} \]

将获得的掩码 \(\textbf{m}^{\text{SAM}}\) 转换为边界框 \(\textbf{b}^{\text{SAM}}\) ,并计算 \(\textbf{b}^{\text{SAM}}\) 与相应的 \(\textbf{b}^{\text{id}}\) 之间的交并比(IoU),以过滤出在尺度上变化较大的新对象:

\[\begin{equation} \left\{\textbf{b}^{\text{edit}}\right\}=\left\{\left.\textbf{b}^{\text{SAM}}\middle|\right.\text{IoU}(\textbf{b}^{\text{SAM}},\textbf{b}^{\text{id}})>\gamma\right\}, \label{eq:iou} \end{equation} \]

发掘难OOD样本以及模型训练

  • Mining Hard OOD Objects with High Visual Similarities for Training

最可能被目标检测器混淆为原始ID对象的新对象视为最有效。因此,基于预训练目标检测器的潜在空间中的成对相似性,寻找最容易被混淆为ID的合成OOD样本。

对于一个现成的目标检测器 \(\mathcal{F}_\text{det}\) ,为每一对提取潜在特征 \(\textbf{z}^{\text{edit}}\)\(\textbf{z}^{\text{id}}\) ,根据相似性进行过滤,以提供伪OOD监督:

\[\begin{equation} \textbf{z}^{\text{edit}},\textbf{z}^{\text{id}}=\mathcal{F}_\text{det}(\textbf{b}^{\text{edit}};\textbf{x}^{\text{edit}}),\mathcal{F}_\text{det}(\textbf{b}^{\text{id}};\textbf{x}^{\text{id}}). \label{eq:extract} \end{equation} \]

\[\begin{equation} \left\{\textbf{z}^{\text{ood}}\right\}=\left\{\left.\textbf{z}^{\text{edit}}\middle|\right.\epsilon_{\textit{low}}<\text{sim}(\textbf{z}^{\text{edit}},\textbf{z}^{\text{id}})<\epsilon_{\textit{up}}\right\}, \label{eq:sim} \end{equation} \]

  • 通过合成样本优化ID/OOD决策边界

一旦获得了ID和合成OOD对象,使用一个轻量级的多层感知器(MLP\(\mathcal{F}_\text{ood}\) ,作为经过二分类损失优化的OOD检测器参与训练:

\[\begin{equation} \mathcal{L}_\text{ood}=\mathbb{E} _{\textbf{z}\sim\textbf{z}^{\text{id}}}\left[-\log\frac{1}{1 + \exp^{-\mathcal{F}_\text{ood}(\textbf{z})}}\right]+\mathbb{E} _{\textbf{z}\sim\textbf{z}^{\text{ood}}}\left[-\log\frac{\exp^{-\mathcal{F}_\text{ood}(\textbf{z})}}{1+\exp^{-\mathcal{F}_\text{ood}(\textbf{z})}} \right]. \label{eq:optim} \end{equation} \]

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/827028.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《图解设计模式》 第五部分 一致性

第11章 Composite 模式 文中举例文件夹系统, 简单说明: 这里可以讲File 和 dirctory 看作一种东西 Entry。在 Entry 的基础上分化两者,构成结构。 能够使容器与内容具有一致性,创造出递归结构。第12章 Decorator 模式public class Main{public static void main(String[] ar…

Avalonia开源控件库强力推荐-Semi.Avalonia

Avalonia是什么? Avalonia是一个强大的框架,使开发人员能够使用.NET创建跨平台应用程序。它使用自己的渲染引擎绘制UI控件,确保在Windows、macOS、Linux、Android、iOS和WebAssembly等不同平台上具有一致的外观和行为。这意味着开发人员可以共享他们的UI代码,并在不同的目标…

浮点数格式化小探究

本文介绍了浮点数格式化舍入问题上的一点小探究,在此总结。在最近的工作中,遇到一个浮点数格式化问题,蛮有意思的,是之前所没遇到过的知识点,在此整理总结。 问题描述 一句话描述问题,将一个3位小数的浮点数,格式化为2位小数的,是什么样的舍入规则?一般想着的是四舍五…

【教程】使用 eac3to 编码高清音频

原文转自GPW,感谢原文作者对此文的撰写,本文略有修改!修改如下:删除:改进 24 bit 音频流的文件大小相关URL首先,你需要下载 eac3to。如果你想要编码 AAC,那么你还需要 QAAC 和 AppleApplicationSupport。eac3to 是一款命令行工具,你可以通过 Windows 10 的命令提示符运…

PbootCMS 修改域名授权提示信息

PbootCMS程序上传到服务器后,如果没有到官网获取域名授权码会提示未授权的相关提示信息,但是有时候我们是给客户使用,并不想客户看到此信息,那么怎么办呢? 其实官方已经预制了免费的解决方案,只需要在网站根目录下新建一个 `sn.html` 的文件,里面编写自己的提示信息,比…

帝国CMS密码忘记重置方法

如果你忘记了帝国CMS的后台管理密码,可以通过以下步骤进行重置:备份数据库:在进行任何数据库操作之前,请确保备份当前的数据库,以防止数据丢失。登录数据库:使用数据库管理工具(如phpMyAdmin)登录到你的数据库。找到用户表:寻找名为 phome_enewsuser 的表,这是存储管…

织梦dede上传图片提示缺少图像源文件地址

检查 uploads 文件夹权限确保 uploads 文件夹有写入权限。检查 php.ini 配置确保 upload_tmp_dir 有自定义路径,并且该路径有写入权限。 如果没有自定义路径,可以尝试切换PHP版本。检查上传文件大小限制确保上传的图片文件大小不超过 php.ini 中 post_max_size 和 upload_max…

开源自托管数据管理工具全面指南

探索最佳开源自托管数据管理工具,如 NocoBase,Airflow,Singer 等。在大数据时代,企业和组织面临着海量的数据挑战。随着应用程序复杂性的提高以及用户需求不断演变,开发团队需要高效地处理大量数据,以便快速做出决策。然而,在众多信息中,如何识别并有效利用那些对决策至…

数据安全秘籍:500强企业的经典传输案例大揭秘

很多企业都会有数据安全建设的烦恼,不知道从何开始,哪里又是建设重点?那不妨借鉴一下500强企业的做法,它们在数据安全建设方面通常采取多层次的策略,具体包括以下几个方面: 风险评估与管理:定期进行全面的风险评估,识别数据安全风险,制定相应的管理策略。 安全政策与标…

异源数据同步 → DataX 同步启动后如何手动终止?

开心一刻 刚刚和老婆吵架,气到不行,想离婚女儿突然站出来劝解道:难道你们就不能打一顿孩子消消气,非要闹离婚吗?我和老婆同时看向女儿,各自挽起了衣袖女儿补充道:弟弟那么小,打他,他又不会记仇需求背景 项目基于 DataX 来实现异源之间的数据离线同步,我对 Datax 进行…