2023年小型计算机视觉总结

在过去的十年中,出现了许多涉及计算机视觉(CV)的项目,无论是小型的概念验证项目还是更大规模的生产应用。应用计算机视觉的方法是相当标准化的:

1、定义问题(分类、检测、跟踪、分割)、输入数据(图片的大小和类型、视野)和类别(正是我们想要的)

2、注释一些图片

3、选择一个网络架构,训练-验证,得到一些统计数据

4、构建推理系统并进行部署

到2023年底,人工智能领域迎来了生成式人工智能的新成功:大型语言模型(llm)和图像生成模型。每个人都在谈论它,它们对小型计算机视觉应用有什么改变吗?

本文将探索是否可以利用它们来构建数据集,利用新的架构和新的预训练权重,或者从大模型中提取知识。

小型计算机视觉

在这里,我们通常感兴趣的是可以以相对较小的规模构建和部署的应用程序:

💰开发成本不应该太高

💽它不应该需要一个庞大的基础设施来训练(想想计算能力和数据规模)

🧑‍🔬它不需要很强的研究技能,而是应用现有的技术

⚡推理应该是轻量级和快速的,以便它可以嵌入或部署在CPU服务器上

🌍总体环境足迹应该很小(考虑计算能力,模型/数据的一般大小,没有特定的硬件要求)

这显然不是当今人工智能的趋势,因为我们在今年看到的都是具有数十亿个参数的模型,并且这些模型开始成为某些应用程序的标准。但重要的是:关心更小的规模是至关重要的,并不是所有的项目都应该遵循谷歌、Meta、OpenAI或微软的规模趋势并且我们也不可能有它们那么大的资金。

目前来看大多数有趣的计算机视觉项目实际上也比那些大公司的项目规模要小得多,但这并不意味着我们就要缩小我们的应用程序,而是说我们应该更加关心开发和推理成本。所以考虑到这一点,我们还能在应用中利用人工智能的最新发展吗?

首先看看基础模型

计算机视觉中的基础模型

新的大型语言模型(LLM)已经很流行,因为你可以很容易地在应用程序中使用基础模型(许多是开源的,或者可以通过API使用)。把GPT、Bert、Llama看作这样的模型。基础模型是一个非常大的通用神经网络,它是大多数下游任务的基础。它包含了非常广泛的主题,语义,语法,不同的语言等知识。

在计算机视觉中,这样的模型已经存在了很长一段时间了:使用ImageNet(100万张标记图像)上预训练的神经网络作为下游任务的“基础”模型是标准的。你可以在它的基础上构建你的神经网络,如果需要的话,还可以根据你自己的数据对它进行微调。

ImageNet预训练网络和llm之间有两个主要的概念区别:

训练的数据类型:ImageNet依赖于纯粹的监督学习:一个大规模的分类任务,而LLM是生成模型:它们以一种使用原始文本的自监督方式训练(任务只是预测下一个单词)。

基础模型对新任务的适应:ImageNet预训练网络系统地需要一个新的学习过程来适应新的任务。但是对于llm,虽然可以对模型进行微调,但模型已经足够强大,无需任何进一步的训练就可以用于下游任务,只需用正确的信息提示模型,使其对新任务有用。

目前大多数计算机视觉应用,如分类,目标检测,分割仍然使用ImageNet预训练网络。下面我们回顾一下可能用于计算机视觉任务的或即将出现的新模型。

计算机视觉的新基础模型综述

在计算机视觉的世界里,除了ImageNet,有很多自监督网络的例子,其中一些是生成模型(比如GAN和最近的扩散模型)。它们只接受原始图像或图像-文本对(例如图像及其描述)的训练。它们有时被称为LVM(大视觉模型)。

(弱)有监督的视觉模型:

1、DINOv2 (Meta) -一个大型ViT(1B参数)的集合,以完全自监督的方式进行训练。

2、SAM Segment Anything (Meta) -一个用于高分辨率图像的ViT,专门设计用于分割,并可以进行零样本分割(不需要注释来生成新的分割蒙版)。另一个用例是使用SAM作为医学图像分割的附加输入。

基于图像-文本对训练的视觉语言基础模型:

CLIP (OpenAI) -图像和简短描述的对齐,非常适合于拍摄分类,并在实践中用作各种下游CV任务的基础模型

大型生成模型,现在是多模态的(包括能够在其架构中理解复杂文本的大型语言模型):

StableDiffusion

Dall-E (OpenAI)

视觉专用多任务大型模型

Florence-2:统一计算机视觉(Microsoft)

大型闭源坏模型

只能通过api获得:大型多用途模型,不以视觉为中心,但展示了出色的视觉能力,以及生成能力;

GPT-4V (OpenAI)

Gemini (Google)

除了闭源以外,还有许多开源的、更小的、多用途的视觉+文本聊天模型正在开发中,例如LlaVA。

所有这些模型都是强大的基础模型,涵盖了许多视觉领域,在许多情况下都能很好地完成判别或生成任务。如何在我们特定的小型环境中利用它们呢?

构建训练数据集

使用这些新模型的一个实用的想法是保持我们的标准训练管道,例如广泛使用的Yolo检测器,通过生成新的训练图像和/或生成注释来改进我们的数据集。流程如下:

标准数据集由一组带注释的训练和验证图像组成

增强数据集将使用强大的通用模型来添加自动注释:

1)对未标记图像的新注释⇒这需要一个已经适合任务的模型。可以使用一个非常大的通用模型,仔细地添加示例或提示,进行零标注,或者根据现有的人工注释对非常大的模型进行微调。

2)在现有标注的基础上增加一层新的信息,例如使用SAM从边界框信息中自动添加分割标注

生成的数据集由生成的图像及其注释组成。构建一个由图像和/或文本组成的提示,以生成数千个图像及其注释。可以直接使用API来生成这些带注释的图像(与寻找好的图像和收集人工注释相比,成本应该很小)。

将验证集与生成的或增强的集分开,因为要在精心标记的数据上度量实际性能。这意味着在实践中,即使我们选择了新的生成技术或基础模型,仍然需要对真实图像进行一些手动标记。

扩充数据集的例子

可以从现有的图像开始,通过丰富它们或使它们更容易注释来改进标签。现在有几个数据标注平台提出使用SAM或DINOv2,通过对图片中的物体进行预分割来提高标注效率。

生成的数据集示例

虽然生成数据集的想法已经存在很长时间并且被广泛用于训练LLM,但找到真正的小型应用程序来有效地利用生成的数据(自动注释或纯合成数据)是相当具有挑战性的。

不使用基础模型,而是使用简单的渲染管道,或者使用类似的技术使用3D渲染来生成数据,这些结果目前看起来还很粗糙

https://github.com/921kiyo/3d-dl

使用生成模型完全生成图片和注释,以下图片是使用Dall-E 生成图片的样例

还可以使用CV处理构建数据集(例如将对象粘贴到背景中进行分割任务),但是这里的问题是,数据的质量将在很大程度上取决于生成图像的质量,因此将不得不在构建正确的渲染步骤上投入大量精力(在3D中甚至更多)。

目前还没有太多使用纯生成模型生成数据集的成功例子,但考虑到最近图像生成AI模型的渲染质量和可操作性,我个人认为这只是时间的问题。比如有可能使用ControlNet从现有的分割蒙版或轮廓开始生成已经有标签的新图片,但目前还不清楚它是否能很好地与非分布类(即不是标准的COCO类)一起工作,或者分辨率是否足够好。

下面这篇论文提出了一个类似的想法,即修改现有的标记图片以生成共享分割掩码的新图片,从而产生增压的语义数据增强。

https://liu.diva-portal.org/smash/get/diva2:1779399/FULLTEXT01.pdf

但是当生成成千上万的图像而不是手动管理和标记它们时,应该考虑成本,因为改进并不明显!

最后

通过训练带有人类注释数据的模型来实现现代计算机视觉的方式即将被新的大型基础模型彻底改变。

大型基础模型有时具有“纳米级”版本,用于在低端服务器甚至嵌入式应用程序上进行推理。但是对于这些应用来说,它们仍然太大了,并且对于新任务的调整也不是那么便宜。因为目前,我们还是不会边缘设备上使用500M+参数的VIT模型,而是选择更小,更专业的模型。

但是对于小型的推理和低资源开发,我们也可以使用大型基础模型,或者通过使用api /本地推理直接调用这些模型,或者使用这些模型的一些知识。今天主要通过帮助标记数据,明天通过其他方式知识转移-例如,蒸馏。

没有标准的程序或普遍的方法来从这些大型或生成模型中转移这些知识,但它可能会在2024年有所发展!

https://avoid.overfit.cn/post/27697c284d4f4a4d93f91be616e3e998

作者:Charles Ollion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/298527.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Isaac Sim urdf文件导入

本教程展示如何在 Omniverse Isaac Sim 中导入 urdf 一. 使用内置插件导入urdf 安装urdf 插件 方法是转到“window”->“Extensions” 搜索框中输入urdf, 并启用 通过转至Isaac Utils -> Workflows -> URDF Importer菜单来访问 urdf 扩展。 表格中的 1,2,3 对应着…

IntelliJ IDEA快捷键和重要设置、vscode快捷键和使用

文章目录 IntelliJ IDEAIDEA快捷键:重要设置:linux远程连接:SSH连接:浏览远程主机: VS codevs code快捷键:vs code插键vue3 必安插件注意 IntelliJ IDEA 感觉百度百科就给了这个软件很好的定义&#xff0c…

云计算与大数据之间的羁绊(期末不挂科版):云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

文章目录 前言:一、云计算1.1 云计算的基本思想1.2 云计算概述——什么是云计算?1.3 云计算的基本特征1.4 云计算的部署模式1.5 云服务1.6 云计算的关键技术——虚拟化技术1.6.1 虚拟化的好处1.6.2 虚拟化技术的应用——12306使用阿里云避免了高峰期的崩…

公众号推荐流量玩法的3个秘密

从微信生态的流量触点来看,公众号链接着私聊、朋友圈、微信群、小程序、视频号、搜一搜、看一看等一切与目标用户能接触到的中转站 流量的尽头是私域。而对于大部分普通人来说,公众号可以作为私域的第一站。且相比个人微信号,其有着深度价值…

C/C++学习笔记十三 C++中的重载运算符

1、什么是运算符重载? 运算符重载是 C 中的一项功能,使运算符(例如 、- 等)能够处理用户定义的数据类型。这种机制称为编译时多态性,并提供了为不同数据类型定制运算符行为的优点。 例如,我们可以重载“”运…

MySQL中如何快速定位占用CPU过高的SQL

作为DBA工作中都会遇到过数据库服务器CPU飙升的场景,我们该如何快速定位问题?又该如何快速找到具体是哪个SQL引发的CPU异常呢?下面我们说两个方法。聊聊MySQL中如何快速定位占用CPU过高的SQL。 技术人人都可以磨炼,但处理问题的思…

三级安全教育二维码怎么生成

三级安全教育是工人进场上岗前必备的过程,也是施工项目中非常重要的一项工作,我们要合理规范地进行安全教育培训工作,提升真实性和可靠性,保障工人的安全到位。 1、将三级安全教育制作成二维码,放在施工现场等位置,工人可以随时随…

【Linux系统基础】(6)在Linux上大数据NoSQL数据库HBase集群部署、分布式内存计算Spark环境及Flink环境部署详细教程

大数据NoSQL数据库HBase集群部署 简介 HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。 和Redis一样,HBase是一款KeyValue型存储的数据库。 不过和Redis设计方向不同 Redis设计为少量数据,超快检索HBase设计为海量数据,…

二叉树中的深搜

目录 👉🏻计算布尔二叉树的值👉🏻求根节点到叶节点数字之和 👉🏻计算布尔二叉树的值 原题链接:计算布尔二叉树的值 mycode: class Solution { public:bool evaluateTree(TreeNode* root) {if…

为什么要出现并发?并发的三要素

大家好,我是"java继父"伯约,假如这篇对大家有帮助的话求一个赞,另外文章末尾放了我从小白到架构师多年的学习资料。 1.为什么需要多线程 众所周知,CPU、内存、I/O 设备的速度是有极大差异的,为了合理利用 C…

Mendelson AS2 介绍下载和配置

最近与一家国外公司做EDI对接,并且EDI通讯工具是基于AS2协议的。目前开源的as2的开源项目有openas2,Mendelson AS2,和国人写的freeas2但是,现在freeas2已经被从开源中国不能下载了,变为收费的版本了。 如果你需要使用基于AS2协议…

Windows 10中蓝牙相关的问题,至少有11种可能的解决办法

蓝牙是一种不可或缺的技术,可以将许多设备无线连接到电脑、笔记本电脑和平板电脑。当它在Windows 10计算机上停止正常工作时,可能有多种原因。要解决这些类型的蓝牙问题,有几种解决方案可以让事情恢复正常。 注意:本文中的信息适用于装有Windows 10的PC和笔记本电脑。 Wi…