【深度学习: AutoAugment】使用 AutoAugment 提高深度学习性能

【深度学习: AutoAugment】使用 AutoAugment 提高深度学习性能

    • 结果

深度学习在计算机视觉领域的成功可以部分归因于大量标记训练数据的可用性——随着训练数据的质量、多样性和数量的增加,模型的性能通常会提高。然而,收集足够的高质量数据来训练一个模型以使其表现良好通常是非常困难的。解决这个问题的一种方法是将图像对称性硬编码到神经网络架构中,这样它们就能表现得更好,或者让专家手动设计数据增强方法,比如旋转和翻转,这些方法通常用于训练表现良好的视觉模型。然而,直到最近,很少有人关注如何使用机器学习来自动增加现有数据。我们的AutoML努力设计了神经网络架构和优化器,以取代以前由人类设计的系统组件,受到这些成果的启发,我们问自己:我们是否也能自动化数据增强的过程?

在“AutoAugment:从数据中学习增强策略”中,我们探索了一种强化学习算法,该算法可以增加现有训练数据集中数据的数量和多样性。直观地说,数据增强被用来教导模型在数据域中的图像不变性,使神经网络对这些重要的对称性不变性,从而提高其性能。与之前使用手工设计的数据增强策略的最先进的深度学习模型不同,我们使用强化学习从数据本身中找到最佳的图像转换策略。结果提高了计算机视觉模型的性能,而不依赖于产生新的和不断扩展的数据集。

增强训练数据
数据增强背后的思想很简单:图像具有许多对称性,这些对称性不会改变图像中呈现的信息。例如,一只狗在镜子里的倒影仍然是一只狗。虽然这些“不变性”中的一些对人类来说是显而易见的,但许多不是。例如,mixup方法通过在训练期间将图像放在彼此的顶部来增强数据,从而产生提高神经网络性能的数据。

在这里插入图片描述

左:来自ImageNet数据集的原始图像。右:通过常用的数据增强变换变换后的同一图像,围绕中心进行水平翻转。

AutoAugment是一种自动为计算机视觉数据集设计自定义数据增强策略的方法,例如,指导基本图像转换操作的选择,例如水平/垂直翻转图像,旋转图像,改变图像的颜色等。AutoAugment不仅可以预测要组合的图像转换,还可以预测使用的每个图像的概率和转换的大小,这样图像就不会总是以相同的方式进行操作。AutoAugment能够从2.9 x 1032图像转换可能性的搜索空间中选择最优策略。

AutoAugment根据它运行的数据集学习不同的转换。例如,对于包含数字的自然场景图像的街景门牌号码(SVHN)图像,AutoAugment侧重于几何变换,如剪切和平移,这表示在该数据集中经常观察到的扭曲。此外,考虑到世界上不同建筑和房屋编号材料的多样性,AutoAugment已经学会了完全反转原始SVHN数据集中自然出现的颜色。

在这里插入图片描述

左:来自SVHN数据集的原始图像。右:用AutoAugment变换过的同一图像。在这种情况下,最优变换是剪切图像和反转像素颜色的结果。

在CIFAR-10和ImageNet上,AutoAugment不使用剪切,因为这些数据集通常不包括剪切对象的图像,也不完全反转颜色,因为这些转换会导致不真实的图像。相反,AutoAugment专注于稍微调整颜色和色调分布,同时保留一般的颜色属性。这表明在CIFAR-10和ImageNet中对象的实际颜色是重要的,而在SVHN中只有相对颜色是重要的。

在这里插入图片描述

左:来自ImageNet数据集的原始图像。右图:通过AutoAugment策略转换的同一图像。首先,最大化图像对比度,然后旋转图像。

结果

我们的AutoAugment算法为一些最知名的计算机视觉数据集找到了增强策略,当这些数据集被纳入神经网络的训练中时,可以获得最先进的精度。通过增强ImageNet数据,我们获得了新的最先进的精度,top1精度为83.54%,而在CIFAR10上,我们实现了1.48%的错误率,这比科学家设计的默认数据增强提高了0.83%。在SVHN上,我们将最先进的误差从1.30%提高到1.02%。重要的是,AutoAugment策略被发现是可转让的——为ImageNet数据集找到的策略也可以应用于其他视觉数据集(Stanford Cars, FGVC-Aircraft等),这反过来又提高了神经网络的性能。

我们很高兴看到我们的AutoAugment算法在许多不同的竞争性计算机视觉数据集上达到了这种水平的性能,并期待看到这项技术在更多计算机视觉任务甚至其他领域(如音频处理或语言模型)的未来应用。在本文的附录中包含了性能最好的策略,以便研究人员可以使用它们来改进相关视觉任务的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/459163.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cesium mapboxgl+threebox glb 朝向问题

一、3Dbuilder打开glb 二、cesium在pitch和heading都为0的情况下,不设置模型的朝向 三、mapboxglthreebox在pitch和bearing都为0的情况下,不设置模型的朝向 四、对于地图默认视角,cesium设置pitch-90、heading0的时候和mapboxglthreebox设置p…

2023年全国职业院校技能大赛软件测试赛题第3套

2023年全国职业院校技能大赛 软件测试赛题第3套 赛项名称: 软件测试 英文名称: Software Testing 赛项编号: GZ034 归属产业: 电子与信息大类 …

【Linux C | I/O模型】IO复用 | poll、ppoll函数详解

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

BUGKU-WEB 留言板

题目描述 题目无需登录后台!需要xss平台接收flag, http协议需要http协议的xss平台打开场景后界面如下: 解题思路 看到此类的题目,应该和存储型xss有关,也就是将恶意代码保存到服务器端即然在服务器端,那就…

(2024,VLM,操纵链)CogCoM:训练大型视觉语言模型,通过操作链深入细节

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 方法 2.1. 术语 2.2…

C语言之自定义类型:联合和枚举

目录 1. 联合体类型的声明2. 联合体的特点3. 联合体大小的计算联合的一个练习 4. 枚举类型的声明5. 枚举类型的优点6. 枚举类型的使用 1. 联合体类型的声明 像结构体一样,联合体也是由一个或者多个成员构成,这些成员可以不同的类型 但是编译器只为最大…

一篇文章了解Python中的对象(狠狠爱住)

Python中的对象 在Python中,对象是面向对象编程的核心。几乎Python中的一切都是对象,包括数字、字符串、函数、类等。每个对象都有一个身份、一个类型和一个值。 对象的特性 身份(Identity):每个对象都有一个唯一的身…

SpringBoot全局异常捕获处理实现方案

在Spring Boot中实现全局异常处理可以通过以下方式: 使用ControllerAdvice注释创建一个全局异常处理类,并使用ExceptionHandler注释来定义具体异常的处理方法。 import your.package.IllegalNumberException; import org.springframework.http.HttpSta…

java面试题:MySQL中的各种JOIN的区别

表关联是频率非常高的一种数据库操作,在MySQL中,这种JOIN操作有很多类型,包括内联接、左外连接、右外连接等等,而每种连接的含义都不一样,如果死记硬背,不仅很难记住,而且也容易搞混淆&#xff…

前端页面禁止debugger调试并跳转空白页面----文心一言官网实现方式

技术点:setInterval定时器Object.defineProperty 背景: 某天打开文心一言想看看接口返回结构是怎样的,熟练的打开浏览器开发者工具查看网络请求。 发现出现了以下debugger断点 这难不倒我,去掉断点调试,继续下一步不…

《数电》理论笔记-第2章-组合逻辑电路

一,集成门电路 1TTL门电路 TTL门电路中双极型三极管构成,它的特点是速度快、抗静电能力强集成度低、功耗大, 目前广泛应用于中、小规模集成电路中。 TTL门电路有 74 (商用) 和 54 (军用) 两大系列,每个系列中又有若干子系列。 2 CMOS门电路 …

AI-数学-高中-24-三角函数一般形式的各参数含义

原作者视频:三角函数】12三角函数一般形式的各参数含义(易)_哔哩哔哩_bilibili 1.函数中的A标识符:表示曲线中间平衡位置的振幅,值域为正负A:[-A,A]。 2.函数中的B标识符:决定曲线纵向上下平移…