基于通道的数据增强方法_使用随机量化的方式


前言本文提出了一种适用于任意数据模态的自监督学习数据增强技术

来源:机器之心

仅用于学术分享,若侵权请联系删除

自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据模态的。这意味着需要为不同的数据模态开发不同的自监督学习算法。为此,本文提出了一种通用的数据增强技术,可以应用于任意数据模态。相较于已有的通用的自监督学习,该方法能够取得明显的性能提升,同时能够代替一系列为特定模态设计的复杂的数据增强方式并取得与之类似的性能。

  • 论文地址:

    https://arxiv.org/abs/2212.08663

  • 代码:

    https://github.com/microsoft/random_quantize

简介

当前 Siamese 表征学习 / 对比学习需要利用数据增强技术来构建同一个数据的不同样本,并将其输入两个并行的网络结构,从而产生足够强的监督信号。然而这些数据增强技术往往非常依赖于模态特定的先验知识,通常需要手动设计或者搜索适用于当前模态的最佳组合。除了耗时耗力外,找到的最优数据增强方式也极难迁移到别的领域。例如,常见的针对于自然 RGB 图像的颜色抖动(color jittering)无法应用于除了自然图像以外的其他数据模态。

一般性地,输入数据可以被表征为由序列维度(sequential)和通道维度(channel)组成的二维向量。其中序列维度通常是模态相关的,例如图像上的空间维度、语音的时间维度以及语言的句法维度。而通道维度是模态无关的。在自监督学习中,masked modeling [1] 或者以 masking 作为数据增强 [2] 已经成为一种有效的学习方式。然而这些操作都作用于序列维度。为了能够广泛应用于不同数据模态,本文提出一种作用于通道维度的数据增强手段:随机量化(randomized quantization)。每个通道中的数据通过非均匀量化器进行动态量化,量化值是从随机划分的区间中随机采样的。通过这种方式,落在同一个区间内原始输入的信息差被删除,同时不同区间数据的相对大小被保留,从而达到 masking 的效果。

该方法在各种不同数据模态上超过了已有任意模态自监督学习方法,包括自然图像、3D 点云、语音、文本、传感器数据、医疗图像等。在多种预训练学习任务中,例如对比学习(例如 MoCo-v3)和自蒸馏自监督学习(例如 BYOL)都学到了比已有方法更优的特征。该方法还经过验证,适用于不同的骨干网络结构,例如 CNN 和 Transformer。

方法

量化(Quantization)指的是利用一组离散的数值表征连续数据,以便于数据的高效存储、运算以及传输。然而,一般的量化操作的目标是在不损失精确度的前提下压缩数据,因而该过程是确定性的,而且是设计为与原数据尽量接近的。这就限制了其作为增强手段的强度和输出的数据丰富程度。

本文提出一种随机量化操作(randomized quantization),将输入的每个 channel 数据独立划分为多个互不重叠的随机区间(
),并将落在各个区间内的原始输入映射到从该区间内随机采样的一个常数

随机量化作为自监督学习任务中 masking 通道维度数据的能力取决于以下三个方面的设计:1) 随机划分数值区间;2) 随机采样输出值以及 3)划分的数值区间个数。

具体而言,随机的过程带来了更加丰富的样本,同一个数据每次执行随机量化操作都可以生成不同的数据样本。同时,随机的过程也带来对原始数据更大的增强力度,例如随机划分出大的数据区间,或者当映射点偏离区间中值点时,都可以导致落在该区间的原始输入和输出之间的更大差异。

除此之外,也可以非常容易地通过适当减少划分区间的个数,提高增强力度。这样,当应用于 Siamese 表征学习的时候,两个网络分支就可以见到有足够信息差异的输入数据,从而构建足够强的学习信号,帮助到特征学习。

下图可视化了不同数据模态在使用了该数据增强方式之后的效果:

实验结果

模态 1:图像

本文在 ImageNet-1K 数据集上评估了 randomized quantization 应用于 MoCo-v3 和 BYOL 的效果,评测指标为 linear evaluation。当作为唯一的数据增强方式单独使用的时候,即将本文的 augmentation 应用于原始图像的 center crop,以及和常见的 random resized crop(RRC)配合使用的时候,该方法都取得了比已有通用自监督学习方法更好的效果。

相比于已有的针对图像数据开发的数据增强方式,例如 color jittering (CJ),本文的方法有着明显的性能优势。同时,该方法也可以取代 MoCo-v3/BYOL 中一系列复杂的数据增强方式(Full),包括颜色抖动(color jittering)、随机灰度化(gray scale)、随机高斯模糊(Gaussian blur)、随机曝光(solarization),并达到与复杂数据增强方式类似的效果。

模态 2:3D 点云

本文还在 ModelNet40 数据集的分类任务和 ShapeNet Part 数据集的分割任务上验证了 randomized quantization 相对于已有自监督工作的优越性。尤其在下游训练集数据量较少的情况下,本文的方法显著超过已有点云自监督算法。

模态 3:语音

在语音数据集上本文的方法也取得了比已有自监督学习方法更优的性能。本文在六个下游数据集上验证了该方法的优越性,其中在最难的数据集 VoxCeleb1 上(包含最多且远超其他数据集的类别个数),本文方法取得了显著的性能提升(5.6 个点)。

模态 4:DABS

DABS 是一个模态通用自监督学习的基准,涵盖了多种模态数据,包括自然图像、文本、语音、传感器数据、医学图像、图文等。在 DABS 涵盖的多种不同模态数据上,我们的方法也优于已有的任意模态自监督学习方式。

感兴趣的读者可以阅读论文原文,了解详细的研究内容。

参考文献:

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. 1, 2

[2] Zhirong Wu, Zihang Lai, Xiao Sun, and Stephen Lin. Ex- treme masking for learning instance and distributed visual representations. arXiv preprint arXiv:2206.04667, 2022. 1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/156444.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

poi兴趣点推荐数据集介绍

介绍 foursquare数据集包含2153471个用户,1143092个场所,1021970个签到,27098490个社交关系以及用户分配给场所的2809581评级,我们常用的是根据NYC和TKY都是从该数据集中抽取出来的。 下载地址:https://sites.google.…

UI动效的都可以用哪些工作来制作

随着UI设计的不断发展,UI动效越来越多地应用于现实生活中。手机,iPad、计算机、网页和其他设备被广泛使用,所以问题来了,为什么UI动态效果越来越被广泛使用?它的优点是什么?哪些软件可以设计UI动态效果&…

KanTts最小安装-ubuntu

为什么选它? 克隆有很多,为什么选它,它是中国人做的,阿里达摩院,5分钟音频数据集就够了。 国内做的有什么好处,因为大家都是中国人,说的是中国话,技术最大的难题不是基础&#xff…

在NISQ小型计算机上执行大型并行量子计算的可能性

简介 Steve White提出了密度矩阵重整化群(DMRG)的基本思想,即纠缠是一种有价值的资源,可以用来精确或近似地描述大量子系统。后来,这一思想被理解为优化矩阵积状态(MPS)的算法,支持…

面试题-redis-为什么Redis只取16384个槽

计算公式 HASH_SLOT RCR16(key) mod 16384 (1)如果槽位为65536(2^16),发送心跳信息的消息头达8k,发送的心跳包过于庞大。 在消息头中最占空间的是myslots[CLUSTER_SLOTS/8]。 当槽位为65536时,这块的大小是: 65536810…

一百九十八、Java——IDEA项目中有参构造、无参构造等快捷键(持续梳理中)

一、目的 由于IDEA项目中有很多快捷键,可以很好的提高开发效率,因此整理一下 二、快捷键 (一)快捷键生成public static void main(String[] args) {} 快捷键:psvm (二)快捷键在test中创建cn…

windows内存取证-中等难度-下篇

上文我们对第一台Target机器进行内存取证,今天我们继续往下学习,内存镜像请从上篇获取,这里不再进行赘述​ Gideon 攻击者访问了“Gideon”,他们向AllSafeCyberSec域控制器窃取文件,他们使用的密码是什么? 攻击者执…

[ERROR] Malformed \uxxxx encoding.报错解决

解决方法: 删除resolver-status.properties文件和path-to-the-library文件夹 #/root/.m2为默认maven仓库和配置文件地址 按需填写 find /root/.m2 -name "resolver-status.properties"|xargs rm -ffind /root/.m2 -name "resolver-status.proper…

低代码可视化逻辑编排工具:JNPF

目录 Intro 一、是什么? 提供自动化的解决方案 二、为什么受欢迎? JNPF自身特点——安全、方便、高效、低耗 对于企业,更“安全” 成本“最低”,效率“最高” 三、JNPF开发平台功能展示 技术介绍 参考地址 近几年,随着…

奇淫技巧系列之第四篇:如何搜索Jar包中的xml文件

大神链接:作者有幸结识技术大神孙哥为好友,获益匪浅。现在把孙哥视频分享给大家。 孙哥链接:孙哥个人主页 作者简介:一个颜值99分,只比孙哥差一点的程序员 本专栏简介:话不多说,让我们一起干翻J…

518抽奖软件,安全稳定,不怕手抖误按键

518抽奖软件简介 518抽奖软件,518我要发,超好用的年会抽奖软件,简约设计风格。 包含文字号码抽奖、照片抽奖两种模式,支持姓名抽奖、号码抽奖、数字抽奖、照片抽奖。(www.518cj.net) 防误按功能 入口: 主界面上点右…

半导体精密划片机在行业中适合切割哪些材料?

在高端精密切割划片领域中,半导体材料需要根据其特性和用途进行选择。划片机适用于多种材料,包括硅片、石英、氧化铝、氧化铁、砷化镓、铌酸锂、蓝宝石和玻璃等。这些材料在半导体行业被广泛使用,包括在集成电路、半导体芯片、QFN、发光二极管…