CV论文--2024.3.4

1、Deep Networks Always Grok and Here is Why

中文标题:深度网络总是让人摸不着头脑,原因如下

简介:本文探讨了深度神经网络(DNN)中一种称为"延迟泛化"或"Grokking"的现象。在接近零的训练误差之后,DNN的泛化会在较长时间后才发生。先前的研究已经报道了在特定的控制环境下出现延迟泛化的情况,例如使用大范数参数初始化的DNN或在算法数据集上训练的transformers。本文证明了延迟泛化实际上更为普遍,并出现在许多实际环境中,例如在CIFAR10上训练的卷积神经网络(CNN)或在Imagenette上训练的Resnet。我们引入了延迟鲁棒性的新概念,即DNN在插值和/或泛化之后才能理解对抗性示例并变得鲁棒。我们基于DNN的输入输出映射的局部复杂度提出了延迟泛化和延迟鲁棒性的出现解释。我们的局部复杂度测量了"DNN输入空间中所谓的"线性区域"(也称为样条分区区域)的密度,并作为训练的有用进展测量。我们首次提供了证据表明,在分类问题中,线性区域在训练过程中会发生相变,之后它们会远离训练样本(使DNN在那里的映射更平滑),并朝着决策边界移动(使DNN在那里的映射不那么平滑)。Grokking发生在相变之后,因为DNN映射在训练点周围的线性化导致了输入空间的鲁棒分区的出现。更多详情请参阅网址:https://bit.ly/grok-adversarial

2、DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

中文标题:DistriFusion:高分辨率扩散模型的分布式并行推理

简介:扩散模型在生成高质量图像方面已经取得了巨大的成功。然而,由于计算成本的限制,使用扩散模型生成高分辨率图像仍然面临挑战,这导致交互式应用程序的响应延迟无法接受。为了解决这个问题,本文提出了DistriFusion方法,通过充分利用多个GPU之间的并行性。我们的方法将模型输入分成多个补丁,并将每个补丁分配给一个GPU进行处理。然而,简单地实现这样的算法会破坏补丁之间的相互作用并导致失真,而将这种相互作用纳入算法中则会增加大量的通信开销。为了克服这个困境,我们观察到相邻扩散步骤的输入具有很高的相似性,并提出了位移补丁并行性的概念。该方法通过重复使用前一时间步骤的预计算特征图作为当前步骤的上下文,利用扩散过程的顺序性。因此,我们的方法支持异步通信,并可以通过计算进行流水线处理。经过大量实验证明,我们的方法可以应用于最新的Stable Diffusion XL模型,而不会降低生成图像的质量。与使用单个NVIDIA A100 GPU的情况相比,在使用8个GPU时,我们实现了高达6.1倍的加速。我们已经在https://github.com/mit-han-lab/distrifuser上公开了我们的代码。

3、Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

中文标题:Panda-70M:与多个跨模态教师一起为 70M 视频添加字幕

简介:数据和注释的质量对下游模型的质量产生了限制。尽管存在大量的文本语料库和图像-文本对,但获取高质量的视频-文本数据却非常困难。首先,手动标注非常耗时,因为需要注释者观看整个视频。其次,视频具有时间维度,由多个场景和多个动作组成。为了构建一个具有高质量标题的视频数据集,我们提出了一种自动方法,利用多模态输入,如文本视频描述、字幕和单个视频帧。具体来说,我们从公开可用的HD-VILA-100M数据集中收集了380万个高分辨率视频。然后,我们将这些视频分成语义一致的片段,并使用多个跨模态的教师模型为每个视频获取标题。接下来,我们在一个小的子集上微调检索模型,手动选择每个视频的最佳标题,然后将该模型应用于整个数据集,以选择最佳标题作为注释。通过这种方式,我们获得了一个包含70M个视频与高质量文本标题配对的数据集,称为Panda-70M。我们展示了该数据集在三个下游任务上的价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。在所有任务中,基于我们提出的数据集进行训练的模型在大多数指标上显著优于其他模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/508733.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

00X集——样条曲线(spline)和多线段(pl)和面域(region)

样条曲线是经过或接近影响曲线形状的一系列点的平滑曲线。 默认情况下,样条曲线是一系列 3 阶(也称为“三次”)多项式的过渡曲线段。这些曲线在技术上称为非均匀有理 B 样条 (NURBS),但为简便起见,称为样条曲线。三次…

怎么倒放视频?3个倒放方法分享给你

怎么倒放视频?倒放视频不仅有趣且充满创意,而且还能创造出一种令人惊叹的视觉效果,将观众带入一个全新的时空维度。通过将动作和事件倒放,我们可以观察到平时难以察觉的细节,理解事物运行的逆向逻辑。这种独特的编辑手…

电脑不小心格式化了,怎么恢复?

在这个数字化时代,电脑已经成为我们日常生活和工作中不可或缺的工具。然而,有时我们可能会不小心格式化电脑硬盘,导致重要数据的丢失。那么,电脑不小心格式化了,怎么恢复? 别着急,在本篇攻略中&…

YOLOv9改进 | 基础篇 | 提供YOLOv9全系列支持V9n、V9s、V9m、V9l、V9x的修改方式(全网独家首发)

一、本文介绍 大家好,本文给大家带来的是2024年2月21日全新发布的SOTA模型YOLOv9的补全教程(算是一种补全吧我个人认为),了解V7的读者都知道V7系列是不支持模型深度和宽度的修改的也就是没有办法像YOLOv8那样有多个版本&#xff…

spring boot集成Elasticsearch 7.16.3

环境&#xff1a;Elasticsearch 版本 7.16.3 Elasticsearch for windows下载地址 windows 若依 spring boot版本 2.6.0 pom文件添加 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-elasticsearch<…

曲线生成 | 图解Dubins曲线生成原理(附ROS C++/Python/Matlab仿真)

目录 0 专栏介绍1 什么是Dubins曲线&#xff1f;2 Dubins曲线原理2.1 坐标变换2.2 单步运动公式2.3 曲线模式 3 Dubins曲线生成算法4 仿真实现4.1 ROS C实现4.2 Python实现4.3 Matlab实现 0 专栏介绍 &#x1f525;附C/Python/Matlab全套代码&#x1f525;课程设计、毕业设计、…

美国亚利桑那州立大学宣布与OpenAI建立合作伙伴关系!

美国亚利桑那州立大学 (Arizona State University) 在官网宣布—— 将与OpenAI建立合作伙伴关系&#xff01; 该校也成为了第一个与OpenAI合作的高等教育机构。 来源&#xff1a;亚利桑那州立大学官网 亚利桑那州立大学校长表示&#xff1a; “我们认识到人工智能系统将持续…

基于主从模式的Reactor的仿muduo网络库

&#x1f307;个人主页&#xff1a;平凡的小苏 &#x1f4da;学习格言&#xff1a;命运给你一个低的起点&#xff0c;是想看你精彩的翻盘&#xff0c;而不是让你自甘堕落&#xff0c;脚下的路虽然难走&#xff0c;但我还能走&#xff0c;比起向阳而生&#xff0c;我更想尝试逆风…

如何用Memberpress和Elementor创建会员网站

Netflix、Bloomberg、MasterClass 和 Coursera 等内容平台在过去几年中蓬勃发展。你知道他们每年的收入有多少吗&#xff1f;根据许多可靠消息来源&#xff0c;他们在 2022 年的收入分别为 316 亿美元、116 亿美元、9490 万美元和 5.28 亿美元。 它们都是会员网站的一些突出例…

软考高级:超键、候选键、主键、外键概念和例题

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;大厂高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

CPU漏洞之Spectre

一、前言 在过去的几十年里&#xff0c;一些微架构设计技术促进了处理器速度的提高。其中一个进步是推测执行(Speculative execution)&#xff0c;它被广泛用于提高性能&#xff0c;猜测CPU未来可能的执行方向&#xff0c;并提前执行这些路径上的指令。比如说&#xff0c;程序…

Centos7使用man查找命令时,报错No manual entry for xxxx

Centos7使用man查找命令时&#xff0c;报错No manual entry for xxxx 在Linux中使用man指令查找指令信息时&#xff0c;报No manual entry for xxxx。 比如使用man指令查找sleep3号手册时&#xff0c;出现以下错误&#xff1a; 这是由于没有安装man-pages这个rpm包导致的&#…