任你五花八门预训练方法,我自监督学习依然能打!

长时间没看论文,外面已经发展成这样了?

以下都是新paper,挑了几个感兴趣的,一起粗略看看吧~

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

在这里插入图片描述

GitHub | https://github.com/hsouri/Battle-of-the-Backbones

arXiv | https://arxiv.org/abs/2310.19909

基于神经网络的计算机视觉框架通常主要由骨干(Backbones)构成,即一个经过预训练或随机初始化的特征提取器。几年前,首选项基本是在ImageNet上训练的卷积神经网络

然而,最近出现了很多采用各种算法和数据集进行预训练的骨干网络。虽然这些操作提高了部分网络的性能,但对于从业者来说,很难做出关于选择哪个骨干的决定

Battle of the Backbones (BoB) 通过对一系列经过预训练的模型进行基准测试,包括视觉语言模型、通过自监督学习训练的模型以及Stable Diffusion骨干,在从分类到目标检测再到OOD泛化等多样的计算机视觉任务中,使这个选择变得更加容易

此外,通过对1500多次训练的全面分析,揭示了现有方法的优势和劣势,为学界指明了推进计算机视觉的有希望的方向

虽然vision transformers(ViTs)和自监督学习(SSL)越来越受欢迎,但他们发现在大型训练集上以监督方式预训练的卷积神经网络在大多数任务中仍然表现最佳

此外,在相同架构和相似大小的预训练数据集上的同类比较中,作者发现自监督学习的Backbone仍然具有很强的竞争力,这表明未来的研究应该使用先进的架构和更大的预训练数据集进行自监督学习预训练

MM-VID: Advancing Video Understanding with GPT-4V(ision)

在这里插入图片描述

arXiv | https://arxiv.org/abs/2310.19773

MM-VID充分发挥了GPT-4V的能力,并结合了在视觉、音频和语音领域的专业工具,以促进对视频的高级理解

旨在解决长视频和复杂任务(如对长达一小时的内容进行推理以及理解跨多个剧集的情节)带来的挑战。利用GPT-4V进行视频到脚本的生成,将多模态元素转录成一个长文本脚本

生成的脚本详细描述了角色的移动、动作、表情和对话,为大型语言模型(LLMs)实现视频理解提供了数据。使得音频描述、角色识别和多模态高级理解成为可能

实验结果展示了处理不同视频流派和各种视频长度方面的有效性。此外,还展示了在交互环境中应用MM-VID的潜力,例如视频游戏和图形用户界面

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

在这里插入图片描述

GitHub | https://github.com/LLaVA-VL/LLaVA-Interactive-Demo

arXiv | https://arxiv.org/abs/2311.00571

LLaVA-Interactive是一个用于多模态人机交互的研究原型。该系统能够通过获取多模态用户输入并生成多模态响应,与用户进行多轮对话

值得注意的是,LLaVA-Interactive不仅限于语言提示,还支持视觉提示,以对齐交互中人类的意图。该系统结合了LLaVA的视觉聊天、SEEM的图像分割以及GLIGEN的图像生成和编辑等三种预建AI模型的多模态技能,无需额外的模型训练

为了展示LLaVA-Interactive的潜力并激发未来多模式交互系统的研究,论文中演示了多种应用场景

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

在这里插入图片描述

GitHub | http://kylesargent.github.io/zeronvs/

arXiv | https://arxiv.org/abs/2310.17994

飞飞团队~,这篇论文介绍了一种3D感知扩散模型,ZeroNVS,用于野外场景的单图像新视角合成。虽然现有方法用于带有遮罩背景的单个对象,但本文提出了新的技术来解决野外多对象场景和复杂背景引入的挑战

具体而言,在捕获以对象为中心的室内和室外场景的混合数据源上训练生成先验。为了解决由深度尺度模糊等数据混合引入的问题,提出了一种新颖的相机调节参数化和归一化方案

此外,观察到在对360°场景进行蒸馏期间,Score Distillation Sampling(SDS)往往会截断复杂背景的分布,因此提出了SDS anchoring以提高合成新视角的多样性

zero-shot settin下,提出的模型在DTU数据集上在LPIPS方面取得了新的最先进结果,甚至超过了专门在DTU上训练的方法

他们进一步将具有挑战性的Mip-NeRF 360数据集作为单图像新视角合成的新baseline,并在这一设置中展示了强大的性能

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

arXiv | https://arxiv.org/abs/2310.19512

视频生成在学术界和工业界越来越受到关注。尽管商业工具可以生成合理的视频,但对于研究人员和工程师来说,可用的开源模型数量有限。在这项工作中,作者介绍了两个用于高质量视频生成的扩散模型,即文本到视频(T2V)模型和图像到视频(I2V)模型

T2V模型根据给定的文本输入合成视频,而I2V模型则包含额外的图像输入。所提出的T2V模型可以生成分辨率为1024*576的电影画质视频,其在质量方面优于其他开源T2V模型。I2V模型旨在生成严格遵循所提供参考图像内容的视频,保持其内容、结构和风格的完整性

该模型是第一个能够将给定图像转换为视频剪辑并保持内容约束的开源I2V基础模型。作者相信这些开源视频生成模型将为社区内的技术进步做出重要贡献

以上就是本期全部内容,期待点赞在看,我是啥都生,下次再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/191287.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【APUE】补充 — 基于管道的线程池

目录 一、引言 二、代码实现 三、思考 一、引言 在线程章节的 3.2 部分,我们曾经提到过线程池的实现 在当时的代码中,我们仅仅用的一个 int 类型的变量来表示这个“池”,用来存放任务 显然这个池太小了,如果下游线程很多&am…

肖sir__linux讲解vim命令(3.1)

vim 命令 一、 vi/vim 编辑器共分为三种模式: 格式 :vim 文件名 命令模式(Command mode),“ESC”或ctrlc键 输入模式(Insert mode) 底线命令模式(Last line mode) …

GamingTcUI.dll丢失修复,最全面的GamingTcUI.dll修复指南

热衷于电脑游戏的用户可能会在启动游戏时遇到这样的错误信息:"无法启动应用,因为找不到GamingTcUI.dll"。那么这个GamingTcUI.dll文件是什么?如何解决这个问题呢?我们将在本文中进行详细讲解。 一.GamingTcUI.dll是什么…

十个一手app拉新地推拉新推广接单平台,放单/接任务渠道

做过地推拉新的朋友一定都非常清楚,app拉新推广一手接单平台,和非一手接任务平台之间的收益差,可以用天壤之别来形容。那么一手app拉新渠道应该怎么找?下面这十个常见的地推拉新app接单平台,一定要收藏。 1. 聚量推客…

Gem5模拟器学习之旅

安装gem5 模拟器 翻译自官网(https://www.gem5.org/documentation/learning_gem5/part1/building/) 支持的操作系统和环境 gem5的设计考虑到了Linux环境。我们定期在 Ubuntu 18.04、Ubuntu 20.04 和 Ubuntu 22.04 上进行测试,以确保 gem5 在…

一文带你了解QT Model/View框架的设计思想和实现机制

目录 1、QT Model/View框架简介 1.1、QT Model/View是什么? 1.2、QT Model/View框架核心思想 1.3、Model/View框架工作机制 1.4、Model/View框架的类 2、Model 2.1模型简介 2.2、模型索引 2.3、数据角色 2.4、QStringListModel 2.5、QFileSystemModel 2…

Nginx反向代理和负载均衡

1.反向代理 反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一…

IPv4数据报格式

IPv4是IP协议的第四个版本(版本1-3和版本5都未曾使用过)IP地址不能反映任何有关主机位置的地理信息以前还有个逆地址解析协议RAPR(Reverse APR),它的作用是使只知道自己MAC地址的主机能通过RAPR找到其IP地址,而现在的DHCP(Dynamic Host Configuration Pr…

Linux网络——HTTP

一.应用层 我们程序员写的一个个解决我们实际问题, 满足我们日常需求的网络程序, 都是在应用层. 我们上一次写的网络版本计算器就是一个应用层的网络程序。 我们约定了数据的读取,一端发送时构造的数据, 在另一端能够正确的进行解析, 就是ok的. 这种约定, 就是应…

macbook ntfs能读不能复制 c盘ntfs拒绝访问怎么解决

如果你是一位Mac用户,你可能会遇到这样的问题:你的Mac能够读取NTFS格式的移动硬盘或U盘,但是不能往里面复制或者修改文件。或者,你的Windows电脑出现了C盘NTFS拒绝访问的错误,导致你无法正常使用系统。这些问题都是由于…

vue使用navigator.mediaDevices.getUserMedia调用相机功能

目录 前言: API: API简单示例: 拍照功能 实现效果: 前言: 本文将介绍Vue中如何使用navigator.mediaDevices.getUserMedia调用相机功能,实现拍照使用实例,需要的朋友可以参考一下。 注意…

C++ STL之string初始

我最近开了几个专栏,诚信互三! > |||《算法专栏》::刷题教程来自网站《代码随想录》。||| > |||《C专栏》::记录我学习C的经历,看完你一定会有收获。||| > |||《Linux专栏》&#xff1…