字节跳动推出颠覆性文生视频模型,可自由控制动作!

在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款创新性视频模型——Boximator。

与Gen-2、Pink1.0等模型不同的是,Boximator可以通过文本精准控制生成视频中人物或物体的动作。

例如,下雨天,大风把一位女生的雨伞吹走了。目前,很少有视频模型能精准做到这一点。

左侧为Boximator生成的视频

论文地址:https://arxiv.org/abs/2402.01566

项目地址:https://boximator.github.io/

Boximator案例赏析

我们先看一下Boximator与Gen-2、Pink1.0,在使用相同的文本提示词、图像生成的视频,所表现出来的不同动作。

为了方便观察,「AIGC开放社区」将对比视频整合在一起,最左边的是Boximator生成的视频。

1),一个可爱的3D男孩站着,然后走路。

在这个案例中,Pika 1.0生成的视频男孩只是站着没有走动,Gen-2的视频走动了但不明显,只有Boximator产生了明显的走动动作。

2)一位英俊的男人用他的右手从口袋里拿出一朵玫瑰,并且在看着这朵玫瑰。

这个案例Pika 1.0和Gen-2表现的都非常不好,男士没有掏出玫瑰花的动作。Boximator再一次完美理解文本语义并做出了相应的动作。

3)往杯子里加红酒

这个案例主要展示了控制物体动作的能力,Pika 1.0和Gen-2都做出了倒酒的动作,但是杯子里的酒没有明显上升的动作。只有Boximator做到了倒酒+上升两个动作。

看了这3个案例,能感受到Boximator对文本语义精准理解,以及对动作控制的强大功能了吧。

Boximator模型介绍

为了实现对视频中物体、人物的动作控制,Boximator使用了“软框”和“硬框”两种约束方法。

硬框:可精确定义目标对象的边界框。用户可以在图片中画出感兴趣的对象,Boximator会将其视为硬框约束,在之后的帧中精准定位该对象的位置。

图片

软框:软框定义一个对象可能存在的区域,形成一个宽松的边界框。对象需要停留在这个区域内,但位置可以有一定变化,实现适度的随机性。

两类框都包含目标对象的ID,用于在不同帧中跟踪同一对象。此外,框还包含坐标、类型等信息的编码。

控制模块和训练策略

控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

框编码器:将框的坐标、ID、类型等信息,通过Fourier编码和MLP映射为控制向量。

自注意力层:将框的控制向量与视频帧的视觉向量通过自注意力建模其关系,学习将框指导帧生成。

训练策略方面,Boximator主要分为两个阶段: 自跟踪阶段,训练模型的同时生成视频内容和对应的框,并简化框与对象的关系学习。

图片

正常训练,训练模型只生成视频内容,框的内在表达已经学会指导对象生成。此外,训练还使用多阶段策略,逐步过渡从硬框到软框的约束,以及适当融合无框数据。

Boximator实验数据

为获得视频训练数据,研究人员从WebVid-10M数据集中,过滤出110万段动态明显的视频片段,并自动为其注释了220万个对象的边界框。并在PixelDance和ModelScope这两个模型上训练了Boximator。

图片

实验数据显示,Boximator在保持原模型视频质量,具有非常强大的动作控制能力。同时可以作为一种插件,帮助现有视频扩散模型提升生成质量。

在MSR-VTT数据集上,无论是视频质量还是框与对象对齐精度方面,Boximator都优于原模型。在人类评估中,Boximator生成的视频也在质量和运动控制上明显超过原模型。

字节跳动的研究人员表示,目前该模型处于研发阶段,预计2-3个月内发布测试网站。让我们期待一下国内挑战Sora的产品诞生吧!

本文素材来源Boximator论文,如有侵权请联系删除

END

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/479023.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

毕业设计:基于知识图谱的《红楼梦》人物关系可视化

文章目录 项目介绍部署步骤项目运行 项目介绍 github地址:https://github.com/chizhu/KGQA_HLM?tabreadme-ov-file 基于知识图谱的《红楼梦》人物关系可视化:应该是重庆邮电大学林智敏同学的毕业设计,在学习知识图谱的过程中参考使用。 文…

Cadence Allegro PCB设计88问解析(三十三) 之 Allegro 中 Quick Reports的使用

一个学习信号完整性仿真的layout工程师 在进行PCB设计时,经常会查看一下整个PCB的基本信息,比如器件个数,网络数量、pin的数量。尤其在投板的时候还要查看下Dangling Lines、Dangling Vias等。还有其他的关于shape、via、走线、钻孔等等相关信…

LabVIEW风力机智能叶片控制系统

​LabVIEW风力机智能叶片控制系统 介绍了一种风力机智能叶片控制系统的开发。通过利用LabVIEW软件与CDS技术,该系统能够实时监测并调整风力机叶片的角度,优化风能转换效率。此项技术不仅提高了风力发电的稳定性和效率,而且为风力机的智能化管…

解决问题的七个步骤,你知道吗?

在日常生活和工作中,我们时常会面临各种问题和挑战。有效地解决问题不仅能帮助我们顺利前行,还能提升我们的个人能力和价值。如何更有效地解决问题? 案例背景: 一家电商公司的项目经理,负责一个即将上线的促销活动。…

SICTF Round#3 Web方向 题解WP

100%_upload 题目描述:小茂夫说:一直上传恶意文件尊嘟要生气了,世事莫固守,转变思路求突破 开题,注意有个文件包含 题目把后缀过滤死了,无法上传php后缀文件。文件内容些许过滤,短…

每日学习总结20240219

每日总结 20240219 1.文件类型.csv CSV文件是一种以逗号分隔值(Comma-Separated Values)为标记的文本文件,它可以用来存储表格数据。每一行表示一条记录,而每一条记录中的字段则使用逗号或其他特定的分隔符进行分隔。 常用场景…

SpringMVC基础复习-概念+mvc配置类中代码+异常处理

SpringMVC将Servlet的一些通用功能进行了抽取和封装,代码由两部分组成:前端控制器(由SpringMVC提供,主要负责:接收参数返回数据)处理器(调用业务层代码),核心依赖spring-webmvc(springboot中自动配置,用spring-boot-starter-web) 在项目中添加web环境的初始类和核心配置类,其中…

计算机视觉学习指南(划分为20个大类)

计算机视觉的知识领域广泛而庞杂,涵盖了众多重要的方向和技术。为了更好地组织这些知识,我们需要遵循无交叉无重复(Mutually Exclusive Collectively Exhaustive,MECE)的原则,并采用循序渐进的方式进行分类…

给label-studio 配置sam(segment anything)ml 记录

给label-studio 配置sam(segment anything)ml 后端记录 配置ml后台下载代码下载模型文件创建环境模型转换后端服务启动 配置label-studio 前端配置模型后端连接配置标注模板标注界面使用 参考链接 配置ml后台 下载代码 git clone https://github.com/H…

为什么选用C09航空插头

为什么选用C09航空插头?其中的优势就是信号传输速度够快,是其他产品所不能达到的,今天就来和大家一起探讨一下C09航空插头信号传输速度。下面是科迎法电气为大家整理的资料,仅供大家学习参考! 现在已经到了网络信息高度…

用旧版本Matlab训练的 classregtree类的决策树model 在新版Matlab无法使用的解决方法

背景 想把原来r2015a版本的代码升级到r2021b,用2021b运行原来的代码时,报错 搜索发现R2019a中已经去除了classregtree函数和classregtree类 解决方法 新版本的Matlab load(‘TreeModel.mat’)后,查看TreeModel的值 val 分类的决策树1 …

Redis第一关之常规用法

简介 Redis不用多说,已经火了很多年了,也用了很多年了。现在做一些归纳总结。 这篇文章主要介绍Redis的常规知识及用法,包括数据结构、使用场景、特性、过期机制、持久化机制。 Redis与Mysql Mysql是一款基于磁盘的关系型SQL数据库。 Redi…