一张草图直接生成视频游戏,谷歌推出生成交互大模型

谷歌DeepMind的研究人员推出了,首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments,简称“Genie”。

Genie有110亿参数,可以根据图像、真实照片甚至草图,就能生成各种可控制动作的视频游戏。Genie之所以有如此神奇功能,主要使用了3万小时,6800万段的游戏视频进行了大规模训练

并且在训练过程中没有使用任何真实动作标签或其他特定提示,但Genie可以基于帧级别的,使用户在生成的环境中进行各种动作控制非常强!

值得一提的是,Genie是一个通用基础模型,也就是说其学到的潜在动作关系、序列、空间可以应用在其他领域中。

论文地址:https://arxiv.org/abs/2402.15391

项目地址:https://sites.google.com/view/genie-2024/home

,时长00:27

Genie功能展示

Genie的核心架构用了ST-Transformer(时空变换器)。这是一种结合了Transformer模型的自注意力机制与时空数据的特性,以有效处理视频、多传感器时间序列、交通流量等时空数据。

图片

ST-Transformer主要通过捕捉数据在时间和空间上的复杂依赖关系,提高了对时空序列的理解和预测能力,主要有3大模块组成。

图片

将一张草图,直接生成可控的小游戏

图片


转化展示

视频分词器

这是一个基于VQ-VAE的模块,可将原始视频帧压缩成离散的记号表示,以降低维度并提高后续模块的视频生成质量。

图片

这个过程类似自然语言处理中的分词,将连续的视频帧序列分解为离散的视频片段。

视频分词器使用了ST-transformer来对视频进行编码,并生成对应的视频标记。这些标记将作为后续动力学模型的输入,用于预测下一帧视频。

潜在动作模型

这是一个无监督学习模块,可从原始视频中推断出观察到的状态变化对应的潜在动作。并根据这些潜在动作实现对每一帧的控制。潜在动作模型通过对视频标记序列进行建模,学习到了不同帧之间的动作关系

图片

具体来说,潜在动作模型可以将一个视频标记序列作为输入,并生成对应的潜在动作序列。这些潜在动作序列可以用于控制生成环境中的每一帧,使用户能够在生成的交互环境中进行精确的操作。

动力学模型

主要基于潜在动作模型学习到的动作关系,根据潜在动作和过去的帧标记预测下一帧的视频。可以把该模块看作是一个预测模型,通过学习视频序列的动态变化模式,能够生成逼真的连续视频。

动力学模型的输入包括前一帧的图像表示和当前帧的动作表示。为了将图像表示和动作表示进行融合,Genie采用了一个基于Transformer架构的编码器来对它们进行编码。

图片

在编码器中,首先对前一帧的图像进行编码,并采用了一种视频标记器的方法,将图像分割成若干个离散的标记,每个标记代表图像中的一个局部区域。这种分割可以帮助模型捕捉到图像中的空间信息。

图片

当前帧的动作表示也通过编码器进行编码。动作表示可以是离散的动作类别或连续的动作向量,具体的形式取决于具体的应用场景。

编码器将动作表示转换为一个固定长度的向量,以便与图像表示进行融合。在获得图像表示和动作表示的编码后,它们被输入到动力学模型中进行预测。

本文素材来源Genie论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/522929.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp实现---类似购物车全选

目录 一、实现思路 二、实现步骤 ①view部分展示 ②JavaScript 内容 ③css中样式展示 三、效果展示 四、小结 注意事项 一、实现思路 点击商家复选框,可选中当前商家下的所有商品。点击全选,选中全部商家的商品 添加单个多选框,在将多选…

活动会议如何做好线上宣传?媒体直播怎么做?

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 活动会议的线上宣传和媒体直播是提高活动曝光度和参与度的重要手段。以下是一些建议,以帮助您做好线上宣传和媒体直播: 一、线上宣传策略 制定宣传计划&#xff…

FreeRTOS学习笔记-基于stm32(3)中断管理

一、什么是中断 通俗点讲就是让CPU停止当前在做的事,转而去做更紧急的事。 二、中断优先级分组 这个紧急的事也有一个等级之分,优先级越高越先执行。stm32使用中断优先配置寄存器的高4位,共16级的中断优先等级。 stm32的中断优先等级可以分为…

VTune+Sampling Drivers环境搭建(本地和远程)

文章目录 一、实验环境二、Vtune安装2.1 下载2.2 安装2.3 测试2.4 检查2.5 部分功能开启2.5.1 ptrace2.5.2 Sampling Drivers 2.6 Memory Access功能 三、安装Sampling Drivers3.1 Sampling Drivers下载3.2 Sampling Drivers编译3.3 Sampling Drivers安装3.4 Sampling Drivers开…

03_JDBC

文章目录 数据库的访问流程JDBCJDBC实现流程使用JDBC进行增删改查增删改查 重要的APIDriverManagerConnectionStatementResultSet JDBC实现流程的优化数据库注入问题批处理for循环逐条插入statement批处理preparedStatement批处理 数据库的事务事务的步骤事务的API事务的特性事…

计算机组成原理之机器:存储器之高速缓冲存储器

计算机组成原理之机器:存储器之高速缓冲存储器 笔记来源:哈尔滨工业大学计算机组成原理(哈工大刘宏伟) Chapter3:存储器之高速缓冲存储器 3.1 概述 3.1.1 为什么用cache? 角度一:I/O设备向…

Layer1 隐私安全项目 Partisia Blockchain 空投计划邀你瓜分 2500W 枚 MPC 奖励!

🛰️ Partisia 及基金会介绍 作为一个以 Web3 安全为技术方向的 Layer1 区块链,Partisia Blockchain 自 2021 年诞生之日起已完成了 3 项主要的技术创新。为了创建更安全、快速的数字基础设施,Partisia Blockchain 实现了 1 秒以内的快速交易…

macos docker baota 宝塔 搭建 ,新增端口映射

拉取镜像仅拉取镜像保存到本地,不部署容器,仅需拉取一次,永久存储到本地镜像列表 docker pull akaishuichi/baota-m1:lnmp 其他可参考:宝塔面板7.9.2docker镜像发布-集成LN/AMP支持m1/m2 mac版本 - Linux面板 - 宝塔面板论坛 运行…

CDN(内容分发网络):加速网站加载与优化用户体验

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

Linux服务器安装jdk

背景: 安装JDK是我们java程序在服务器运行的必要条件,下面描述几个简单的命令就可再服务器上成功安装jdk 命令总览: yum update -y yum list | grep jdk yum -y install java-1.8.0-openjdk java -version 1.查看可安装版本 yum list | grep jdk 2.如果查不到可先进行 yum upd…

VBA中类的解读及应用第十讲:限制文本框的输入,使其只能输入数值(上)

《VBA中类的解读及应用》教程【10165646】是我推出的第五套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。 类,是非常抽象的,更具研究的价值。随着我们学习、应用VBA的深入&#xff0…

供应链管理系统(SCM):得供应链得天下不是空话。

2023-08-26 15:51贝格前端工场 Hi,我是贝格前端工场,优化升级各类管理系统的界面和体验,是我们核心业务之一,欢迎老铁们评论点赞互动,有需求可以私信我们 一、供应链对于企业的重要性 供应链对企业经营的重要性不可…