Datawhale【Sora原理与技术实战】| 学习笔记-编程知识

Datawhale【Sora原理与技术实战】| 学习笔记

一. Sora能力

但是，Sora并没能完全达到理解物理世界的能力

在这里插入图片描述

	将原始的视频数据（NxHxW的若干帧图像）切分成一小块一小块的patch通过VAE编码器，压缩成低维空间表示，提取特征flatten操作拉平为一维数据patch被送入diffusion model

在这里插入图片描述

视频数据经过一个Visusal encoder的编辑器，将所有的数据做成一个灰色的block
这个block可以存储在spatial temperal patch中，其中patch含有视频空间和时间的表征

基于文本语义到图像语义的再映射

	相当于输入一个promote提示词后，即文本语义基于文本语义做出一个相对于图片的映射最后根据映射生成的图片再去组成一个一维的视频数据

	Diffusion Transformer生成的低维空间通过VAE解码器恢复成像素级的视频数据

Reference：
【一文看Sora技术推演作者:周文猛魔搭社区】
【📖学习手册】
【sora技术原理详解回放】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/505415.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！