智谱AI Emu3环境搭建推理测试

引子

OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。虽然,下一token预测已在大语言模型领域实现了ChatGPT等突破,但是在多模态模型中的适用性仍不明确。多模态任务仍然由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导。2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。OK,那就让我们开始吧。

一、模型介绍

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。

 

二、环境搭建

模型下载:

pip install modelscope

modelscope download --model BAAI/Emu3-Gen

代码下载:

git clone GitHub - baaivision/Emu3: Next-Token Prediction is All You Need

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

cd :/workspace/Emu3/Emu3-main

pip install -r requirements.txt -i Simple Index

三、推理测试

cd /workspace/Emu3/Emu3-main

python image_generation.py

 

OK,显存不够 ,那就这样子吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/826486.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据流转的守护者:半导体行业文件摆渡系统的重要性!

为了保护内部的核心数据,半导体行业一般会进行网络隔离建设,确保不同网络区域之间的数据安全性和隔离性,比如隔离成研发网、办公网、测试网等,但内部不同子网之间、内部与外部合作伙伴之间等均存在频繁的数据交换需求,因此需要文件摆渡系统实现内外网数据安全交互。半导体…

20222425 2024-2025-1 《网络与系统安全技术》实验四报告

20222425 2024-2025-1 《网络与系统安全技术》实验四报告 目录 1.实践内容 2.实践过程 2.1 恶意代码样本的文件类型识别,脱壳与字符串提取 2.1.1 使用文件格式和类型识别工具,给出rada恶意代码样本的文件格式、运行平台和加壳工具 2.1.2 使用脱壳软件,对rada恶意代码样本进行…

探索未知,挑战极限—2025 北京国际户外露营装备展览会-野外探险展

探索未知,挑战极限—2025 北京国际户外露营装备展览会-野外探险展在人类的历史长河中,对未知世界的探索从未停止。如今,野外探险成为了现代人追求自由、挑战自我、亲近大自然的一种独特方式。而 2025 北京国际户外露营装备展览会-野外探险展,将为广大探险爱好者和专业人士提…

企业核心数据资产传输管控建设指南,推荐了解!

随着网络的发展,各行业在经历技术革新,企业要长远发展需要建立自己的核心竞争力,增加企业的研发投入,提升企业的技术创新能力、产品竞争力、产业升级等。 不同行业数据的生产、存储、使用、传输、销毁过程各有差异,数据要发挥价值,就必然伴随数据的流转和利用。数据流转场…

WiFi基础(七):WiFi漫游与WiFi组网

liwen01 2024.10.27 前言 无线 WiFi 的优点是方便、灵活,可以接入各种设备。缺点就是信号容易被干扰、信号覆盖范围有限。下面几个问题应该很多人都有遇到过:为何很多洗手间的 WiFi 信号都不太好?市面上的穿墙路由器真的就比其它路由器效果好么?为何有时候 WiFi 信号强度很…

数据工程师,转型人工智能岗位的理想时空通道

序言:数据工程师是从传统软件工程师向人工智能方向转型的最佳切入点之一。数据工程师的职责通常是为人工智能项目收集和准备高质量的训练数据集,包括从互联网上获取公开数据、或自行采集、清洗、整理数据集。尽管看似简单,但数据工程师的工作至关重要,因为数据质量直接影响…

H.265 HEVC 视频编码 All In One

H.265 & HEVC 视频编码 All In One 高效视频编码 (HEVC),也称为 H.265,是一项视频压缩标准,允许 GoPro 摄像机以几乎一半的文件大小拍摄更大的视频内容(如 5.3k60fps 和 1080p240),同时具有同等画质。H.265 & HEVC 视频编码 All In One高效视频编码 (HEVC),也称…

南沙C++信奥赛陈老师解一本通题 1230:寻找平面上的极大点

​【题目描述】在一个平面上,如果有两个点(x,y),(a,b),如果说(x,y)支配了(a,b),这是指x≥a,y≥b; 用图形来看就是(a,b)坐落在以(x,y)为右上角的一个无限的区域内。 给定n个点的集合,一定存在若干个点,它们不会被集合中的任何一点所支配,这些点叫做极大值点。 编程找出所有…

CSP-S 2024 游寄

掉大分记 upd:更新正文我不曾忘记 很好听的草神歌,打算推完经过就推这个 。 我的破木箱 装满枯萎的花 放不下 光与壤 和新鲜的愿望 如果能飞翔 去高高的地方 撒一张 梦的网 收集爱的回响 你也在听吗 落单的孩子啊 别害怕 别害怕 黑夜不会太长 悬崖上的花 让我为你摘下 数…

说说Java的类加载机制?究竟什么是双亲委派模型?

首先引入一个概念,什么是Java类加载器? 一句话总结:类加载器(class loader)用来加载 Java 类到 Java 虚拟机中。 官方总结:Java类加载器(英语:Java Classloader)是Java运行时环境(Java Runtime Environment)的一部分,负责动态加载Java类到Java虚拟机的内存空间中。…

Sophos Firewall (SFOS) v21 GA - 下一代防火墙

Sophos Firewall (SFOS) v21 GA - 下一代防火墙Sophos Firewall (SFOS) v21 GA - 下一代防火墙 设备 • 云 • 虚拟 请访问原文链接:https://sysin.org/blog/sfos-21/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.orgSophos Firewall 2024 年 10 月 17 日,Sopho…

.NET开发者福音:JetBrains官方宣布 Rider 非商用免费开放!

前言 JetBrains官方前段时间宣布重磅消息,其两款知名IDE应用WebStorm和Rider现已面向社区开放,允许用户免费用于非商业用途。此举旨在支持学习、开源项目开发、内容创作及业余开发等活动。Rider介绍 JetBrains Rider 是一款一体化 IDE,适合使用整个 .NET 技术堆栈以及参与游…