腾讯开源混元DiT文生图模型,消费级单卡可推理

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下:

重磅消息!《大模型面试宝典》(2024版) 正式发布!

喜欢记得点赞、收藏、关注。更多技术交流&面经学习,可以文末加入我们。


混元DiT是一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。

为了构建混元DiT,我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,我们训练了多模态大语言模型来优化图像的文本描述。

最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。

该模型具备如下优势

  • 中文元素理解:混元DiT提供双语生成能力,中国元素理解具有优势。

  • 长文本理解能力:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。

  • 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图

  • 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。

开源代码链接:

https://github.com/Tencent/HunyuanDiT

最佳实践

按照混元DiT文生图模型的模型页面,需要的计算显存如下:

在这里插入图片描述

环境配置和安装

  1. python 3.10及以上版本

  2. pytorch推荐2.0及以上版本

下载和部署

第一步:clone代码到本地

git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT
# 安装魔搭镜像中缺少的依赖
pip install loguru==0.7.2

第二步:下载模型

# 使用git下载模型
git clone https://www.modelscope.cn/modelscope/HunyuanDiT.git
# 或者使用modelscope SDK下载模型
# from modelscope import snapshot_download
# model_dir = snapshot_download('modelscope/HunyuanDiT')

第三步:因为混元DiT依赖clip-vit-large-patch14-336,需要提前下载该模型到工作目录

# 下载clip模型
git clone https://www.modelscope.cn/AI-ModelScope/clip-vit-large-patch14-336.git ./openai/clip-vit-large-patch14-336

第四步:按照pr修改对应的代码

Pr地址:

https://github.com/Tencent/HunyuanDiT/pull/16

修改的文件如下:

第五步:运行推理接口

python sample_t2i.py --prompt "渔舟唱晚"

在HunyuanDiT/results/文件夹下得到结果:

显存占用:

中文prompt效果体验

小编用一些中文的成语,古诗等测试了该模型的效果,出图稳定,分辨率高,且效果不错,尤其是单张图多个实体上,依然保障了很好的出图质量。非常开心看到优秀的支持中文的文生图模型,魔搭社区未来期待与社区开发者同行,一起研究和推动基于DiT模型上如LoRA,控图等生态发展。

龟兔赛跑

守株待兔

三只羊驼坐在麻将桌上

一只红色的小狐狸和一只黑色的老鹰在森林中对话

醉后不知天在水,满船清梦压星河

技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了算法面试和技术交流群,相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:来自CSDN + 技术交流

通俗易懂讲解大模型系列

  • 重磅消息!《大模型面试宝典》(2024版) 正式发布!

  • 重磅消息!《大模型实战宝典》(2024版) 正式发布!

  • 做大模型也有1年多了,聊聊这段时间的感悟!

  • 用通俗易懂的方式讲解:大模型算法工程师最全面试题汇总

  • 用通俗易懂的方式讲解:不要再苦苦寻觅了!AI 大模型面试指南(含答案)的最全总结来了!

  • 用通俗易懂的方式讲解:我的大模型岗位面试总结:共24家,9个offer

  • 用通俗易懂的方式讲解:大模型 RAG 在 LangChain 中的应用实战

  • 用通俗易懂的方式讲解:ChatGPT 开放的多模态的DALL-E 3功能,好玩到停不下来!

  • 用通俗易懂的方式讲解:基于扩散模型(Diffusion),文生图 AnyText 的效果太棒了

  • 用通俗易懂的方式讲解:在 CPU 服务器上部署 ChatGLM3-6B 模型

  • 用通俗易懂的方式讲解:ChatGLM3-6B 部署指南

  • 用通俗易懂的方式讲解:使用 LangChain 封装自定义的 LLM,太棒了

  • 用通俗易懂的方式讲解:基于 Langchain 和 ChatChat 部署本地知识库问答系统

  • 用通俗易懂的方式讲解:Llama2 部署讲解及试用方式

  • 用通俗易懂的方式讲解:一份保姆级的 Stable Diffusion 部署教程,开启你的炼丹之路

  • 用通俗易懂的方式讲解:LlamaIndex 官方发布高清大图,纵览高级 RAG技术

  • 用通俗易懂的方式讲解:为什么大模型 Advanced RAG 方法对于AI的未来至关重要?

  • 用通俗易懂的方式讲解:基于 Langchain 框架,利用 MongoDB 矢量搜索实现大模型 RAG 高级检索方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/704854.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Java的飞机大战游戏的设计与实现(论文 + 源码)

关于基于Java的飞机大战游戏.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89313362 基于Java的飞机大战游戏的设计与实现 摘 要 现如今,随着智能手机的兴起与普及,加上4G(the 4th Generation mobile communication &#x…

汇聚荣:拼多多长期没有流量如何提高?

在电商的海洋中,拼多多以其独特的团购模式吸引了众多消费者的目光。然而,随着市场竞争的加剧和消费者需求的多样化,一些商家发现自家店铺的流量持续低迷,销售业绩难以突破。面对这样的挑战,如何有效提升拼多多店铺的客…

【动态规划五】回文串问题

目录 leetcode题目 一、回文子串 二、最长回文子串 三、分割回文串 IV 四、分割回文串 II 五、最长回文子序列 六、让字符串成为回文串的最少插入次数 leetcode题目 一、回文子串 647. 回文子串 - 力扣(LeetCode)https://leetcode.cn/problems/…

Polylang Pro插件下载:多语言网站构建的终极解决方案

在全球化的今天,多语言网站已成为企业拓展国际市场的重要工具。然而,创建和管理一个多语言网站并非易事。幸运的是,Polylang Pro插件的出现,为WordPress用户提供了一个强大的多语言解决方案。本文将深入探讨Polylang Pro插件的功能…

Go微服务开源框架kratos的依赖注入关系总结

该文章为学习开源微服务框架kratos的学习笔记!官方文档见:简介 | Kratos Kratos 一套轻量级 Go 微服务框架,包含大量微服务相关框架及工具。 通过 Kratos 工具生成的 Go工程化项目模板如下: application |____api | |____hello…

ZYNQ之嵌入式驱动开发——字符设备驱动

文章目录 Linux驱动程序分类Linux应用程序和驱动程序的关系简单的测试驱动程序在petalinux中添加LED驱动新字符设备驱动 Linux驱动程序分类 驱动程序分为字符设备驱动、块设备驱动和网络设备驱动。 字符设备是按字节访问的设备,比如以一个字节收发数据的串口&#…

基于51单片机的自动浇花器电路

一、系统概述 自动浇水灌溉系统设计方案,以AT89C51单片机为控制核心,采用模块化的设计方法。 组成部分为:5V供电模块、土壤湿度传感器模块、ADC0832模数转换模块、水泵控制模块、按键输入模块、LCD显示模块和声光报警模块,结构如…

基于SSM的婚恋网站的设计与实现(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的婚恋网站的设计与实现(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spri…

信创电脑|暴雨新增兆芯KX-7000处理器版本

IT世界 5 月 15 日消息,暴雨公司信创家族新上架了一款搭载兆芯KX-7000系列处理器、摩尔线程8GB 显卡、16G DDR5 内存以及 512G SSD 的新配置台式电脑主机。 兆芯 KX-7000 处理器采用开先的 8 核 Chiplet互联架构,最高频率3.7 GHz,拥有 32MB 的…

TINA 使用教程

常用功能 分析-电气规则检查:短路,断路等分析- 直流分析 交流分析 瞬态分析 视图-分离曲线 由于输出的容性负载导致的振荡 增加5欧电阻后OK 横扫参数 添加横扫曲线的电阻,选择R3:8K-20K PWL和WAV文件的支持 示例一:…

计算机Java项目|Springboot高校心理教育辅导设计与实现

作者主页:编程指南针 作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容:Java项目、Python项目、前端项目、人工智能与大数据、简…

Blender雕刻建模_笔刷纹理和顶点绘制

笔刷纹理 主要用于皮肤,纹理的雕刻。 可以修改映射方式来实现不同绘制效果。 用一张纹理来定义笔刷各个点的强度。其中白色为1,黑色为0。 设置笔刷纹理步骤: -新建一套笔刷 -强度,设为0.15(可以根据需求修改&#x…