Google MobileDiffusion: 移动端设备上的快速文字到图片生成技术

     每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。 

在今天这个喜欢拍照比喜欢呼吸还勤快的时代,大家都想在手机上玩出点新花样。别急,有个新鲜玩意儿叫“MobileDiffusion”,可能会让你的朋友圈瞬间高大上起来。

首先,不得不说,那些能把文字变成图片的大脑洞模型,真是太神奇了。不过,它们像是那种需要喝特制能量饮料才能启动的怪兽电脑或者服务器才能跑起来。比如“稳定扩散”(Stable Diffusion)、DALL·E和Imagen这些大佬,它们的模型参数多到可以装满好几个图书馆,想要轻松运行?门都没有。

然而,随着科技的进步,Android的MediaPipe和iOS的Core ML这对好基友在过去一年里已经在手机上做了不少魔法。但想要实现那种秒生成图片的梦想?还差得远呢。

于是乎,有人站了出来,提出了一个让手机也能快速从文本生成图片的方案,名字叫做“MobileDiffusion”。这不是你平常用的那种APP,它是一个专为手机设计的轻量级扩散模型。用了一种叫DiffusionGAN的黑科技,在推理过程中实现一步采样,相当于给预训练的模型加了个GAN来模拟去噪步骤。测试结果如何?在iOS和Android的高端设备上跑起来,半秒钟就能生成一个512x512的高质量图片,而且模型只有520M参数,小巧得很。

好,接下来让我们深入一点。原来那些文字到图片的模型之所以慢,主要是因为两个原因:一是它们需要多次迭代去噪来生成图片,二是复杂的网络架构让模型参数爆炸。尽管在手机上部署这种模型能极大提升用户体验,解决隐私问题,但现实是残酷的,这方面的研究还很少。

为了解决这个问题,人们研究如何优化模型的推理效率,尤其是减少函数评估次数(NFE)。通过使用先进的数值求解器或蒸馏技术,已经能把采样步骤大大减少,甚至减到只需要一步。

但在手机上,由于模型架构的复杂性,即使评估步骤减少了,运行速度仍然很慢。目前,针对文字到图片扩散模型的架构效率的研究还不够。只有少数研究涉及到这个问题,比如移除神经网络中冗余的模块,但这些努力还不足以提供一个全面的设计高效架构的指南。

“MobileDiffusion”的设计基于潜在扩散模型,包括文本编码器、扩散UNet和图像解码器三个部分。其中文本编码器使用了体积小巧的CLIP-ViT/L14模型,适合手机使用。而在扩散UNet和图像解码器方面也做了优化。

总之,“MobileDiffusion”通过精简模型结构和采用DiffusionGAN一步采样技术,实现了在手机上快速从文本生成图片的目标,开启了一扇新的大门,让手机用户也能享受到即时生成高质量图片的乐趣。而且,这技术还是遵循谷歌的负责任AI实践的,所以用起来也挺放心。

具体请去看 https://blog.research.google/2024/01/mobilediffusion-rapid-text-to-image.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/455091.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多线程生命周期与通信(二)通信

线程自启动时,就拥有了自己的栈空间。然后会一直运行直到结束。多线程的目的是多条线程执行不同的逻辑业务从而能够提升业务整体的响应速度,如果线程仅仅是孤零零的执行,不同的逻辑业务就不能最终汇聚成一个完整的业务那么多线程也就失去了意…

02-Web应用_架构构建_漏洞_HTTP数据包_代理服务器

Web应用_架构构建_漏洞_HTTP数据包_代理服务器 一、网站搭建前置知识1.1 域名1.2、子域名1.3、DNS二、web应用环境架构类三、web应用安全漏洞分类四、web请求返回过程数据包 五、演示案例5.1、架构-Web应用搭建-域名源码解析5.2、请求包-新闻回帖点赞-重放数据包5.3、请求包-移…

2024.2.4 awd总结

防御阶段 感觉打了几次awd,前面阶段还算比较熟练 1.ssh连接 靶机登录 修改密码 [root8 ~]# passwd Changing password for user root. New password: Retype new password: 2.xftp连接 备份网站源码 我觉得这步还是非常重要的,万一后面被删站。。…

Java-并发高频面试题-2

接着之前的Java-并发高频面试题 7. synchronized的实现原理是怎么样的? 首先我们要知道synchronized它是解决线程安全问题的一种方式,而具体是怎么解决的呢?主要是通过加锁的方式来解决 在底层实现上来看 是通过 monitorenter、monitorexit…

零售新业态,让老牧区焕发新生命

敦煌老马一声魔性“浇给”勾起了无数人对羊肉的食欲,而当大家集体涌入餐厅或者在网上下单,都想要尝一尝网红同款的时候,可能并没有想过这样一个问题——为什么在今天,即便是远离牧区的现代大城市,草原羊肉却一样能触手…

2、ChatGPT 在数据科学中的应用

ChatGPT 在数据科学中的应用 ChatGPT 可以成为数据科学家的绝佳工具。以下是我所了解到的关于它擅长的地方和不那么擅长的地方。 我从使用 ChatGPT 中学到了一个教训。它在数据科学中非常有帮助,但你必须仔细检查它输出的所有内容。它非常适合某些任务,并且可以非常快速准确…

【Iceberg学习二】Branch和Tag在Iceberg中的应用

Iceberg 表元数据保持一个快照日志,记录了对表所做的更改。快照在 Iceberg 中至关重要,因为它们是读者隔离和时间旅行查询的基础。为了控制元数据大小和存储成本,Iceberg 提供了快照生命周期管理程序,如 expire_snapshots&#xf…

瑞萨RA6M3开发实践指南-UART实践

1.背景说明 本文是参考瑞萨RA6M3开发实践指南文章教程,基于瑞萨HMI-Board BSP :1.1.1 版本 RT-Thread 5.0.1 版本操作步骤进行记录,整理成的文档。 1.1 本章内容 使用RT-Thread Studio创建开发板的程序,编写UART的程序,实现串口…

微软Windows生态是怎么打造成功的?

(1)2015年Windows10:兼容性 我不得不再次佩服一下微软,Windows10是2015年出品的,但是仍然能正常运行绝大多数的Windows95软件,不用做任何的适配修改,连重新编译都不用,运行照样正常。…

arcgis各种版本下载

arcgic 下载!!! ArcGIS是一款地理信息系统软件,由美国Esri公司开发。它提供了一系列完整的GIS功能,包括地图制作、空间数据管理、空间分析、空间信息整合、发布与共享等。ArcGIS是一个可扩展的GIS平台,提供…

机器学习数据预处理方法(数据重编码) ##2

文章目录 [TOC]基于Kaggle电信用户流失案例数据(可在官网进行下载)一、离散字段的数据重编码1.OrdinalEncoder自然数排序2.OneHotEncoder独热编码3.ColumnTransformer转化流水线 二、连续字段的特征变换1.标准化(Standardization)…

科研绘图-半小提琴图-

文章目录 前言1.软件安装-Origin 20222.绘制半小提琴图3.绘制径向条形图 前言 本文叙述记录的是一些科研绘图的实现方法,具体介绍从软件安装到实现图表绘制的详细过程。 1.软件安装-Origin 2022 Origin是一款具有丰富绘图功能的科研绘图软件,安装过程…