2023年人工智能的最新发展(下)

目录

1.MidJourney:

2.GAN:

3.Diffusion Model

4.DALLE、Disco Diffusion

5.Stable Diffusion 


1.MidJourney:

2023年3月,一组中国小情侣的照片在网络上迅速走红。这组照片看起来普通,就像一对小情侣的合影,但实际上这两个人并不存在,完全是由AI绘制出来的,对于不常关注科技的普通人来说,这可能有些震惊。

提到这组图片的背后,是一家名为MidJourney的科技公司,一家主张AI绘图不仅是现实世界的复刻,而是人类想象力延伸的公司。MidJourney是由专注于激光雷达和火星任务的科学家大卫·霍尔茨创立,公司规模小但营收预计超过2亿美元。他们在2023年3月推出了第五代AI绘图模型。更早之前,2022年9月,一位39岁的游戏设计师艾伦使用MidJourney完成的绘画作品“太空歌剧院”在美国科罗纳州博览会的艺术比赛中获得头奖,击败了众多人类艺术家的作品。这一事件在业界引起轰动,也引发了艺术家们的愤怒和对艺术未来的担忧。MidJourney在2022年底到2023年上半年间进行了四次重大更新。值得注意的是,MidJourney V5版本和OpenAI的GPT-4大模型几乎同时在2023年3月发布。同时,Adobe也在这个月推出了他们的图像AI工具Adobe Firefly。英伟达的CEO黄仁勋在3月的英伟达发布会上强调,“iPhone moment AI has started”。

在持续的新闻轰炸下,曾被质疑为泡沫的AI革命以百花齐放的方式强势回应了所有质疑。关于AI绘图模型,需要明确的一点是,它与生成语言的大模型(如GPT)完全不同。比起让AI学会听懂并说话,让AI理解并学会绘画实际上是更加困难的任务。毕竟,相比于人人都会说话并至少掌握一门语言,会画画的人要少得多。事实上,AI绘画长期以来一直是一个小众领域,因为其研究成本极高。在2012年,华裔人工智能科学家吴恩达和美国计算机科学家杰夫迪恩(均为Google的顶尖专家)进行了一项实验。他们利用深度自编码器这种深度神经网络技术,基于从平台收集的1000万张猫脸照片,在三天时间内生成了一张模糊的猫脸图片。尽管这只猫看起来像是刚从洗衣机里出来,但这个实验耗资100万美元,使用了1000台电脑和16000个CPU。这项实验显然成本高昂,对于资金不充裕的家庭来说,是不可承受的。然而,这个看似没有市场机会的实验实际上成为了AI绘画技术的起点。

2.GAN:

到了2014年,加拿大蒙特利尔大学的AI科学家伊恩古德费洛提出了生成对抗网络(GAN)。基于这项技术,AI首次能够创作出令人惊艳的图片,并能够改变图片的风格。比如,网上那些根据你的照片预测你老了的样子,或者将照片变成漫画风格的应用,都是基于GAN技术。

GAN由两个深度神经网络模型组成:一个是生成器,负责不断作图并交付给判别器;另一个是判别器,它像一个挑剔的客户,不断要求修改。这个过程可能会持续上万次,直到生成器无法继续改进,判别器也满足于结果,最终输出一张最终的图片。

尽管GAN技术使AI能够创作出相当不错的图片,但它存在几个核心问题,阻碍了它成为AI图像创作革命的主角。首先,它的运行非常耗费资源,容易导致个人电脑运行缓慢或卡顿。其次,GAN无法理解画面的细节,也就无法做出局部修改。此外,生成的图片分辨率也并不高。例如,人们在短视频平台上尝试将自己的照片转换成动画风格时,可能一开始觉得新奇,但很快就会发现转换后的图像并不真实,也无法传达原照片的意境。

到了2015年,图像识别技术取得了重大进步,其中最具代表性的应用是人脸识别技术。这项技术因为能够应用于智能门禁、闸机等场景而在国内外广受欢迎。图像识别技术的成熟意味着我们能够从图像中提取出精确的信息,并将其转换为文字。当时,一些科学家开始思考是否可以将这种技术反向应用,即输入文字描述信息给图像识别模型,让AI生成图像。尽管这些最初的生成图像只有32×32像素,质量并不高,但这标志着AI图像生成技术的新起点。

3.Diffusion Model

到了2016年,一种新型的AI模型开始流行,这大大提升了AI绘图的质量,并最终使得AI绘图技术走出实验室,进入大众视野。这种模型被称为扩散模型(Diffusion Model),其灵感来源于非平衡热力学,是物理学和计算机科学的结合产物。扩散模型的工作原理类似于墨水滴入水中的扩散过程,其中墨水代表指令中的创意。尽管墨水在水中的扩散过程是随机的,但可以通过手指或笔尖来引导墨水在水中形成特定的图形。AI在这个过程中扮演了引导者的角色,确保墨水沿着预期的路径扩散,并在这个过程中根据对用户意图的理解和对绘画的知识,不断补充信息,最终形成一幅完整的画面。如果用户对生成的图像不满意,可以继续引导扩散过程,直到得到满意的结果。这种过程被网友们称为“咒语修炼”。由于扩散过程本身始终是随机的,AI绘图有时会带来意想不到的惊喜。随着扩散模型技术的发展,AI绘图领域的可能性不断扩大。

4.DALLE、Disco Diffusion

在2021年1月,OpenAI发布了一款名为“DALLE”的AI绘画产品,灵感来源于著名画家萨尔瓦多·达利和动画角色WALL-E。这个产品结合了GPT-3的能力,允许用户通过文字提示来生成图片。尽管生成的画面还不够完美,但AI绘图技术迎来了质的飞跃。同年10月底,一款名为“Disco Diffusion”的开源文本生成图像工具诞生,为AI绘图产品的多样化发展奠定了基础。到了2022年,事情发展进一步加速。4月,OpenAI发布了DALLE 2,展示了前所未有的理解和创造能力,产生了大量超现实主义的画作。而在大家研究绘图技巧时,2023年9月,OpenAI在GPT-4的基础上推出了DALLE.3。这项技术在短短两年内取得了显著的进步。

5.Stable Diffusion 

2022年8月,位于伦敦的视觉艺术科技公司Stability AI发布并开源了“Stable Diffusion”,这是目前可用性最高的开源模型,可以免费使用并部署在个人电脑上。到了2023年,AI绘画彻底成为AI生成内容的重要领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/340962.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go后端开发 -- 条件、循环语句 defer语句

Go后端开发 – 条件、循环语句 && defer语句 文章目录 Go后端开发 -- 条件、循环语句 && defer语句一、条件语句1.if ... else 语句2.switch语句3.select语句 二、循环语句1.for循环 三、defer语句1.defer语句的作用2.defer和return的先后顺序3.recover错误拦截…

212. 单词搜索 II(字典树的另一种类型)

大致思路是: 根据words列表建立字典树,其中注意在单词末尾,将原来的isEnd变量换成存储这个单词的变量,方便存储到ans中,另外,字典树的字节点由原来的Trie数组变为hashmap,方便检索字母。 建立…

C++ n皇后问题 || 深度优先搜索模版题

n− 皇后问题是指将 n 个皇后放在 nn 的国际象棋棋盘上,使得皇后不能相互攻击到,即任意两个皇后都不能处于同一行、同一列或同一斜线上。 现在给定整数 n ,请你输出所有的满足条件的棋子摆法。 输入格式 共一行,包含整数 n 。 …

动态规划day03

343. 整数拆分(第二次做还是没弄明白) 力扣题目链接(opens new window) 给定一个正整数 n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。 示例 1: 输入: 2输出: 1解释: 2 1 1, 1 1 1。 示例 2: 输入: …

黑马程序员JavaWeb开发|案例:tlias智能学习辅助系统(4)员工管理|修改员工、配置文件

指路(1)(2)(3)👇 黑马程序员JavaWeb开发|案例:tlias智能学习辅助系统(1)准备工作、部门管理_tlias智能学习辅助系统的需求分析-CSDN博客https://blog.csdn.n…

AI人工智能的发展趋势及未来展望

人工智能(Artificial Intelligence,简称AI)作为一门拥有悠久历史但最近才得到广泛关注的领域,正在以惊人的速度推动着科技进步和社会变革。近年来,随着计算能力、数据规模和算法研究的不断突破,人工智能已经…

java通过HttpClient方式实现https请求的工具类(绕过证书验证)

目录 一、引入依赖包二、HttpClient方式实现的https请求工具类三、测试类 一、引入依赖包 引入相关依赖包 <!--lombok用于简化实体类开发--><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><option…

MySQL批量插入技巧

关于MySQL批量插入的一些问题 MySQL一直是我们互联网行业比较常用的数据&#xff0c;当我们使用半ORM框架进行MySQL大批量插入操作时&#xff0c;你是否考虑过这些问题: 进行大数据量插入时&#xff0c;是否需要进行分批次插入&#xff0c;一次插入多少合适&#xff1f;有什么…

泡泡玛特台北旗舰店打造“乐园式体验”,打造西门町新地标

近日&#xff0c;泡泡玛特台北旗舰店盛大开业&#xff0c;矗立于西门町核心商圈的壮观五层独栋建筑吸引大量游客驻足。作为年度收官之作&#xff0c;该店总面积700多平方米&#xff0c;售卖超过千款潮玩。各楼层经过精心规划&#xff0c;除了各大IP最新款潮玩产品及衍生品之外&…

[蓝桥杯学习] 树状树组

lowbit操作 数字二进制表达中的最低位1以及后面所有的0&#xff0c;函数写法如下&#xff1a; int lowbit(int x){return x&-x;} 例如说&#xff0c;lowbit(0101100100) (100) lowbit(4) 4 lowbit(6) 2 时间复杂度o(1) 树状数组 应用 进行单点修改和区间查询…

第 378 场 LeetCode 周赛题解

A 检查按位或是否存在尾随零 枚举&#xff1a;枚举两个元素的组合即可 class Solution { public:bool hasTrailingZeros(vector<int> &nums) {int n nums.size();for (int i 0; i < n; i)for (int j 0; j < i; j)if ((nums[i] | nums[j]) % 2 0)return tru…

平面光波导_三层均匀平面光波导_射线分析法

平面光波导_三层均匀平面光波导_射线分析法 三层均匀平面光波导&#xff1a; 折射率沿 x x x 方向有变化&#xff0c;沿 y y y、 z z z 方向没有变化三层&#xff1a;芯区( n 1 n_1 n1​) > > > 衬底( n 2 n_2 n2​) ≥ \geq ≥ 包层( n 3 n_3 n3​)包层通常为空…