新火种AI|GPT-5前瞻!GPT-5将具备哪些新能力?

作者:小岩

编辑:彩云

Sam Altman在整个AI领域,乃至整个科技领域都被看作是极具影响力的存在,而2023年OpenAI无限反转的宫斗事件更是让Sam Altman刷足了存在感,他甚至被《时代》杂志评为“2023年度CEO”。

也正因此, Sam Altman的一条推文,瞬间就可以成为轰动整个AI行业的信号,特别是当这条推文还与万众期待的“GPT-5”有关的时候。

2023年平安夜,Sam Altman在社交平台大胆公布了2024年的雄心壮志。他所发表的关键词不仅涵盖了2024年OpenAI的整体规划,更契合了用户的迫切需求。这其中包括:

AGI(请耐心等待)

GPT-5 

更好的语音模式  

更高的费率限制  

更好的GPT  

更好的推理  

对工作/行为程度的控制

视频  

个性化  

更好的浏览  

“使用OpenAi登录”  

开放源代码

Sam Altman透露,OpenAI计划在接下来的一年内实现多个令人瞩目的里程碑。其中所涉及到的内容,不仅仅一次简单的技术更新,更是一场至关重要的AI变革。当然,最受关注的,还是GPT-5。

AI领域的开源与闭源之争:类似于Android与IOS之争。

对于AI界来说,大家除了关心 GPT-5能否在技术壁垒上有所突破,更关心一个重点:GPT-5能否实现开源?

大模型的开源和闭源之争一直是行业内争论的焦点,这种争论,与移动互联网时代的Android与IOS之争有异曲同工之妙。有意思的是,各个AI大厂对于开源还是闭源的选择也不尽相同。

目前拔得头筹的OpenAI的GPT-4和百度的文心一言都坚持闭源,Meta选择了开源的道路,相继面向“学术研究用途”开源了LLaMA和LLaMA-2模型。百川智能则兼具开源和闭源,在学术领域选择了开源,使用7B和13B两种尺寸的大模型;商业探索上将53B闭源,以保护商业利益和技术的竞争优势。

GPT的闭源,为OpenAI带来了可观的收入。据The Information报道,OpenAI CEO Sam Altman对员工表示,公司正以每年13亿美元(约合人民币94.93亿元)的速度产生收入,平均每月收入超过1亿美元,相较于去年全年2800万美元增长超过450倍,达4542%。这个数据也比3个月前预期的年收入高30 %。这也让2023年成为OpenAI公司成立8年来,收入增长最快的一年。而这些,恰恰是GPT-4闭源所带来的。

关键词:GPT-5能实现开源吗?

那么,GPT-5能实现开源吗?未必。

对于商业模式,OpenAI曾在官网中明确指出“打算继续免费提供ChatGPT”,但也会选择从付费的高级服务的用户和企业中获得收入。而且,虽然OpenAI嘴上说着“不指望在近期内盈利”,但考虑到开发和提供大模型的高成本,生存问题仍然是其不得不面对的挑战。

此外,尽管OpenAI实现了快速增长,但背后的行业成本却不容忽略。根据公开信息显示,2022 年,OpenAI开发GPT-4,仅训练成本支出约5.4亿美元。2023年4月,OpenAI每天为ChatGPT支付的运营成本约694.4万美元(其中主要是电费) ,年化运营成本约为2.5亿美元,综合年化成本可能超过13亿美元。毫无疑问,OpenAI依旧处于亏损阶段。

所以,倘若没有商业化的维持,OpenAI恐怕很快会迎来破产。更重要的是,已经通过GPT-4闭源尝到甜头,获得大量收入的OpenAI,显然没有充足的理由将GPT-5完全开源,这无异于自毁壁垒,在大模型赛道的竞逐中丧失领先优势。从这个层面来说。GPT-5实现开源的概率不大。

即便Sam Altman在推文中将“开源”标注成了关键词,但更多的也只是在迎合行业的呼声,我们还不能将其解读为“企业2024年的发展目标”。

不过,“部分开源”的可能性并非没有。GPT-5完全开源的可能性虽然比较小,但是为了GPT相关生态建设,对与GPT相关的工具集提供开源的可能性却很高。或许,OpenAI会通过为较少部分提供开源的方式,为开发者的开发,调试,分享提供便利。

未来的GPT-5,究竟会具备哪些新能力?

近日,艾伦人工智能研究所发布了Unified-IO 2,它的发布极具意义,因为它可以帮助我们更好的预判GPT-5的能力。

为什么这么说呢?Unified与ChatGPT之间存在着怎样的关系?

事实上,早在2022年6月,艾伦人工智能研究所就推出了第一代Unified-IO,它是首批能够处理图像和语言的多模态模型之一。大约在同一时间,OpenAI正在内部测试GPT-4,并在2023年3月正式发布。所以,Unified-IO可以看作是对于未来大规模AI模型的前瞻。换句话说,因为Unified-IO 2的出现,我们可以大致预判一点:OpenAI可能正在内部测试GPT-5,并很有可能在几个月后发布。

艾伦人工智能研究所推出的Unified-IO 2是第一个可以处理和生成文本,图像,音频,视频和动作序列的模型。这个新的高级人工智能模型使用几十亿个数据点进行训练,虽然模型大小只有7B,却展现出迄今为止最广泛的多模态能力。它的训练数据包括:10亿个图像-文本对,1 万亿个文本标记,1.8亿个视频剪辑,1.3亿张带文本的图像,300万个3D资产和100万个机器人代理运动序列。研究团队将总共120多个数据集组合成一个600 TB的包,涵盖220个视觉,语言,听觉和动作任务。Unified-IO 2采用编码器-解码器架构,并进行了一些更改,以稳定训练并有效利用多模态信号。

模型可以回答问题,根据指令撰写文本、以及分析文本内容;可以识别图像内容,提供图像描述,执行图像处理任务,并根据文本描述创建新图像;可以根据描述或说明生成音乐或声音,以及分析视频并回答有关视频的问题。此外,通过使用机器人数据进行训练,Unified-IO 2还可以为机器人系统生成动作,例如将指令转换为机器人的动作序列。由于多模态训练,它还可以处理不同的模态,例如,在图像上标记某个音轨使用的乐器等。

总体而言,Unified-IO 2在超过35个基准测试中表现良好,包括图像生成和理解,自然语言理解,视频和音频理解以及机器人操作。在大多数任务中,它能够比肩专用模型,甚至更胜一筹。在图像任务的GRIT基准测试中,Unified-IO 2获得了目前的最高分。通过这些,我们也可以更好的窥见未来GPT-5的模样。

对于AI发展而言,科技生态与商业化是缺一不可的核心要素。技术和应用的发展需要商业化提供必要的支持和保障;而商业化的成功也离不开生态环境的建设。两者之间必须相辅相成,有机结合。希望在未来发布的GPT-5中,OpenAI可以起到先导作用,率先实现生态与商业化之间的平衡。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/413094.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

01 SpringMVC的快速理解

1.1 如图所示,SpringMVC负责表述层(控制层Controller)实现简化! SpringMVC的作用主要覆盖的是表述层,例如: 请求映射、数据输入、视图界面、请求分发、表单回显、会话控制、过滤拦截、异步交互、文件上传…

CSS 网页布局

文章目录 布局元素页眉标签导航栏侧边栏网页主体文章页脚测试网页布局元素 布局元素 在html4.01等之前的版本中html并没有专用的布局元素,而是统统使用div进行布局 页眉标签 header标签一般用来嵌套网页的标题,搜索栏,导航栏等 导航栏 n…

redis原理(四)redis命令

目录 一、字符串命令: 二、列表命令: 三、集合命令: 四、散列命令: 五、有序集合命令: 六、redis发布与订阅命令: 七、事务命令 八、其他命令 1、排序:SORT 2、键的过期时间&#xff…

使用muduo库编写网络server端

muduo库源码编译安装和环境搭建 C muduo网络库知识分享01 - Linux平台下muduo网络库源码编译安装-CSDN博客 #include<iostream> #include<muduo/net/TcpServer.h> #include<muduo/net/EventLoop.h> using namespace std; using namespace muduo; using name…

STC8H8K蓝牙智能巡线小车——1. 环境搭建(基于RTX51操作系统)

1. 基本介绍 开发环境准备&#xff1a;Keil uVision5 烧录软件&#xff1a;STC-ISP&#xff08;V6.92A&#xff09; 芯片&#xff1a; STC8H8K64U-45I-LQFP64 芯片引脚&#xff1a; 2.创建项目 打开Keil&#xff0c;点击【Project】&#xff0c;选择【new uVersion proje…

中北数据结构2023真题

雪雾: 设计一个算法&#xff0c;将一个节点值为自然数的单列表拆分成两个单列表&#xff0c;原表中值为偶数的节点保留&#xff0c;而值为奇数的节点&#xff0c;按他们在原表的相对次序组成一个新的单列表 #include <stdio.h> #include <stdlib.h>typedef struct…

【计算机图形学】习题课:Viewing

【计算机图形学】Viewing 部分问题与解答 CS100433 Computer Graphics Assignment 21 Proof the composed transformations defined in global coordinate frame is equivalent to the composed transformations defined in local coordinate frame but in different composing…

Python+Selenium+Unittest 之selenium13--WebDriver操作方法3-鼠标操作2

这篇说下ActionChains里常用的几种鼠标操作的方法。 ActionChains常用的鼠标操作方法 click()鼠标左键单击double_click()鼠标左键双击context_click()鼠标右键单击move_to_element()鼠标移动到某个元素上&#xff08;鼠标悬浮操作&#xff09;click_and_hold()点击鼠标左键&am…

工作流管理框架airflow-安装部署教程

1 概述 Airflow是一个以编程方式编写&#xff0c;用于管理和调度工作流的平台。可以帮助你定义复杂的工作流程,然后在集群上执行和监控这些工作流。 Airflow计划程序在遵循指定的依赖项&#xff0c;同时在一组工作线程上执行任务。丰富的命令实用程序使在DAG上执行复杂的调度…

LabVIEW精确测量产品中按键力和行程

项目背景 传统的按键测试方法涉及手工操作&#xff0c;导致不一致和效率低下。在汽车行业中&#xff0c;带有实体按键的控制面板非常常见&#xff0c;确保一致的按键质量至关重要。制造商经常在这些组件的大规模、准确测试中遇到困难。显然&#xff0c;需要一个更自动化、精确…

2.【Linux】(进程的状态||深入理解fork||底层剖析||task_struct||进程优先级||并行和并发||详解环境变量)

一.进程 1.进程调度 Linux把所有进程通过双向链表的方式连接起来组成任务队列&#xff0c;操作系统和cpu通过选择一个task_struct执行其代码来调度进程。 2.进程的状态 1.运行态&#xff1a;pcb结构体在运行或在运行队列中排队。 2.阻塞态&#xff1a;等待非cpu资源就绪&am…

算法练习-A+B/财务管理/实现四舍五入/牛牛的菱形字符(题目链接+题解打卡)

难度参考 难度&#xff1a;简单 分类&#xff1a;熟悉OJ与IDE的操作 难度与分类由我所参与的培训课程提供&#xff0c;但需要注意的是&#xff0c;难度与分类仅供参考。以下内容均为个人笔记&#xff0c;旨在督促自己认真学习。 题目 A B1. A B - AcWing题库财务管理1004:财…