文章目录
- 各种考试
- 长度限制
- 图像输入功能
- 开发者API
- 定价
- 评估框架
- 1 - 基准测试表现
- 2 - 文本和图像提示
- 3 - 系统消息功能
- 4 - 真实性、稳定性、可靠性
2023年3月15日
今天凌晨呢
万众瞩目的大型多模态模型
GPT-4正式发布
我们先总结一下发布会的重点
首先
这个模型能够接受图像和文本的输入
输出文本的内容
虽然在很多的现实场景中呢
它的能力还不如人类
但是在各种专业
和学术的基准测试中呢
已经能做到人类的表现
各种考试
它能强大到什么程度呢
比如你输入一张手绘的草图
GPT-4就能生成最终设计的网页代码
而且
它以高分通过了各种标准化的考试
像SAT 700分
GRE几乎满分
逻辑能力
上
完全吊打GPT-3.5
GPT-4在高级的推理能力
上
也完全超越ChatGPT
在律师模拟的考试
中呢
ChatGPT背后
大家都知道是基于的GPT-3.5
它的排名呢在倒数的10%左右
而GPT-4考到了前10%左右
这就相当于一下子
从一个班的差等生
蹦到了班里的优等生
这是绝对的飞跃
长度限制
这一次呢
GPT-4将长度上的限制
提升到了32K tokens
什么意思呢
就是能够处理超过25,000个单词的文本
并且还可以使用长格式的内容
OpenAI还贴心的发布了一个
GPT-4的开发者视频
手把手的教你如何去生成代码
检查错误信息
以及报税等等
在这个视频中呢
OpenAI的联合创始人兼总裁
Greg Brockman
说了一句话
他并不完美,但是你也一样
这听上去是不是有点扎心呢
是吧
图像输入功能
目前GPT-4的图像输入功能
还没有开放
ChatGPT plus订阅者
可以直接获得有使用上限的
GPT-4的使用权
四个小时之内呢
最多只能发布100条信息
开发者API
开发者呢也可以申请GPT-4的API
进入到候补名单
等待审核通过之后
才能够使用
定价
GPT-4的定价
是每1K的prompt tokens是0.03美元
每1K的completion tokens是0.06美元
默认的速率限制
呢
是每分钟40K的tokens
和每分钟200个请求
GPT-4的上下文长度是8,192个tokens
就是8K的tokens
但是OpenAI还提供了一个32K的版本
可以对32,768个上下文
大概约50页的文本进行有限的访问
这个版本的价格呢
是每1,000个prompt tokens
是0.06美元
每1,000个completion tokens
是0.12美元
评估框架
此外呢OpenAI还开源了一个
用来自动评估AI模型性能的框架
OpenAI Evals
这样呢开发者就可以更好的
去评估模型的优缺点
从而指导团队进一步的去改进模型
好了
以上就是这次GPT-4发布会的一些重点
接下来我们来详细说明
GPT-4的一些特点
1 - 基准测试表现
第一点就是
GPT-4的基准测试表现
远远优于现有的大模型
如果你只是随意的聊天呢
你可能不太能够感受出
GPT-3.5与GPT-4之间的区别
但是当任务的复杂性
达到一定的阈值
之后呢
GPT-4将明显比GPT-3.5
更可靠更有创意
而且能够处理更细微的指令
所以OpenAI特意在各种基准测试中
对两种模型做了对比
包括一些最初为人类设计的模拟考试
可以看到在很多的测试中
GPT-4都明显高于GPT-3.5
在为机器学习模型
设计的传统基准测试
中
GPT-4也大大优于现有的大语言模型
以及大多数最先进的SOTA模型
由于许多现有的这个机器模型啊
这个machine learning的基准测试
都是用英语编写的
所以这次OpenAI特意将MMLU
的基准测试
翻译成了各种语言
在测试的26种语言的24种中
GPT-4都优于GPT-3.5
以及其他的大型语言模型
包括像拉脱维亚语
威尔士语
斯瓦希里语
等等非常小众的语言
2 - 文本和图像提示
第二点
GPT-4可以接受文本和图像的提示
虽然现在图像的输入还没有公开
但是OpenAI在官网展示了
7个视觉输入的相关例子
第一个示例呢
是输入了一张由3张图片拼成的图
用户输入这张图有什么奇怪的地方
请一张一张的描述
GPT-4呢就会分别
对这每张图中的内容进行描述
并且指出这幅图
是把一个大的而且过时的VGA接口
插入了一个小的
但是现代化的智能手机的充电端口
这样做是非常荒谬的
其实这个是网络上的一张梗图啊
但是GPT-4也能够很好的去描述它
第二个示例是用户问
格鲁吉亚和西亚
平均每天肉类消费总量是多少
让GPT-4在给答案之前呢
提供一个循序渐进的推理过程
GPT-4也能按照要求做出回答
第三个示例呢
是用户直接给了一张考试题的照片
而且这个试题呢是法语的
让GPT-4一步步的思考作答
而且GPT-4也答对了
第四个例子是
用户问这张图片有什么不寻常之处
GPT-4直接就回答出
这是一名男子正在
行驶中的出租车车顶上
在熨衣板上熨烫衣服
这也是一个不合常理的地方
它可以很好的识别出来
第五个例子是给了几张论文的照片
让GPT-4呢做一些相应的总结
而且GPT-4也可以对用户指定的
图片内容进行展开的解释
第6个例子
是给了GPT-4一张网络上的梗图
搞笑图片
GPT-4回答说这其实呢是一个笑话
结合了太空中的地球照片
和鸡块这两个完全不相关的东西
最后一个示例呢
是让GPT-4去解释这张漫画
GPT-4认为它讽刺了
统计学习和神经网络
在提高模型性能方面的差异
也是对这个图像上的内容
识别的比较准确
3 - 系统消息功能
第三点呢就是在可操作性方面
OpenAI这次提供了一个
叫系统消息 (system messages) 的功能
允许API的用户
来定义AI的风格和任务
同时也展示了三个示例
第一个示例
是让这个GPT-4
作为一个总是以苏格拉底风格
来回应学生问题的老师
不是直接给学生去求解
某个线性方程组的答案
而是通过将那个问题
拆分成更简单的部分
引导学生来做独立思考
第二个示例
是让GPT-4变成莎士比亚的海盗
就是完全忠于自己的个性啊
可以看到它在多轮对话的过程中呢
始终能够保持着自己的人设
第三个示例呢
是让GPT-4成为一名AI的助手
但是总是以这个JSON的方式来
编写这个响应输出啊
然后GPT-4的回答的风格呢
就变成了如下这样
回答内容都是JSON的这个格式风格
4 - 真实性、稳定性、可靠性
第4点
在真实性 稳定性 可靠性等其他方面
基于ChatGPT使用的经验教训
OpenAI团队对GPT-4进行了长达
6个月的对抗性测试和调整
据说达到了有史以来最好的效果
虽然GPT-4仍然存在一定的局限性
包括事实性的幻觉
和推理错误
但是相对于以前的模型
已经大幅度的减少
在OpenAI内部的对抗性
和真实性的这个评估中呢
GPT-4的得分都要比GPT-3.5高40%
在模型的风险方面
OpenAI聘请了50多位来自于
AI对齐风险
网络安全
生物风险
信任和安全
以及国际安全等领域的专家
来对模型进行对抗性的测试
GPT-4在RLHF训练期间
还加入了一个额外的安全奖励信号
就是通过训练模型
拒绝对此类内容的请求
来减少有害的输出
这种方式将模型
去响应禁止内容请求的可能性
降低了82%
并且GPT-4根据OpenAI的政策
响应敏感请求的频率还提高了29%
总的来说
虽然还有很多的不足
也还有很多的工作要做
但是GPT-4
应该算是一个里程碑式的发布
我们也期待
GPT-4能够成为一个有价值的工具
通过为许多的应用来提供动力
从而改善人们的生活