压力给到 Google,OpenAI 发布 GPT-4o 来了

北京时间5月14日凌晨1点,OpenAI 开启了今年的第一次直播,根据官方消息,这次旨在演示 ChatGPT 和 GPT-4 的升级内容。在早些时候 Sam Altman 在 X 上已经明确,「我们一直在努力开发一些我们认为人们会喜欢的新东西,对我来说感觉就像魔法一样」。这次发布会没有GPT-5,也没有传说中的 AI 搜索引擎,据爆料猜测,可能是同时具备视觉和听觉,并拥有强大推理能力的语音助手。谜底终于揭晓了。OpenAI 发布会主要推出了新的 GPT-4o,速度非常快,语音和视频回应都可以达到实时效果。打通了文本、语音、视频、图片,不需要相互转换,实时回应。听起来,GPT-4o 的语音也太自然了,对答如流,可以唱歌,回应还可以有幽默娇羞这些情绪。而且可以通过摄像头识别人类表情来做出实时回应。实时翻译回应语言等。含“Her”量很高。a9f241c69ee4807c652c4ad8460b6e01.jpegOpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示,GPT-4o 将提供与 GPT-4 同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升。“GPT-4o 可以综合利用语音、文本和视觉信息进行推理”,穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。GPT-4 是 OpenAI 此前的旗舰模型,可以处理由图像和文本混合而成的信息,并能完成诸如从图像中提取文字或描述图像内容等任务,GPT-4o 则在此基础上新增了语音处理能力。GPT-4o 标志着向更自然的人类与计算机交互的转变,它能够处理文本、音频和图像的组合输入,并产生相应的多样化输出。该模型对音频输入的响应速度极快,最短仅需232毫秒,平均响应时间为320毫秒,与人类对话的自然反应时间相仿。在处理英语和编程语言文本方面,GPT-4o 与 GPT-4 Turbo 的表现不相上下,而在非英语文本处理上则有显著提升。此外,GPT-4o 在 API 调用中不仅速度更快,成本也降低了50%,尤其在视觉和音频理解方面表现出色。

模型特性

相较于之前的模型,GPT-4o在语音交互方面实现了显著进步。以往的 ChatGPT 对话模式存在较高的延迟,而 GPT-4o 通过一个统一的模型直接处理所有输入和输出,无需通过多个模型转换,从而减少了信息丢失,提升了交互的直接性和效率。

语言优化

GPT-4o 在语言标记效率上取得了显著进步,以下是20种语言的标记压缩情况示例:

  • 古吉拉特语的标记数量减少了4.4倍。
  • 泰卢固语和泰米尔语的标记分别减少了3.5倍和3.3倍。
  • 马拉地语和北印度语的标记分别减少了2.9倍。
  • 乌尔都语、阿拉伯语、波斯语、俄语、韩语和越南语的标记减少幅度在1.5倍到2.5倍之间。
  • 中文、日语、土耳其语、意大利语、德语、西班牙语、葡萄牙语、法语和英语的标记减少幅度在1.1倍到1.4倍之间。


安全性与限制

GPT-4o 在设计中融入了跨模态安全性,通过过滤训练数据和后训练行为调整等技术来增强模型的安全性。此外,GPT-4o 经过了广泛的安全评估和红队测试,以识别和减轻新模态可能引入的风险。

何时开放?

GPT-4o 将在接下来的几周时间里陆续开放。就在明天,2024年Google I/O 即将举行,Google 会发布什么呢?敬请期待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/698605.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

26版SPSS操作教程(高级教程第二十章)

目录 前言 粉丝及官方意见说明 第二十章一些学习笔记 第二十章一些操作方法 神经网络与支持向量机 人工神经网络(artificial neural network,ANN) 假设数据 具体操作 结果解释 对案例的进一步分析 结果解释 ​编辑 尝试将模型复…

如何让机器理解人类语言?Embedding技术详解

如何让机器理解人类语言?Embedding技术详解 文章目录 如何让机器理解人类语言?Embedding技术详解介绍什么是词嵌入?什么是句子嵌入?句子嵌入模型实现句子嵌入的方法值得尝试的句子嵌入模型 句子嵌入库实践Step 1Step 2Step 3 Doc2…

【其他学习参考文档记录】

交叉编译学习参考 nodejs 交叉编译-cliff工作室

ComfyUI相见恨晚的提示词插件,简直堪称神器!

之前我曾介绍过一款专为SD设计的中文提示词插件——prompt-all-in-one,想必使用过的小伙伴们都已经感受到了它的便捷与实用吧。 不过,那款插件是基于webUI版本的,而现在,越来越多的朋友开始探索ComfyUI这一新选择。 假如在Comfy…

【源码+文档+调试讲解】微信小程序家政项目小程序

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了微信小程序家政项目小程序的开发全过程。通过分析微信小程序家政项目小程序管理的不足,创建了一个计算机管理微信小程序家政项目小程序的方案。文章介…

OpenAI GPT-4o - 介绍

本文翻译整理自: Hello GPT-4o https://openai.com/index/hello-gpt-4o/ 文章目录 一、关于 GPT-4o二、模型能力三、能力探索四、模型评估1、文本评价2、音频 ASR 性能3、音频翻译性能4、M3Exam 零样本结果5、视觉理解评估6、语言 tokenization 六、模型安全性和局限…

Vitis HLS 学习笔记--理解串流Stream(1)

目录 1. 介绍 2. 示例 2.1 代码解析 2.2 串流数据类型 2.3 综合报告 3. 总结 1. 介绍 在Vitis HLS中,hls::stream是一个用于在C/C中进行高级合成的关键数据结构。它类似于C标准库中的std::stream,但是专门设计用于硬件描述语言(如Veri…

答辩PPT设计太耗时?aippt工具,AI一站式服务

这些网站我愿称之为制作答辩PPT的神! 很多快要毕业的同学在做答辩PPT的时候总是感觉毫无思路,一窍不通。但这并不是你们的错,对于平时没接触过相关方面,第一次搞答辩PPT的人来说,这是很正常的一件事。一个好的答辩PPT…

用vue实现json模版编辑器

用vue实现json模版编辑器 控件区表单区配置项区 (还没写)业务逻辑 设想业务逻辑是拖拽控件生成表单 动手做了一个简单的demo 业务的原型图设想如下所示 其中使用的技术主要是vuedragger 控件区 做控件区的时候首先我们要有确定的配置项 其实也很简单 …

yarn 安装以及报错处理

前一种报错是由于没有安装yarn导致的,使用以下命令即可安装: npm install -g yarn 如果成功安装,将显示Yarn的版本号。 yarn --version 第二种报错是因为系统上的执行策略限制导致的。执行策略是一种安全功能,用于控制在计算机…

问题—前端调用接口url多加一个/,本地可以调通,测试环境报错302,分开调两个接口

问题背景 接口url前面多加一个/ ,npm run serve 起项目,本地调用正常 npm run build 打包到测试环境,接口出现问题,分开调用接口,且报302错误 问题原因: 本地开发环境和测试环境的URL处理方式不同 本地使…

putty如何让正在执行的命令后台运行,而后可退出putty

putty如何让正在执行的命令后台运行后可退出putty Putty常用于远程登录Linux服务器,其相比于远程可视化桌面控制VNC具有一些特定的优点,比如更快的传输文件和更便捷的登录操作方式。但是有些时候我们可能需要用到Linux集群去计算一些大型的结构文件&…