压力给到 Google，OpenAI 发布 GPT-4o 来了-编程知识

压力给到 Google，OpenAI 发布 GPT-4o 来了

北京时间5月14日凌晨1点，OpenAI 开启了今年的第一次直播，根据官方消息，这次旨在演示 ChatGPT 和 GPT-4 的升级内容。在早些时候 Sam Altman 在 X 上已经明确，「我们一直在努力开发一些我们认为人们会喜欢的新东西，对我来说感觉就像魔法一样」。这次发布会没有GPT-5，也没有传说中的 AI 搜索引擎，据爆料猜测，可能是同时具备视觉和听觉，并拥有强大推理能力的语音助手。谜底终于揭晓了。OpenAI 发布会主要推出了新的 GPT-4o，速度非常快，语音和视频回应都可以达到实时效果。打通了文本、语音、视频、图片，不需要相互转换，实时回应。听起来，GPT-4o 的语音也太自然了，对答如流，可以唱歌，回应还可以有幽默娇羞这些情绪。而且可以通过摄像头识别人类表情来做出实时回应。实时翻译回应语言等。含“Her”量很高。OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示，GPT-4o 将提供与 GPT-4 同等水平的智能，但在文本、图像以及语音处理方面均取得了进一步提升。“GPT-4o 可以综合利用语音、文本和视觉信息进行推理”，穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。GPT-4 是 OpenAI 此前的旗舰模型，可以处理由图像和文本混合而成的信息，并能完成诸如从图像中提取文字或描述图像内容等任务，GPT-4o 则在此基础上新增了语音处理能力。GPT-4o 标志着向更自然的人类与计算机交互的转变，它能够处理文本、音频和图像的组合输入，并产生相应的多样化输出。该模型对音频输入的响应速度极快，最短仅需232毫秒，平均响应时间为320毫秒，与人类对话的自然反应时间相仿。在处理英语和编程语言文本方面，GPT-4o 与 GPT-4 Turbo 的表现不相上下，而在非英语文本处理上则有显著提升。此外，GPT-4o 在 API 调用中不仅速度更快，成本也降低了50%，尤其在视觉和音频理解方面表现出色。