（教程）gpt-4o如何使用，怎么体验？gpt-4o和gpt-4-turbo的区别-编程知识

（教程）gpt-4o如何使用，怎么体验？gpt-4o和gpt-4-turbo的区别

今天OpenAI发布了gpt-4o，我体验之后，gpt-4o简直逆天了。中文能力也挺别强。速度比现在的gpt4还要快。

早在 5 月 11 日，Sam 就在推文中表示：OpenAI 并没有推出 GPT-5，或搜索引擎，但团队一直在努力研发一些认为大家会喜欢的新东西（感觉就像是魔法一样）！

添加图片注释，不超过 140 字（可选）

现在来看应该说的就是 GPT-4o 了，它在免费和付费账户中均可使用（应该是目前最强的免费模型了）。除此之外，ChatGPT 页面也进行了许多细节方面的优化，并且推出了桌面应用，进一步提升用户体验。

一、什么是GPT-4o

GPT-4o（“o”代表“omni”）是 OpenAI 在实现更自然人机交互方面的重要进展（Hello GPT-4o[1]）。它能够接受文本、音频和图像的任意组合输入，并生成相应的输出，包括文本、音频和图像。该模型在音频输入的响应时间非常短，最短可达 232 毫秒，平均为 320 毫秒，接近人类对话的反应时间。在文本（英语）和代码方面，GPT-4o 的表现与 GPT-4 Turbo 相当，但在处理非英语语言文本方面有显著提升，同时在 API 中的速度更快且成本降低 50%。此外，GPT-4o 在视觉和音频理解方面表现尤为出色。

在 GPT-4o 之前，使用语音模式与 ChatGPT 对话的平均延迟时间分别为 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒。实现这一功能的流水线涉及三个独立模型（音频 → 文本 → 音频）：一个用于将音频转录为文本，GPT-3.5 或 GPT-4 处理文本并生成文本，然后第三个模型将文本转换回音频。这种方式导致 GPT-4 无法直接感知语调、多位说话者或背景噪音，也无法生成笑声、歌唱或表达情感。

为了克服这些局限，OpenAI 训练了一个新的端到端跨文本、视觉和音频的单一模型（GPT-4o），这意味着所有输入和输出都由同一个神经网络处理。由于这是 OpenAI 第一个结合所有这些模态的模型，因此其功能和局限性仍在探索中。

它将首先在 ChatGPT 和 API 中作为文本和视觉模型提供（ChatGPT 将继续通过现有的语音模式功能支持语音）。具体来说，GPT-4o 将在 ChatGPT 免费版、Plus 版和团队版（企业版即将推出）以及 Chat Completions API、Assistants API 和 Batch API 中提供。