WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？-编程知识

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

news/2025/4/2 17:21:39/文章来源:https://www.cnblogs.com/Agora/p/18572881

WebRTC 的早期创建者之一，Fixie.ai 联合创始人兼 CTO Justin Uberti 近日宣布加入 OpenAI，领导实时 AI （Real-Time AI）项目的开发。

Uberti 在 2011 年于 Google 参与创建并领导了 WebRTC 项目，并推动其成为 W3C 和 IETF 标准。

从最早参与 AOL Instant Messenger（AIM）开始，他见证了人与人之间沟通方式从文字聊天到音视频聊天的演变。现在，他正在积极推动人与 AI 的交互从文本框走向更自然的语音对话。

2023 年完成种子轮融资，Fixie.ai 初期专注于 AI Agent 搭建平台，后来转向 Uberti 更为擅长的实时 AI 领域，先后推出了虚拟角色语音对话网站 AI.TOWN、大模型速度评测平台 thefastest.ai，以及最近发布的开源语音模型 Ultravox（编者注：我们刚翻译了 Ultravox 提出的「人类级别语音 AI 路线图」）。

11 月 26 日 Uberti 宣布离开 Fixie.ai，加入 OpenAI。

我们找到了他今年 6 月以 Fixie.ai 联创身份参与播客 AI Inside 的节目，摘录了部分精彩对话，希望能帮助大家理解 Justin Uberti 对语音 AI 未来的思考。

语音交互的未来：对话 Justin Uberti

The Future of Voice Interaction (with Justin Uberti)

主播：Jason Howell、Jeff Jarvis嘉宾：Justin Uberti注：为便于阅读，本文内容已作精简，并非完整对话。你可以访问原文收听完整版播客。

从文本消息到语音 AI 交互

Jason Howell: Justin，欢迎！我从你在 Google 时期就关注你的工作，你领导了 WebRTC、Hangouts Video、Duo 和 Stadia 等项目，之后加入 Clubhouse，现在是 Fixie.ai 联合创始人兼 CTO。你丰富的 AI 经验是如何引领你创建 Fixie 和 AI Town 的？

Justin Uberti: 我一直对语音/视频对话和纯文本对话的差异很感兴趣。我早期参与了 AOL Instant Messenger，它能即时发送消息，这在当时很神奇。后来我们添加了音视频功能，因为它们承载的信息更丰富。现在，Instagram 和 TikTok 等应用都以视频为中心，因为它更具吸引力。Clubhouse 也证明了语音的魅力，它能传达文本无法表达的情感。我认为与 AI 的交互也应如此。 ChatGPT 很强大，但它像个新型命令行工具——输入文本，输出文本，很多人不知如何有效使用它。

Jason Howell: 的确如此。我刚接触 AI 时，虽然知道它潜力巨大，但不知从何入手，直到我强迫自己用它解决实际问题。

Justin Uberti: 与电脑对话对很多人仍是挑战。 处理重要事情时，人们更倾向于面对面或通过语音/视频沟通。 疫情期间，Google Meet 等工具的普及也印证了这一点。我们也应期待 AI 以更自然的方式与我们互动。语音是人类与生俱来的能力，它比文字更丰富。我们正处于 AI 能够理解和运用语音，并最终可能结合视觉进行多模态交互的时代。在 Fixie，我们正构建工具，让 AI 更自然地使用语音交互。AI Town 就是这样一个平台，你可以在那里通过语音与 AI 交流。

与 AI 对话：「我们正回归对话式社会」

Jason Howell: 关于语音 AI，我想到的是视频会议，你在 Hangouts Video 和 Duo 经验丰富。现在聊天应用中的 AI 就像视频会议中加入了智能体。随着语音 AI 越来越像人类，它能解析对话并成为助手，AI 语音成为我们在线对话一部分指日可待。或许这已发生，只是我未注意到。

Justin Uberti: 的确如此。语音部分的发展可能比助手部分更快。我们希望助手能代表我们行动，但目前的 AI 缺乏内部审查机制，难以判断正确行动。我们不放心让 AI 代表我们做不可逆转的事，例如发邮件或安排日程。但 AI 在对话中不易出错。大型语言模型擅长对话，对话也具有自我修复特性。

Jeff Jarvis: 我写过一本书 The Gutenberg Parenthesis，探讨印刷和文本的时代。在此之前，社会是对话式的，后来被文本主导。我认为我们正回归对话式社会。广播出现时，报纸坚称耳朵不是学习的好方法，必须通过眼睛。你认为人们是否需要重新学习对话？

Justin Uberti: 人们知道如何与亲友交谈。与电脑交谈可能需要适应，但不难。有人曾说人们不想与电脑交谈，我说你每天都在和电脑交谈数小时，他说是用手指。我说，想象一下，另一端是 AI。 几年后，你会以同样方式看待与 AI 的对话，就像 Zoom 通话一样。 语音比文字传递的信息更多。

Jeff Jarvis: GPT-4o 和 Scarlett Johansson 事件后（编者注：OpenAI 的 GPT-4o 语音助手因使用与电影 Her 演员 Scarlett Johansson 声音相似的合成语音引发争议），关于拟人化，让人们相信他们在与人类交谈是你的目标吗？你想创建什么样的伦理框架？

Justin Uberti: 我们认为这波浪潮即将到来，但正确的实验方式是在低风险环境中进行，主要用于闲聊和娱乐，就像我们在 AI Town 所做的。我们创建了一个环境，你可以在那里与不同的 AI 角色交谈，它们有自己的生活，会发布社交媒体帖子，你可以给他们发短信，也可以语音通话。

Jeff Jarvis: 你是这个领域的先驱，有机会定义这项技术的正确和错误使用方式。你认为这项技术的坏处是什么？

Justin Uberti: 一些明显的坏处包括克隆声音用于欺诈。业内领先的语音提供商正努力防止这种情况，例如对语音加水印，征得同意，甚至要求用户录制视频并出示身份证明。 另一个挑战是，我们曾经相信出版的文本是真实的，但现在不是了。生成式 AI 也让我们无法相信照片一定是真实的。语音也面临同样的问题。

Jeff Jarvis: 印刷术刚出现时，人们也不信任它，因为它缺乏来源。后来我们建立了机构来验证真实性。我认为这里的机会是，你的 AI 来自哪里？你的声音来自哪里？它的来源、知识、行为以及是谁把它带给你的？这些都是重要的人类问题，也是机遇。

人类为何与虚拟角色对话？以及「幻觉」的妙用

Jason Howell: 你提到了 AI Town，它就像与虚拟或真实角色进行语音对话，你也可以通过文字与他们交流。它是一个低风险的体验环境。你在用户与网站上的角色互动时，看到了哪些让你感到惊讶的事情？

Justin Uberti: 我们最初创建了 HiSanta.ai，让人们与圣诞老人和精灵语音互动。我们本以为这只是一个测试，但需求远超预期。我们意识到，人们很喜欢与虚构角色，特别是那些耳熟能详的角色交谈。圣诞老人就是一个非常受欢迎的例子。我们还创造了一个「坏圣诞老人」，他也很受欢迎。我们希望人们能与 AI 角色进行有趣对话，并发现人们真正感兴趣的话题。事实证明，虚构角色是乐趣和有趣对话的丰富来源。

Jeff Jarvis: 创建一个虚构角色需要做些什么？你需要多深入的描述？

Justin Uberti:我们有一个优化过的流程，你甚至可以通过语音完成。系统会问你几个问题，帮助你构建角色的背景故事。大型语言模型非常擅长角色扮演。你告诉它你的身份、兴趣等等，它就会顺着你的描述进行下去。 我们通常认为大型语言模型的「幻觉」不好，但在这种虚构的 AI 角色场景中，「幻觉」反而是好事，因为它可以补充角色个性。

Jason Howell: 你提到了「幻觉」，我认为它是否负面取决于具体情况。如果追求事实，那么「幻觉」不好。但如果追求创造力，「幻觉」则可能很棒。

Jeff Jarvis: 《卫报》最近刊登了一篇文章，认为 AI 可以治愈人类的孤独感。你的目标有这么高尚吗？或者只是为了娱乐？

Justin Uberti: 这是一个相当崇高的目标。我们发现 AI Town 的一个用例是帮助英语作为第二语言的人练习口语。他们可以在一个没有评判的环境中与 AI 角色交谈，甚至可以请角色指出错误。

Jason Howell: 这很有意义。因为你不必担心被评判，你知道你交谈的对象是 AI。

Justin Uberti: 不被评判很重要。我认为这可以帮助人们建立自信。

低延迟和语气词的作用

Jason Howell: 在语音到语音模型的开发过程中，你们遇到了哪些当时没有预料到的挑战？

Justin Uberti: 挑战有很多。人耳对声音非常敏感，很容易分辨出声音的自然度。 AI 的响应速度至关重要。 在 Duo、Google Meet 等产品中，我们的延迟标准是 250 毫秒。WebRTC 协议本身的设计就考虑到了低延迟的需求。

Justin Uberti: 人类对话的节奏非常快。如果延迟过高，就会出现一方打断另一方，或者出现长时间的停顿，这会影响对话的流畅性。 超过 600 毫秒的延迟，听起来就会像是故意停顿的。所以，低延迟不仅仅是为了让对话更流畅，它实际上会影响对话的语义理解。 我们使用的 WebRTC 技术专注于低延迟，而且我认为整个 AI 生态系统都需要做出一些调整，来适应低延迟的语音交互。

Jeff Jarvis: 你们一定对人类对话的本质做了很多研究吧。有什么有趣的发现可以分享吗？

Justin Uberti: 像「嗯」、「呃」这样的语气词，通常被认为是不规范的、应该避免的。但实际上，它们是对话流程中的一部分，用来控制话语权的。

Jason Howell: 这很有意思。我做播客的时候经常用 AI 生成文字稿，「嗯」、「呃」这些语气词在文字稿和实际听到的效果完全不同。听的时候，它们可以连接上下文，让对话更流畅。但在文字里，它们会显得说话的人表达不清。

Jeff Jarvis: 我记得我第一次接受媒体采访的时候，制作人告诉我他们会对我的话进行大量的剪辑。他特意告诉我这一点，是因为他知道我会经常在一个句子中间重新开始，而他们会把这些重新开始的部分剪掉。他们还做过一期节目，把所有人的「嗯」和「呃」都去掉了，这样显得嘉宾更聪明。这就引出一个新闻伦理的问题：你是应该展现一个人的真实状态，还是出于某种「礼貌」，在文字稿里去掉这些语气词？我们如何通过一个人的说话方式来判断他的智力水平，这真是一个耐人寻味的问题。

Justin Uberti: 即兴讲话的时候，很难组织出非常严谨的段落。你在开口之前，并不会完全想好要说什么。你在报纸上看到的引语，通常都经过了润色，去掉了所有的错误和语气词。现在，对视频或音频内容进行同样的处理，也会产生类似的效果。但我认为，这样做会扭曲说话者的真实形象。

「我们正处于第二代语音 AI 发展的时代」

Jeff Jarvis: 你们会为 AI 添加这些人类语气词吗？比如英国人常用的「sort of」，美国人常用的「like」或「you know」？你们会在 AI 的输出中加入这些吗？

Justin Uberti: 这可以看作是语音技术从第一代到第二代的演进。 OpenAI 的 GPT-4o 语音模式可以被视为第二代。第一代是语音转文本，然后通过 LLM 处理，最后再文本转语音。在这个过程中，没有语气词，因为大型语言模型没有接受过这方面的训练。

Justin Uberti: 第二代模型则直接处理语音输入和输出，没有中间的文本转换步骤。在这种模式下，训练数据中包含了语气词等对话特征。这些特征最终会成为语音 AI 的一部分，因为要真正参与对话，就需要能够使用这些语气词。虽然 AI 不需要像人类一样停顿思考，但在某些情况下，例如检索信息时，AI 的响应速度可能会变慢。这时，使用语气词可以让对话更自然流畅，避免尴尬的停顿。

Jason Howell: 不过，我也能预见到很多人会因此批评 AI，认为它没必要使用语气词。我们人类需要，但 AI 不需要。但我认为，如果我们能克服这种观念，或许可以让对话感觉更自然。

Justin Uberti: 我们正处于第二代语音 AI 发展的时代， 我认为我们终将找到将人类对话的细微特征映射到 AI 交互中的方法。 这将会非常有趣。在不久的将来，你可能闭上眼睛，都无法分辨是在与人还是与 AI 交谈。我认为这将极大地促进像 ChatGPT 这样的技术的发展，并吸引更广泛的用户，因为你只需要与它交谈即可，非常便捷。

Jason Howell: 除了 AI Town，Fixie 目前还有哪些其他项目？

Justin Uberti: 我们最近开源了一个名为 Ultravox.ai 的语音 AI 模型，这是一个非常令人兴奋的项目。它基于 Meta 的 Llama 3，并进行了多模态扩展，能够理解语音并进行多模态交互，可以应用于像 AI Town 这样的场景，实现更快速、更自然的语音交互体验。我们希望通过开源这个模型，推动语音 AI 技术的快速发展，让更多人受益。此外，我们还创建了 thefastest.ai 排行榜，用于跟踪哪些大规模语言模型的速度最快，以便在低延迟的语音交互场景中使用。我们非常关注速度，因为低延迟是实现流畅自然语音交互的关键。

Jason Howell: 真是非常精彩的工作！Justin，感谢你今天与我们分享这些宝贵的见解。

原文：https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti

编译：傅丰元社区技术

顾问：付则宇

RTE 开发者社区持续关注 Voice AI 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣，也期待和更多开发者交流（每个月都有线上/线下 meetup，以及学习笔记分享），欢迎加入我们的社区微信群，一同探索人和 AI 的实时互动新范式。

加入我们：加微信 Creators2022，备注身份（你的公司或项目）和来意「加群」，备注完整者优先加群。