WebRTC 的早期创建者之一,Fixie.ai 联合创始人兼 CTO Justin Uberti 近日宣布加入 OpenAI,领导实时 AI (Real-Time AI)项目的开发。
Uberti 在 2011 年于 Google 参与创建并领导了 WebRTC 项目,并推动其成为 W3C 和 IETF 标准。
从最早参与 AOL Instant Messenger(AIM)开始,他见证了人与人之间沟通方式从文字聊天到音视频聊天的演变。现在,他正在积极推动人与 AI 的交互从文本框走向更自然的语音对话。
2023 年完成种子轮融资,Fixie.ai 初期专注于 AI Agent 搭建平台,后来转向 Uberti 更为擅长的实时 AI 领域,先后推出了虚拟角色语音对话网站 AI.TOWN、大模型速度评测平台 thefastest.ai,以及最近发布的开源语音模型 Ultravox(编者注:我们刚翻译了 Ultravox 提出的「人类级别语音 AI 路线图」)。
11 月 26 日 Uberti 宣布离开 Fixie.ai,加入 OpenAI。
我们找到了他今年 6 月以 Fixie.ai 联创身份参与播客 AI Inside 的节目,摘录了部分精彩对话,希望能帮助大家理解 Justin Uberti 对语音 AI 未来的思考。
语音交互的未来:对话 Justin Uberti
The Future of Voice Interaction (with Justin Uberti)
主播:Jason Howell、Jeff Jarvis嘉宾:Justin Uberti注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。
从文本消息到语音 AI 交互
Jason Howell: Justin,欢迎!我从你在 Google 时期就关注你的工作,你领导了 WebRTC、Hangouts Video、Duo 和 Stadia 等项目,之后加入 Clubhouse,现在是 Fixie.ai 联合创始人兼 CTO。你丰富的 AI 经验是如何引领你创建 Fixie 和 AI Town 的?
Justin Uberti: 我一直对语音/视频对话和纯文本对话的差异很感兴趣。我早期参与了 AOL Instant Messenger,它能即时发送消息,这在当时很神奇。后来我们添加了音视频功能,因为它们承载的信息更丰富。现在,Instagram 和 TikTok 等应用都以视频为中心,因为它更具吸引力。Clubhouse 也证明了语音的魅力,它能传达文本无法表达的情感。我认为与 AI 的交互也应如此。 ChatGPT 很强大,但它像个新型命令行工具——输入文本,输出文本,很多人不知如何有效使用它。
Jason Howell: 的确如此。我刚接触 AI 时,虽然知道它潜力巨大,但不知从何入手,直到我强迫自己用它解决实际问题。
Justin Uberti: 与电脑对话对很多人仍是挑战。 处理重要事情时,人们更倾向于面对面或通过语音/视频沟通。 疫情期间,Google Meet 等工具的普及也印证了这一点。我们也应期待 AI 以更自然的方式与我们互动。语音是人类与生俱来的能力,它比文字更丰富。我们正处于 AI 能够理解和运用语音,并最终可能结合视觉进行多模态交互的时代。在 Fixie,我们正构建工具,让 AI 更自然地使用语音交互。AI Town 就是这样一个平台,你可以在那里通过语音与 AI 交流。
与 AI 对话:「我们正回归对话式社会」
Jason Howell: 关于语音 AI,我想到的是视频会议,你在 Hangouts Video 和 Duo 经验丰富。现在聊天应用中的 AI 就像视频会议中加入了智能体。随着语音 AI 越来越像人类,它能解析对话并成为助手,AI 语音成为我们在线对话一部分指日可待。或许这已发生,只是我未注意到。
Justin Uberti: 的确如此。语音部分的发展可能比助手部分更快。我们希望助手能代表我们行动,但目前的 AI 缺乏内部审查机制,难以判断正确行动。我们不放心让 AI 代表我们做不可逆转的事,例如发邮件或安排日程。但 AI 在对话中不易出错。大型语言模型擅长对话,对话也具有自我修复特性。
Jeff Jarvis: 我写过一本书 The Gutenberg Parenthesis,探讨印刷和文本的时代。在此之前,社会是对话式的,后来被文本主导。我认为我们正回归对话式社会。广播出现时,报纸坚称耳朵不是学习的好方法,必须通过眼睛。你认为人们是否需要重新学习对话?
Justin Uberti: 人们知道如何与亲友交谈。与电脑交谈可能需要适应,但不难。有人曾说人们不想与电脑交谈,我说你每天都在和电脑交谈数小时, 他说是用手指。我说,想象一下,另一端是 AI。 几年后,你会以同样方式看待与 AI 的对话,就像 Zoom 通话一样。 语音比文字传递的信息更多。
Jeff Jarvis: GPT-4o 和 Scarlett Johansson 事件后(编者注:OpenAI 的 GPT-4o 语音助手因使用与电影 Her 演员 Scarlett Johansson 声音相似的合成语音引发争议),关于拟人化,让人们相信他们在与人类交谈是你的目标吗?你想创建什么样的伦理框架?
Justin Uberti: 我们认为这波浪潮即将到来,但正确的实验方式是在低风险环境中进行,主要用于闲聊和娱乐,就像我们在 AI Town 所做的。我们创建了一个环境,你可以在那里与不同的 AI 角色交谈,它们有自己的生活,会发布社交媒体帖子,你可以给他们发短信,也可以语音通话。
Jeff Jarvis: 你是这个领域的先驱,有机会定义这项技术的正确和错误使用方式。你认为这项技术的坏处是什么?
Justin Uberti: 一些明显的坏处包括克隆声音用于欺诈。业内领先的语音提供商正努力防止这种情况,例如对语音加水印,征得同意,甚至要求用户录制视频并出示身份证明。 另一个挑战是,我们曾经相信出版的文本是真实的,但现在不是了。生成式 AI 也让我们无法相信照片一定是真实的。语音也面临同样的问题。
Jeff Jarvis: 印刷术刚出现时,人们也不信任它,因为它缺乏来源。后来我们建立了机构来验证真实性。我认为这里的机会是,你的 AI 来自哪里?你的声音来自哪里?它的来源、知识、行为以及是谁把它带给你的?这些都是重要的人类问题,也是机遇。
人类为何与虚拟角色对话?以及「幻觉」的妙用
Jason Howell: 你提到了 AI Town,它就像与虚拟或真实角色进行语音对话,你也可以通过文字与他们交流。它是一个低风险的体验环境。你在用户与网站上的角色互动时,看到了哪些让你感到惊讶的事情?
Justin Uberti: 我们最初创建了 HiSanta.ai,让人们与圣诞老人和精灵语音互动。我们本以为这只是一个测试,但需求远超预期。我们意识到,人们很喜欢与虚构角色,特别是那些耳熟能详的角色交谈。圣诞老人就是一个非常受欢迎的例子。我们还创造了一个「坏圣诞老人」,他也很受欢迎。我们希望人们能与 AI 角色进行有趣对话,并发现人们真正感兴趣的话题。事实证明,虚构角色是乐趣和有趣对话的丰富来源。
Jeff Jarvis: 创建一个虚构角色需要做些什么?你需要多深入的描述?
Justin Uberti:我们有一个优化过的流程,你甚至可以通过语音完成。系统会问你几个问题,帮助你构建角色的背景故事。大型语言模型非常擅长角色扮演。你告诉它你的身份、兴趣等等,它就会顺着你的描述进行下去。 我们通常认为大型语言模型的「幻觉」不好,但在这种虚构的 AI 角色场景中,「幻觉」反而是好事,因为它可以补充角色个性。
Jason Howell: 你提到了「幻觉」,我认为它是否负面取决于具体情况。如果追求事实,那么「幻觉」不好。但如果追求创造力,「幻觉」则可能很棒。
Jeff Jarvis: 《卫报》最近刊登了一篇文章,认为 AI 可以治愈人类的孤独感。你的目标有这么高尚吗?或者只是为了娱乐?
Justin Uberti: 这是一个相当崇高的目标。我们发现 AI Town 的一个用例是帮助英语作为第二语言的人练习口语。他们可以在一个没有评判的环境中与 AI 角色交谈,甚至可以请角色指出错误。
Jason Howell: 这很有意义。因为你不必担心被评判,你知道你交谈的对象是 AI。
Justin Uberti: 不被评判很重要。我认为这可以帮助人们建立自信。
低延迟和语气词的作用
Jason Howell: 在语音到语音模型的开发过程中,你们遇到了哪些当时没有预料到的挑战?
Justin Uberti: 挑战有很多。人耳对声音非常敏感,很容易分辨出声音的自然度。 AI 的响应速度至关重要。 在 Duo、Google Meet 等产品中,我们的延迟标准是 250 毫秒。WebRTC 协议本身的设计就考虑到了低延迟的需求。
Justin Uberti: 人类对话的节奏非常快。如果延迟过高,就会出现一方打断另一方,或者出现长时间的停顿,这会影响对话的流畅性。 超过 600 毫秒的延迟,听起来就会像是故意停顿的。所以,低延迟不仅仅是为了让对话更流畅,它实际上会影响对话的语义理解。 我们使用的 WebRTC 技术专注于低延迟,而且我认为整个 AI 生态系统都需要做出一些调整,来适应低延迟的语音交互。
Jeff Jarvis: 你们一定对人类对话的本质做了很多研究吧。有什么有趣的发现可以分享吗?
Justin Uberti: 像「嗯」、「呃」这样的语气词,通常被认为是不规范的、应该避免的。但实际上,它们是对话流程中的一部分,用来控制话语权的。
Jason Howell: 这很有意思。我做播客的时候经常用 AI 生成文字稿,「嗯」、「呃」这些语气词在文字稿和实际听到的效果完全不同。听的时候,它们可以连接上下文,让对话更流畅。但在文字里,它们会显得说话的人表达不清。
Jeff Jarvis: 我记得我第一次接受媒体采访的时候,制作人告诉我他们会对我的话进行大量的剪辑。他特意告诉我这一点,是因为他知道我会经常在一个句子中间重新开始,而他们会把这些重新开始的部分剪掉。他们还做过一期节目,把所有人的「嗯」和「呃」都去掉了,这样显得嘉宾更聪明。这就引出一个新闻伦理的问题:你是应该展现一个人的真实状态,还是出于某种「礼貌」,在文字稿里去掉这些语气词?我们如何通过一个人的说话方式来判断他的智力水平,这真是一个耐人寻味的问题。
Justin Uberti: 即兴讲话的时候,很难组织出非常严谨的段落。你在开口之前,并不会完全想好要说什么。你在报纸上看到的引语,通常都经过了润色,去掉了所有的错误和语气词。现在,对视频或音频内容进行同样的处理,也会产生类似的效果。但我认为,这样做会扭曲说话者的真实形象。
「我们正处于第二代语音 AI 发展的时代」
Jeff Jarvis: 你们会为 AI 添加这些人类语气词吗?比如英国人常用的 「sort of」,美国人常用的 「like」 或 「you know」?你们会在 AI 的输出中加入这些吗?
Justin Uberti: 这可以看作是语音技术从第一代到第二代的演进。 OpenAI 的 GPT-4o 语音模式可以被视为第二代。第一代是语音转文本,然后通过 LLM 处理,最后再文本转语音。在这个过程中,没有语气词,因为大型语言模型没有接受过这方面的训练。
Justin Uberti: 第二代模型则直接处理语音输入和输出,没有中间的文本转换步骤。在这种模式下,训练数据中包含了语气词等对话特征。这些特征最终会成为语音 AI 的一部分,因为要真正参与对话,就需要能够使用这些语气词。虽然 AI 不需要像人类一样停顿思考,但在某些情况下,例如检索信息时,AI 的响应速度可能会变慢。这时,使用语气词可以让对话更自然流畅,避免尴尬的停顿。
Jason Howell: 不过,我也能预见到很多人会因此批评 AI,认为它没必要使用语气词。我们人类需要,但 AI 不需要。但我认为,如果我们能克服这种观念,或许可以让对话感觉更自然。
Justin Uberti: 我们正处于第二代语音 AI 发展的时代, 我认为我们终将找到将人类对话的细微特征映射到 AI 交互中的方法。 这将会非常有趣。在不久的将来,你可能闭上眼睛,都无法分辨是在与人还是与 AI 交谈。我认为这将极大地促进像 ChatGPT 这样的技术的发展,并吸引更广泛的用户,因为你只需要与它交谈即可,非常便捷。
Jason Howell: 除了 AI Town,Fixie 目前还有哪些其他项目?
Justin Uberti: 我们最近开源了一个名为 Ultravox.ai 的语音 AI 模型,这是一个非常令人兴奋的项目。它基于 Meta 的 Llama 3,并进行了多模态扩展,能够理解语音并进行多模态交互,可以应用于像 AI Town 这样的场景,实现更快速、更自然的语音交互体验。我们希望通过开源这个模型,推动语音 AI 技术的快速发展,让更多人受益。此外,我们还创建了 thefastest.ai 排行榜,用于跟踪哪些大规模语言模型的速度最快,以便在低延迟的语音交互场景中使用。我们非常关注速度,因为低延迟是实现流畅自然语音交互的关键。
Jason Howell: 真是非常精彩的工作!Justin,感谢你今天与我们分享这些宝贵的见解。
原文:https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti
编译:傅丰元社区技术
顾问:付则宇
RTE 开发者社区持续关注 Voice AI 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份(你的公司或项目)和来意「加群」,备注完整者优先加群。