WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

news/2024/11/27 18:40:10/文章来源:https://www.cnblogs.com/Agora/p/18572881

 

 

图片

 

WebRTC 的早期创建者之一,Fixie.ai 联合创始人兼 CTO Justin Uberti 近日宣布加入 OpenAI,领导实时 AI (Real-Time AI)项目的开发。

 

Uberti 在 2011 年于 Google 参与创建并领导了 WebRTC 项目,并推动其成为 W3C 和 IETF 标准。

 

从最早参与 AOL Instant Messenger(AIM)开始,他见证了人与人之间沟通方式从文字聊天到音视频聊天的演变。现在,他正在积极推动人与 AI 的交互从文本框走向更自然的语音对话。

 

2023 年完成种子轮融资,Fixie.ai 初期专注于 AI Agent 搭建平台,后来转向 Uberti 更为擅长的实时 AI 领域,先后推出了虚拟角色语音对话网站 AI.TOWN、大模型速度评测平台 thefastest.ai,以及最近发布的开源语音模型 Ultravox(编者注:我们刚翻译了 Ultravox 提出的「人类级别语音 AI 路线图」)。

 

11 月 26 日 Uberti 宣布离开 Fixie.ai,加入 OpenAI。

 

我们找到了他今年 6 月以 Fixie.ai 联创身份参与播客 AI Inside 的节目,摘录了部分精彩对话,希望能帮助大家理解 Justin Uberti 对语音 AI 未来的思考。

 

 

语音交互的未来:对话 Justin Uberti

The Future of Voice Interaction (with Justin Uberti)

主播:Jason Howell、Jeff Jarvis嘉宾:Justin Uberti注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。

 

 

图片

 

从文本消息到语音 AI 交互

 

Jason Howell: Justin,欢迎!我从你在 Google 时期就关注你的工作,你领导了 WebRTC、Hangouts Video、Duo 和 Stadia 等项目,之后加入 Clubhouse,现在是 Fixie.ai 联合创始人兼 CTO。你丰富的 AI 经验是如何引领你创建 Fixie 和 AI Town 的?

 

Justin Uberti: 我一直对语音/视频对话和纯文本对话的差异很感兴趣。我早期参与了 AOL Instant Messenger,它能即时发送消息,这在当时很神奇。后来我们添加了音视频功能,因为它们承载的信息更丰富。现在,Instagram 和 TikTok 等应用都以视频为中心,因为它更具吸引力。Clubhouse 也证明了语音的魅力,它能传达文本无法表达的情感。我认为与 AI 的交互也应如此。 ChatGPT 很强大,但它像个新型命令行工具——输入文本,输出文本,很多人不知如何有效使用它。

 

Jason Howell: 的确如此。我刚接触 AI 时,虽然知道它潜力巨大,但不知从何入手,直到我强迫自己用它解决实际问题。

 

Justin Uberti: 与电脑对话对很多人仍是挑战。 处理重要事情时,人们更倾向于面对面或通过语音/视频沟通。 疫情期间,Google Meet 等工具的普及也印证了这一点。我们也应期待 AI 以更自然的方式与我们互动。语音是人类与生俱来的能力,它比文字更丰富。我们正处于 AI 能够理解和运用语音,并最终可能结合视觉进行多模态交互的时代。在 Fixie,我们正构建工具,让 AI 更自然地使用语音交互。AI Town 就是这样一个平台,你可以在那里通过语音与 AI 交流。

 

与 AI 对话:「我们正回归对话式社会」

 

Jason Howell: 关于语音 AI,我想到的是视频会议,你在 Hangouts Video 和 Duo 经验丰富。现在聊天应用中的 AI 就像视频会议中加入了智能体。随着语音 AI 越来越像人类,它能解析对话并成为助手,AI 语音成为我们在线对话一部分指日可待。或许这已发生,只是我未注意到。

 

Justin Uberti: 的确如此。语音部分的发展可能比助手部分更快。我们希望助手能代表我们行动,但目前的 AI 缺乏内部审查机制,难以判断正确行动。我们不放心让 AI 代表我们做不可逆转的事,例如发邮件或安排日程。但 AI 在对话中不易出错。大型语言模型擅长对话,对话也具有自我修复特性。

 

Jeff Jarvis: 我写过一本书 The Gutenberg Parenthesis,探讨印刷和文本的时代。在此之前,社会是对话式的,后来被文本主导。我认为我们正回归对话式社会。广播出现时,报纸坚称耳朵不是学习的好方法,必须通过眼睛。你认为人们是否需要重新学习对话?

 

Justin Uberti: 人们知道如何与亲友交谈。与电脑交谈可能需要适应,但不难。有人曾说人们不想与电脑交谈,我说你每天都在和电脑交谈数小时, 他说是用手指。我说,想象一下,另一端是 AI。 几年后,你会以同样方式看待与 AI 的对话,就像 Zoom 通话一样。 语音比文字传递的信息更多。

 

Jeff Jarvis: GPT-4o 和 Scarlett Johansson 事件后(编者注:OpenAI 的 GPT-4o 语音助手因使用与电影 Her 演员 Scarlett Johansson 声音相似的合成语音引发争议),关于拟人化,让人们相信他们在与人类交谈是你的目标吗?你想创建什么样的伦理框架?

 

Justin Uberti: 我们认为这波浪潮即将到来,但正确的实验方式是在低风险环境中进行,主要用于闲聊和娱乐,就像我们在 AI Town 所做的。我们创建了一个环境,你可以在那里与不同的 AI 角色交谈,它们有自己的生活,会发布社交媒体帖子,你可以给他们发短信,也可以语音通话。

 

Jeff Jarvis: 你是这个领域的先驱,有机会定义这项技术的正确和错误使用方式。你认为这项技术的坏处是什么?

 

Justin Uberti: 一些明显的坏处包括克隆声音用于欺诈。业内领先的语音提供商正努力防止这种情况,例如对语音加水印,征得同意,甚至要求用户录制视频并出示身份证明。 另一个挑战是,我们曾经相信出版的文本是真实的,但现在不是了。生成式 AI 也让我们无法相信照片一定是真实的。语音也面临同样的问题。

 

Jeff Jarvis: 印刷术刚出现时,人们也不信任它,因为它缺乏来源。后来我们建立了机构来验证真实性。我认为这里的机会是,你的 AI 来自哪里?你的声音来自哪里?它的来源、知识、行为以及是谁把它带给你的?这些都是重要的人类问题,也是机遇。

 

人类为何与虚拟角色对话?以及「幻觉」的妙用

 

Jason Howell: 你提到了 AI Town,它就像与虚拟或真实角色进行语音对话,你也可以通过文字与他们交流。它是一个低风险的体验环境。你在用户与网站上的角色互动时,看到了哪些让你感到惊讶的事情?

 

Justin Uberti: 我们最初创建了 HiSanta.ai,让人们与圣诞老人和精灵语音互动。我们本以为这只是一个测试,但需求远超预期。我们意识到,人们很喜欢与虚构角色,特别是那些耳熟能详的角色交谈。圣诞老人就是一个非常受欢迎的例子。我们还创造了一个「坏圣诞老人」,他也很受欢迎。我们希望人们能与 AI 角色进行有趣对话,并发现人们真正感兴趣的话题。事实证明,虚构角色是乐趣和有趣对话的丰富来源。

 

Jeff Jarvis: 创建一个虚构角色需要做些什么?你需要多深入的描述?

 

Justin Uberti:我们有一个优化过的流程,你甚至可以通过语音完成。系统会问你几个问题,帮助你构建角色的背景故事。大型语言模型非常擅长角色扮演。你告诉它你的身份、兴趣等等,它就会顺着你的描述进行下去。 我们通常认为大型语言模型的「幻觉」不好,但在这种虚构的 AI 角色场景中,「幻觉」反而是好事,因为它可以补充角色个性。

 

Jason Howell: 你提到了「幻觉」,我认为它是否负面取决于具体情况。如果追求事实,那么「幻觉」不好。但如果追求创造力,「幻觉」则可能很棒。

 

Jeff Jarvis: 《卫报》最近刊登了一篇文章,认为 AI 可以治愈人类的孤独感。你的目标有这么高尚吗?或者只是为了娱乐?

 

Justin Uberti: 这是一个相当崇高的目标。我们发现 AI Town 的一个用例是帮助英语作为第二语言的人练习口语。他们可以在一个没有评判的环境中与 AI 角色交谈,甚至可以请角色指出错误。

 

Jason Howell: 这很有意义。因为你不必担心被评判,你知道你交谈的对象是 AI。

 

Justin Uberti: 不被评判很重要。我认为这可以帮助人们建立自信。

 

低延迟和语气词的作用

 

Jason Howell: 在语音到语音模型的开发过程中,你们遇到了哪些当时没有预料到的挑战?

 

Justin Uberti: 挑战有很多。人耳对声音非常敏感,很容易分辨出声音的自然度。 AI 的响应速度至关重要。 在 Duo、Google Meet 等产品中,我们的延迟标准是 250 毫秒。WebRTC 协议本身的设计就考虑到了低延迟的需求。

 

Justin Uberti: 人类对话的节奏非常快。如果延迟过高,就会出现一方打断另一方,或者出现长时间的停顿,这会影响对话的流畅性。 超过 600 毫秒的延迟,听起来就会像是故意停顿的。所以,低延迟不仅仅是为了让对话更流畅,它实际上会影响对话的语义理解。 我们使用的 WebRTC 技术专注于低延迟,而且我认为整个 AI 生态系统都需要做出一些调整,来适应低延迟的语音交互。

 

Jeff Jarvis: 你们一定对人类对话的本质做了很多研究吧。有什么有趣的发现可以分享吗?

 

Justin Uberti: 像「嗯」、「呃」这样的语气词,通常被认为是不规范的、应该避免的。但实际上,它们是对话流程中的一部分,用来控制话语权的。

 

Jason Howell: 这很有意思。我做播客的时候经常用 AI 生成文字稿,「嗯」、「呃」这些语气词在文字稿和实际听到的效果完全不同。听的时候,它们可以连接上下文,让对话更流畅。但在文字里,它们会显得说话的人表达不清。

 

Jeff Jarvis: 我记得我第一次接受媒体采访的时候,制作人告诉我他们会对我的话进行大量的剪辑。他特意告诉我这一点,是因为他知道我会经常在一个句子中间重新开始,而他们会把这些重新开始的部分剪掉。他们还做过一期节目,把所有人的「嗯」和「呃」都去掉了,这样显得嘉宾更聪明。这就引出一个新闻伦理的问题:你是应该展现一个人的真实状态,还是出于某种「礼貌」,在文字稿里去掉这些语气词?我们如何通过一个人的说话方式来判断他的智力水平,这真是一个耐人寻味的问题。

 

Justin Uberti: 即兴讲话的时候,很难组织出非常严谨的段落。你在开口之前,并不会完全想好要说什么。你在报纸上看到的引语,通常都经过了润色,去掉了所有的错误和语气词。现在,对视频或音频内容进行同样的处理,也会产生类似的效果。但我认为,这样做会扭曲说话者的真实形象。

 

「我们正处于第二代语音 AI 发展的时代」

 

Jeff Jarvis: 你们会为 AI 添加这些人类语气词吗?比如英国人常用的 「sort of」,美国人常用的 「like」 或 「you know」?你们会在 AI 的输出中加入这些吗?

 

Justin Uberti: 这可以看作是语音技术从第一代到第二代的演进。 OpenAI 的 GPT-4o 语音模式可以被视为第二代。第一代是语音转文本,然后通过 LLM 处理,最后再文本转语音。在这个过程中,没有语气词,因为大型语言模型没有接受过这方面的训练。

 

Justin Uberti: 第二代模型则直接处理语音输入和输出,没有中间的文本转换步骤。在这种模式下,训练数据中包含了语气词等对话特征。这些特征最终会成为语音 AI 的一部分,因为要真正参与对话,就需要能够使用这些语气词。虽然 AI 不需要像人类一样停顿思考,但在某些情况下,例如检索信息时,AI 的响应速度可能会变慢。这时,使用语气词可以让对话更自然流畅,避免尴尬的停顿。

 

Jason Howell: 不过,我也能预见到很多人会因此批评 AI,认为它没必要使用语气词。我们人类需要,但 AI 不需要。但我认为,如果我们能克服这种观念,或许可以让对话感觉更自然。

 

Justin Uberti: 我们正处于第二代语音 AI 发展的时代, 我认为我们终将找到将人类对话的细微特征映射到 AI 交互中的方法。 这将会非常有趣。在不久的将来,你可能闭上眼睛,都无法分辨是在与人还是与 AI 交谈。我认为这将极大地促进像 ChatGPT 这样的技术的发展,并吸引更广泛的用户,因为你只需要与它交谈即可,非常便捷。

 

Jason Howell: 除了 AI Town,Fixie 目前还有哪些其他项目?

 

Justin Uberti: 我们最近开源了一个名为 Ultravox.ai 的语音 AI 模型,这是一个非常令人兴奋的项目。它基于 Meta 的 Llama 3,并进行了多模态扩展,能够理解语音并进行多模态交互,可以应用于像 AI Town 这样的场景,实现更快速、更自然的语音交互体验。我们希望通过开源这个模型,推动语音 AI 技术的快速发展,让更多人受益。此外,我们还创建了 thefastest.ai 排行榜,用于跟踪哪些大规模语言模型的速度最快,以便在低延迟的语音交互场景中使用。我们非常关注速度,因为低延迟是实现流畅自然语音交互的关键。

 

Jason Howell: 真是非常精彩的工作!Justin,感谢你今天与我们分享这些宝贵的见解。

 

原文:https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti

编译:傅丰元社区技术

顾问:付则宇

 

RTE 开发者社区持续关注 Voice AI 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。

 

加入我们:加微信 Creators2022,备注身份(你的公司或项目)和来意「加群」,备注完整者优先加群。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/842429.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win10 查看 特定网络 详细信息

使用以下命令查看某个网络的详细信息(替换<NetworkName>为实际的网络名称):TEXTnetsh wlan show profile name="<NetworkName>" key=clear

#20222309 2024-2025-1 《网络与系统攻防技术》实验五实验报告

1.实验内容 (1)从www.besti.edu.cn、baidu.com、sina.com.cn中选择一个DNS域名进行查询,获取如下信息: DNS注册人及联系方式 该域名对应IP地址 IP地址注册人及联系方式 IP地址所在国家、城市和具体地理位置 PS:使用whois、dig、nslookup、traceroute、以及各类在线和离线工…

web js 逆向小记, x-sourcemap特性

最近在搞事情 发现了一个神奇的现象,js能正确执行,但是当准备调试时,显示无法加载。 这个刷新的我的认知。如图: 这些方法都能正确执行,当你准备调试这个go方法时,显示无法加载: ================================= 搞了这么久的开发和逆向,这还是第一次遇到, 真牛逼…

Qt中字节与浮点数互转

1 十六进制字节数转浮点数 注意:使用此函数时传入的参数格式 例如QString str1 = "068400040002847D";字符串中间没有空格 float MainWindow::hexBytesToFloat(const QString &hexString) {QByteArray byteArray; // 创建一个QByteArray对象byteArrayfor (int i…

H5-4 图片路径详解

绝对路径 相对路径 网络路径 1、绝对路径:电脑的盘符储存与访问的具体地址D:\qianduan\qianduan1.jpg <img src="D:\qianduan\qianduan1.jpg" > 2、相对路径:两者相对的关系,两者在同一路径下可以访问子集关系: /父级关系:../同级关系:./ (可以省略) …

数字孪生在智慧消防中能够发挥什么作用?

近年来,数字孪生技术在智慧城市的多个领域得到广泛应用,而在智慧消防中,其独特的优势更是为消防工作注入了强劲动力。通过数字孪生技术,消防管理可以从传统的事后应对转变为全面的事前预防、实时监测和精准指挥,为城市安全带来革命性的提升。 实现消防设施全景监控 数字孪…

SpringBoot 如何解析配置文件中的list?

1.情景展示在配置文件当中,我们是可以使用list来设置参数对应的参数值的(也就是:参数值可以是list)。 YML文件如上图所示,在配置文件当中(如:Yml) ,我们是可以直接使用list。 其格式就是: 下划线➕空格,后面跟数组元素即可,一行就代表一个元素。 properties文件 如…

一个不错的软件版本命名规范!

之前写了一篇如何自动生成版本号的文章, 《让你的C程序,自动打印版本信息》 初衷是让自己的程序在运行时自动打印与版本相关的信息, 避免测试时因为版本信息不确定导致的一些功能对应不上去的问题, 当时留了一个坑,写一篇关于如何设计一个相对规范的版本号的文章, 现在把…

css 三角形

.threes{position: relative;}.threes::before {position: absolute;top: -6rpx;right: -50rpx;content: "";display: inline-block;width: 0;height: 0;border-left: 10rpx solid transparent; /* 调整这个值以改变三角形的大小 */border-bottom: 10rpx solid #1780…

直播预约 | 数据驱动:直击离散制造业数智化转型实践

11月28日,KaiwuDB 携手施耐德电气全球供应链中国及中工互联联合发起《数据驱动:直击离散制造业数智化转型实践》主题直播,欢迎观看。11月28日,KaiwuDB 携手施耐德电气全球供应链中国及中工互联联合发起《数据驱动:直击离散制造业数智化转型实践》主题直播,针对离散制造业…

隔行/列设置背景色

1. 概述编辑1.1 问题描述 通过根据条件显示不同背景色可以实现满足某条件时,改变行/列的背景色,那么如果表格的行与行之间需要显示为不同的颜色,该如何实现呢? 1.2 解决思路 通过在「条件属性>背景」中使用公式 row() 获取行号(公式 col() 获取列号),再通过计算实现。…

使用命令打开SQLServer配置管理器

当安装完sqlserver数据库后 发现找不到菜单sqlserver配置管理器时使用命令(window+r)打开cmd端,根据sqlserver版本号选择对应命令SQLServerManager15.msc(对于 SQLServer2019) SQLServerManager14.msc(对于 SQLServer2017) SQLServerManager13.msc(对于 SQLServer2016) SQLServ…