Project Astra 愿景之一:「系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。」
近期,Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格·韦恩 (Greg Wayne)。
格雷格·韦恩的研究工作为 DeepMind 的诸多突破性成果做出了重要贡献,涵盖强化学习、神经网络架构搜索以及大型语言模型等领域。
本次访谈深入探讨了 Project Astra,这是一个探索未来通用人工智能助手能力的研究原型,旨在理解用户周围的世界。主持人与格雷格·韦恩共同探讨了该研究原型背后的灵感、当前的优势与局限性,以及未来的潜在应用场景。
我们精选了访谈的部分精彩内容,希望能给大家带来新的启发,enjoy~
Project Astra :与 Greg Wayne 一起探索通用 AI 助理
Project Astra:Exploring a Universal AI Assistant with Greg Wayne
主持人: Hannah Fry受访者: Greg Wayne,Google DeepMind 研究主管
注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。
建立在 Gemini 基础上,但又超越 Gemini 的 AI 助理
Hannah Fry: 欢迎回到 Google DeepMind The Podcast 。今天我们要介绍的是 Project Astra,一个正在突破通用 AI 助理界限的研究原型。Greg,欢迎回来。
Greg Wayne: 你好,Hannah。
Hannah Fry: 我们从头开始吧。什么是 Project Astra?
Greg Wayne: Project Astra 是一个旨在构建一个 拥有眼睛、耳朵和声音, 能够与你共处的 AI 助手的项目。它能伴随你到任何地方, 通过智能眼镜、手机或电脑, 观察你正在做的事情,并与你进行交流。
Hannah Fry: 就像一个坐在你肩膀上的小助手?
Greg Wayne: 是的,就像一只栖息在你肩膀上的鹦鹉,与你一起观察世界,并和你谈论它。
Hannah Fry: 只是比你更聪明。
Greg Wayne: 在某些方面是的。
Hannah Fry: 这与 Google Assistant 或 Gemini 有所不同。
Greg Wayne: 是的。旧版本的 Google Assistant 更像是一个用于控制你家或信息的系统。而 Project Astra 则能与你一起谈论世界。它建立在 Gemini 的基础上,Gemini 是其背后的智能核心,它既与 Gemini 协同工作,又可能 帮助塑造 Gemini,同时也受到 Gemini 的塑造。
Hannah Fry: Project Astra 仍然是一个研究原型,为什么现在要 demo 它?
Greg Wayne: 让公众参与这个过程是好事。人们应该了解实验室里正在开发什么,并提供反馈。这是一个共同创造的过程,它不仅仅是在实验室里进行的,也是与世界各地的用户合作进行的。
Hannah Fry: 所以有人在现实世界中尝试使用它了吗?
Greg Wayne: 是的,我们有一些值得信赖的测试者,他们是一些早期的采用者。
Hannah Fry: 人们用它来做什么?
Greg Wayne: 比如获取时尚建议。Project Astra 就像一个伙伴,可以问它「什么和这个搭配?我怎样才能看起来更时尚?」
「Astra 可以在后台运行,并在它认为合适的时候提醒你」
Hannah Fry: 但硬件方面呢?目前,它在你的智能手机上。最终会出现在眼镜上吗?
Greg Wayne: 是的, 智能眼镜上的体验是最亲密的, 也最令人惊叹的,因为你感觉自己得到了增强。但软件堆栈实际上与设备无关,它可以运行在手机、电脑或 VR 头显上。
Hannah Fry: 对于视力受损或失明的人来说,它也有潜在的好处。
Greg Wayne: 是的,这是我痴迷的事情。这项技术可以在很大程度上复制一个在世界上帮助他们的同伴。例如,你可以想象帮助那些难以识别情绪和面部表情的人。也可以用来训练自己,你可以练习理解面部表情,并让 Astra 给你反馈。当然还有 记忆力 ,当摄像头开启时,它会记住过去 10 分钟的图像和谈论的内容。我们也很兴奋的一点是 主动性,它会自己判断你有什么需要,然后在你没有指示的情况下提供帮助。 比如,它可以提醒你一些事情,「别忘了,你回家路上需要买这个。」
Hannah Fry: 所以你不需要主动打开它和它对话,它可以在后台运行, 并在它认为合适的时候提醒你。
Greg Wayne: 是的。比如你快要回家的时候,它会说,「别忘了你需要买橙汁,因为你今天早上喝完了。」
Astra 依然面临「鸡尾酒会问题」挑战
Hannah Fry: 你会经常需要纠正它吗?你会注意到一些小故障吗?
Greg Wayne: 是的。有时候它会说它看不见一些它明明能看见的东西。你会用某种方式影响它,说「你能看见」,它就会说,「是的,我能看见。」
Hannah Fry: 所以它容易被鼓励?
Greg Wayne: 是的。
Hannah Fry: 在哪些环境它会表现得不太好?
Greg Wayne: 在嘈杂的条件下,它很难区分不同的声音。 它会将其误认为是用户的语音。嘈杂的环境会使它感到困惑。
Hannah Fry: 当你说区分不同的声音时,是指波形本身吗?
Greg Wayne: 是的。这有一个老问题,叫鸡尾酒会问题,技术上被称为源分离。指的是将一个声音源与另一个声音源区分开来。
Hannah Fry: 我猜,这在某种程度上使 Project Astra 如此困难,但也赋予了它潜力。
Greg Wayne: 是的,它应该能够在更多背景信息下解决歧义。
Hannah Fry: 不同的语言呢?目前它只支持英语吗?
Greg Wayne: 它实际上是多语种的,精通大约 20 种语言,你甚至可以在同一对话中切换语言。
Hannah Fry: 这太神奇了。
Greg Wayne: 我对这个系统在语言学习方面的应用感到非常兴奋。比如,四处走走,然后问,「那是什么?」,让它像我在学校里那样教你。
「主动记忆」灵感来自动物
Hannah Fry: 如果你正在和它互动,那么它的底层到底发生了什么?有哪些不同的组件?
Greg Wayne: 首先,有一个应用程序,收集视频和音频。它连接到一个服务器,服务器上有视觉编码器和音频编码器。还有专门的音频系统,负责了解你何时停止说话。这些都与大型语言模型 Gemini 相邻。它们将来自这些感觉编码器的信息直接发送到 Gemini,然后 Gemini 做出回应。 还有一个叫做「智能体」的东西,它会获取视频和音频,调用搜索工具, 比如 Google Lens、Google Search 或 Google Maps,还有一个记忆系统。
Hannah Fry: 我尝试想象, 我们只是用它来识别一本书,就有计算机视觉、语音识别、大型语言模型、Google Search 在底层支持、还有你做出决策的代理层。 所有这些的回答几乎没有延迟。这真是非常复杂的事情。
Greg Wayne: 是的,非常复杂。很少有人能理解输入模型的数据。而且,为什么它会产生这样的结果,可能没有人真正理解。
Hannah Fry: 让我们来谈谈它的历史。在播客的第一季,你是第一集的嘉宾,当时你从动物王国中汲取灵感来研究智能。特别是,你向我们介绍了西丛鸦,以此来激发 AI 更复杂的记忆能力。我放一段当时的录音。
播放 Greg Wayne 之前的录音 :…… 拥有一个可以访问的庞大数据库,存储你做过和看过的事情,然后用它来指导你之后的有目标的行为——我饿了。我想现在吃一些虫子。我应该去哪里找?这是我们想要复制的东西……
Hannah Fry: 你们做到了吗?
Greg Wayne: (笑)你好,Project Astra。你能帮我找些虫子吗?
Hannah Fry: 这听起来很像你的橙汁例子,不是吗?
Greg Wayne: 这是一个主动记忆的例子。
视频是「原始通用人工智能」的连接纤维
Hannah Fry: 你的神经科学背景在多大程度上启发了 Project Astra?
Greg Wayne: 我们利用神经科学来了解我们何时做得足够好,可以思考 「记忆的真正含义是什么?」 . 另一方面,如果我们想要一些与人类兼容的东西,也许会朝着一种 更像我们,而不是直接的文本界面的智能形式发展。 例如,我对 Michael Tomasello 的工作很感兴趣,他认为,交流的基本前提是两个人在同一个地方,从而共同推断目标,然后进行协作。这正是我们在这项技术中建模的内容。
Hannah Fry: 这个项目的第一个火花来自哪里?它是什么时候开始的?
Greg Wayne: DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战,让我们思考什么是「原始通用人工智能」。我更倾向于智能的社会性。我认为我们可以将「原始通用人工智能」与一个有益的助手联系起来,其主要目标是为与之互动的人类带来好处。当我试图让它最终变得非常自然时,我逐渐开始认为 视频是系统最终的连接纤维(connecting tissue)。
Hannah Fry: 在这个过程中,有没有出现过大的突破?
Greg Wayne: 当时的一个主要发现是,我们意识到了「提示」的概念。 告诉系统它可以通过用户的摄像头看到世界,这给了它一种对事物的自我视角。 以前我们不太了解是否可以很好地提示多模态系统。
Hannah Fry: 这太有趣了。当提出要创建一个「原始通用人工智能」时,有人怀疑或不相信这种东西是可能实现的吗?
Greg Wayne: 是的。事后看来,AI 的发展很奇怪,因为它发展得太快了, 人们对理所当然的看法变化得太快了。 当时的人们对「系统是否真的能够理解世界」感到怀疑。我们甚至没有关于不同性能水平系统所需的数据量的基本知识。
Hannah Fry: 那么,有没有哪个时候你认为它不可能实现?
Greg Wayne: 没有。 我一直觉得它有可能实现。 有段时间我可能想放弃。我认为在 Gemini 出现之前有一段缓慢的时期,那段日子很艰难。但我从未动摇过它一定能实现的事实。
Hannah Fry: 我听说,在测试阶段,你们有一个 Project Astra 房间。那里发生了什么?
Greg Wayne: 我们在特别的房间里玩各种各样的游戏。那里有一个完整的酒吧,所以 Astra 可以帮你调酒。还有一个美术馆,你可以在屏幕上显示不同的画作,然后问一些关于艺术的问题。
Astra 系统的低延迟实现
Hannah Fry: 让我们更深入地了解 Astra 的幕后工作。延迟是一个非常关键的事情。你们是如何改进它的?
Greg Wayne: 我们改进了实际的视频流,通过应用程序更快地发送信息。我们总是处理图像,当视频进入视觉系统时,它总是尽可能快地运行。然后它与大型语言模型位于同一位置、同一组计算机中,因此它不必跨越国家或大陆进行调用。
Hannah Fry: 所以为了实现这种实时的理解,你必须将运行这些模型的计算机硬件物理地放置在一起?
Greg Wayne: 是的,绝对是这样。我们还有使用原生音频的想法。以前的系统都有文本识别系统。这个系统是直接接收音频的,因此它不需要二级系统。使用原生音频的一个简单效果是,它可以理解罕见的词或词的发音。最后一点是,团队在「端点检测」方面做了很多出色的工作, 它能准确地知道你何时停止说话。然后,它会在猜测,这是我将要说的话。当它发现用户真的已经说完话后,它会立即发送出去。
Hannah Fry: 预先猜测答案会是什么。
Greg Wayne: 是的。这很难。 我们的系统必须使用一些「语义理解」,因为它也对上下文和声音有一定的理解。
Hannah Fry: 你认为 Project Astra 是否能够推理?
Greg Wayne: 是的。它 **主要是通过神经网络内部结构进行推理,**以一种无法观察到的、非常复杂的方式。然后是它所产生的对话。它有时通过对话进行推理。
记忆机制与隐私保护
Hannah Fry: 现在,我想多和你谈谈记忆。它可以记住过去 10 分钟内发生的事情,对吗?
Greg Wayne: 是的, 大概是 10 分钟。 极限在于芯片上的内存。
Hannah Fry: 所以目前,它实际上就像一个录像机,记录了过去 10 分钟发生的一切。
Greg Wayne: 是的。还有一个二级系统,当你关闭系统时,它会提取对话,总结并提取相关的事实。
Hannah Fry: 它是如何决定哪些信息足够重要,值得记住?
Greg Wayne: 它有 启发式方法。 如果你要求它记住,它肯定会记住。否则,它会试图说,「用户是否表达了任何有趣的、或与用户已经表达过的偏好不同的偏好?」
Hannah Fry: 让我们来谈谈隐私问题。你们如何缓解这些隐私问题?
Greg Wayne: 主要标准之一是同意。 用户可以访问他们之前记录的数据,可以删除或查看存储的内容。
Hannah Fry: 用户的确最终会控制它了解自己的信息。
Greg Wayne: 是的。
Hannah Fry: DeepMind 的伦理学家 Iason Gabriel 的工作在多大程度上影响了你们的 Astra?
Greg Wayne: 我们和 Iason 谈了很多。我们也和他的团队一起做了很多工作。他们一直在调查模型和整个代理,探索它在不同情况下的表现。我们还有一层安全过滤器,防止用户受到伤害。
未来重点:主动视频交互和全双工对话
Hannah Fry: 那么,你们接下来的优先事项是什么?
Greg Wayne: 我对主动视频工作非常感兴趣。也就是说, 系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。 例如,这属于为盲人提供视觉解释器的问题。当你四处走动时,因为你看不到,它会说,「小心那边的桌子」。它可以持续地引导你。我们还在音频输出方面做了很多工作,所谓的「全双工」。它可以同时处理听和说,这可能会有点烦人。 它可能会打断你。但它也更像自然的对话。 当你说话时,我可能会说,「嗯嗯」、「嗯嗯」,它在同时听和说。这是用来确认的语言的一部分。正如你所说,我们还会在推理、更深层次的记忆、反思等方面投入更多精力。当它调用工具进行更深入的查询和研究时,是的,还有太多事情需要做得更好。
Hannah Fry: 非常感谢你参与我们的节目,Greg。
Greg Wayne: 谢谢你,Hannah。
Hannah Fry: 我们对 AI 的期望变化之快真是奇怪。我们现在有了这个多模态代理的雏形。它能看、能听,能记忆、有上下文、能推理、能进行多语言实时对话。当然,它不是 AGI。但我们已经比两年前讨论的系统有了显著的飞跃。
原视频:https://www.youtube.com/watch?v=ctWfv4WUp2I编译:施苏娜、傅丰元
更多 Voice Agent 学习笔记:
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
市场规模超 60 亿美元,语音如何改变对话式 AI?
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服