Cartesia 升级 TTS 模型,可在音频中无缝填充内容;索尼 AI 游戏角色原型:结合语音与动画,与玩家实时对话丨日报

news/2025/3/12 16:38:37/文章来源:https://www.cnblogs.com/Agora/p/18767889

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、OpenAl 发布 Agent 工具包,网友:谢谢 Manus AI

 

 

OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易创建能自动完成任务的 AI Agents(智能体)。OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础,但开发者在构建生产级 Agent 时,还是会遇到不少难题。为此,他们今天特地发布了全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。

 

省流版如下:

 

  • Responses API:结合 Chat Completions API 简洁性与 Assistants API 工具使用能力的新型 API 接口。

  • Web 搜索工具(Web Search Tool):让模型访问互联网获取最新信息的工具。

  • 文件搜索工具(File Search Tool):从大量文档中检索相关信息的增强工具。

  • 计算机使用工具(Computer Use Tool):由 Computer-Using Agent (CUA)模型提供支持的计算机操作自动化工具,让 AI 能像人一样操作电脑界面。

  • Agents SDK:基于 Swarm 框架升级,简化多 Agent 工作流程编排的开源框架。

 

具体来说,Responses API 结合了 Chat Completions API(主要用来生成对话回复)的简洁性和 Assistants API(能让 AI 调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建 Agent 应用的新基础。开发者只需调用一次 API ,即可利用多种工具和多轮模型交互解决复杂任务。

 

OpenAI 还推出了开源的 Agents SDK,专门用来简化多 Agent 工作流程的编排。相比去年发布的实验性 Swarm 框架,这个全新 SDK 有了显著的改进。提供易于配置的 LLM 与内置工具集成、Agent 间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。(@APPSO)

 

2、Manus 与阿里通义千问团队达成战略合作

 

 

3 月 11 日,Manus 官方微博宣布,与阿里通义千问团队正式达成战略合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现 Manus 的全部功能。

 

Manus 是由创业公司 Monica 发布的首款 AI Agent 产品,最近在社交媒体火爆出圈。

 

早些时候,Manus 创始人季逸超在社交平台透露,Manus 产品使用了不同的基于阿里千问大模型(Qwen)的微调模型。(@快科技)

 

3、Cartesia 升级 TTS 模型 Sonic 2.0,延迟 40 毫秒

 

Sonic 2.0 基于 Cartesia 新的状态空间模型架构构建,被描述为目前最快且最可控的语音模型。尽管是原始 Sonic 模型的两倍大,但 Sonic 2.0 的运行速度更快,完整模型的延迟仅为 90 毫秒,Turbo 模式的延迟仅为 40 毫秒 。在对 100 个不同声音进行的盲测中,Sonic 2.0 比下一个最佳提供商获得了 1.5 倍的用户青睐。

 

除了速度和质量的提升之外,Sonic 2.0 还提供了对语音生成的空前控制,具有一流的语音克隆能力,可以准确地捕捉复杂的口音和丰富的音频音景。Cartesia 还为 Sonic 2.0 引入了两个新的、强大的功能模块:语音转换器,旨在完善音频的风格和声音;以及填充功能,用于在音频中无缝编辑内容。(@cartesia.ai)

02 有亮点的产品

1、Meta 携手雷朋为时尚品牌 Coperni 推出透明版智能眼镜:限量 3600 副、售价 549 美元

 

3 月 10 日,Meta 发布博文,宣布携手雷朋(Ray-Ban),为巴黎时装周推出「Ray-Ban Meta x Coperni Limited Edition」,全球采用透明黑色框架和灰色镜面镜片,限量 3600 副,售价 549 美元(约 3986 元人民币)。

 

 

(图片来源:Meta)

 

据了解,这款眼镜采用透明黑色框架,镜臂上印有 Coperni 标志,整体设计简约而高级,全球仅发售 3600 副,售完即止,目前仅在 Ray-Ban 官网有货。虽然外观升级,但内部配置与功能与普通版 Ray-Ban Meta 智能眼镜一致。

 

Coperni 本次秀场以「数字社区」为主题,与 Meta 的科技理念不谋而合。秀场还特别举办了一场 200 人参与的 24 小时 LAN 派对,进一步呼应了这一主题。模特们在走秀时佩戴 Ray-Ban Meta x Coperni 限量版眼镜,展示了其免提录制功能,将科技与时尚完美融合。

 

此外,Meta 计划在 2025 年为 Ray-Ban 智能眼镜添加显示屏,并引入类似 Google Project Astra 的「Live AI」功能,这些创新将进一步推动智能眼镜在日常生活和时尚领域的应用。(@Meta、IT 之家)

 

2、索尼 AI 游戏角色原型曝光:结合语音与动画,与玩家实时对话

 

IT 之家 3 月 11 日消息,科技媒体 The Verge 今天(3 月 11 日)发布博文,报道称索尼公司正开发由 AI 驱动的 PlayStation 游戏角色,并分享了一段时长 1 分钟的视频,展示了《地平线:西之绝境》(Horizon Forbidden West)游戏中的 AI 版角色埃洛伊(Aloy)。

 

该视频由索尼互动娱乐的软件工程总监 Sharwin Raghoebardajal 解说,展示了 Aloy 如何通过语音提示与玩家对话。尽管这只是原型技术,但它预示着 AI 在游戏开发中的巨大潜力。

 

该原型使用了 OpenAI 的 Whisper 进行语音转文字,GPT-4 和 Llama 3 用于对话和决策。索尼还开发了内部的情感语音合成系统(EVS)和 Mockingbird 技术,用于语音生成和面部动画。(@IT 之家)

03 有态度的观点

1、复旦副教授:人工智能的发展高潮尚未结束

 

 

近日,复旦大学大数据学院的魏忠钰副教授接受《追问》的采访,双方从基础研究到产业落地探讨,层层揭示 AI 崛起与迭代的内在逻辑。在谈及「初创公司是否应选择智能体作为入局方式」时,魏忠钰教授认可这一基本论断,同时其表示对于初创公司来说,如果现在再去开发基础模型能力,一方面很难与已经建立技术基础或数据基础的公司竞争,另一方面也难以获得足够的资源来进行基础模型的开发。因此,选择一些特定领域的应用,可能是一个相对明智的方向。同时,魏忠钰教授认为,针对特定领域的专有化能力建构始终是必要的,其中数据是关键之一。

 

魏忠钰教授提到,许多专业化场景的数据都涉及隐私保护,无法在网络上或通用场景中轻易获取,而模型能力建构很大程度依赖于数据,如果这些数据无法被通用模型获取,那么拥有这些数据的领域从业者就具备了独特的优势。最后,魏忠钰教授还分享了自己对未来的看法。其认为人工智能的发展高潮尚未结束,未来一段时间内,它在其他领域的成果会逐渐显现。因此,在神经科学和脑科学领域,人工智能也必将产生实质性的影响。关注人工智能相关技术对下一步的发展至关重要。(@ APPSO)

 

 

更多 Voice Agent 学习笔记:

 

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

 

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/897752.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NocoBase vs OutSystems:低代码平台,开源还是闭源?

开源 vs. 闭源,哪个低代码平台更适合你?NocoBase vs OutSystems 全面对比,揭示核心功能、成本和扩展性,帮你做出最佳选择!原文链接:https://www.nocobase.com/cn/blog/nocobase-vs-outsystems 引言 我在之前已经写过几篇产品深度对比文章,欢迎感兴趣的朋友前往阅读。Noc…

英格索兰/鑫磊/阿特拉斯空压机数据采集联网远程监控方案温湿度露点

RS132ie-A7.5(英格索兰)RS132ie-A7.5(英格素兰)XLPM175A-IID(鑫磊)GA132-8.5(阿特拉斯)GA132-8.5(阳牛)RS132ie-A7.5(英格索兰)XPM175A-IID(鑫磊)RS132ie-A7.5(英格索兰XLPHI7SA IID (套名)RS1321e-A7.5(英格系兰)XPU175A IID美号RS132ie-A7.5(大格索)RS1321e-A7.5(英格索二RS1…

SpringSecurity5(2-自定义用户信息)

Spring Security允许自定义用户信息以满足特定的认证需求。通过实现UserDetailsService接口,可以从数据库或其他存储源加载用户信息。自定义UserDetails类,提供用户名、密码、权限等信息,并结合Spring Security的AuthenticationManager进行身份验证。这样可以灵活地实现复杂…

No.60 Vue---事件处理

一、事件处理 1.1 监听事件(添加事件)我们可以使用 v-on 指令 (通常缩写为 @ 符号)来监听 DOM 事件,并在触发事件时执行一些JavaScript。用法为v-on:click="methodName”或使用快捷方式 @click="methodName”.<template><div><button v-on:click=&…

基于TPM的远程认证之一(TCG文档-验证篇)

PCR值验证 在PCR值足够静态或者验证者有证明者的PCR标准值的情况下,可以使用PCR值验证的方式验证平台的可信度。在PCR复合验证中,这种方法要求验证者拥有一个固定的断言PCR复合值列表,这样证明者就只发送报价(带有PCR值的哈希值),而不必发送完整的PCR值或事件日志。或者,…

day:19 html实战2

一、链接标签 1、定义: 从一个网页指向另一个网页的目的地,这个目标可以是一个网页,也可以图片,一个文件,一个网站等 2、链接的类型 a、生成信廉基覆盖源链接 b、新开一个窗口 c、图片链接 d、死链接 3、链接操作代码:链接标签百度(覆盖原有窗口) 京东(另开一个窗口)死…

数据采集仪 传感器采集读数仪 兼容多类型振弦、电压、电流传感器 分组存储与自动导出

数据采集仪 传感器采集读数仪 兼容多类型振弦、电压、电流传感器 分组存储与自动导出VH501TC是一款多功能手持式数据采集仪,专为单弦式振弦传感器设计,同时兼容电压、电流传感器的数据采集。该设备集成了先进的LoRA无线通信技术,可与本公司NLM系列产品无缝对接,实现远程无线…

gitlab+jenkins+harbor+k8s安装操作流程之jenkins gitlab harbor页面配置操作截图

现在文档阶段,实现的操作,开发人员下载或者上传新的代码,提交后jenkins自动构建到jenkinsworkspace目录中,构建过程中,利用build-shell的方式,把workspace中的代码目录制作成镜像,打包,并发送到harbor中,注意:在每个项目目录内,必须有dockerfile文件,才可以发布 1.…

20250227 大作业——HTML6标签设计工作日志

HTML6标签创新设计工作日志 2025.02.27——2025.02.28 高级程序设计课布置了大作业,要求如图 于是去询问 AI ,有哪些方面可以做,决定花一两天时间去了解咨询一下。得到了很多消息,就是现在HTML5所具有的一些功能可以参考这个网站,因为设计者的原因,很多功能可能我们平常不…

效率炸雷!Ethernetip转Profinet网关H+E流量计用EipScan连接预连

本期给大家带来H+E流量计与EipScan模拟软件连通案例。由于很多客户现场任务时间紧任务重的特点,在不确定所购买的稳联技术Profinet转Ethernetip网关(WL-PNS-EIPM)能否与H+E流量计正常通讯的情况下,用EipScan模拟软件先测通。下面就介绍下如何用EipScan模拟软件连通且不通过…

穿越“协议迷雾”:Modbus转Profinet与60LB伺服的传奇相遇

本研究案例深入剖析了稳联技术Modbus转Profinet网关(WL-ABC3010)在60LB系列通用伺服驱动器与PLC互联场景中的具体应用。此次应用所涉及的关键设备涵盖了西门子S7-1200PLC、Modbus转Profinet网关以及60LB系列通用伺服驱动器。借助网关对通信协议的转换功能,使得遵循MODBUS协议…

Python 中 Windows 和 macOS 的路径格式不一致问题

Python 中 Windows 和 macOS 的路径格式不一致问题Python 中 Windows 和 macOS 的路径格式不一致问题 在 Python 中,Windows 和 macOS 的文件路径字符串格式不一致主要体现在路径分隔符上:Windows 使用反斜杠 \(如 C:\Users\file.txt),而 macOS 使用正斜杠 /(如 /Users/f…