ElevenLabs 对话式 AI 支持 RAG;阿里 TaoAvatar 快速生成 3D 数字人:实时渲染兼容移动设备丨日报

news/2025/3/31 13:30:34/文章来源:https://www.cnblogs.com/Agora/p/18798476

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、阿里通义推出 QVQ-Max 视觉推理模型

 

 

阿里通义宣布推出新一代视觉推理模型 QVQ-Max。据官方介绍,QVQ-Max 不仅能够「理解」图片和视频内容,还能为上述信息提供分析并推理,具体来看:

 

QVQ-Max 在解析图像方面表现出色,其能快速识别图片中的关键元素;

 

QVQ-Max 可以进一步分析所提供的图片、视频信息,并将这些信息与背景知识相结合,推理得出结论;

 

不止分析和推理,QVQ-Max 还可以完成设计插图、生成短视频剧本等内容,甚至根据用户的需求创建角色扮演内容。性能方面,通过通义团队对 QVQ-Max 的思考过程长度进行调节,模型在多模态数学问题基准测试「MathVision」中,准确率不断提升,从 4K tokens 的 43.5% 提升至 24K tokens 的 48.1%。目前,QVQ-Max 已上线 Qwen Chat。(@ APPSO)

 

2、ElevenLabs 对话式 AI 支持原生、低延迟的 RAG 能力

 

 

ElevenLabs 已将原生、低延迟的 RAG 添加到对话式 AI 中——使您的语音智能体能够实时访问和使用大型知识库。

 

RAG 技术允许智能体在对话中利用大型知识库,仅检索最相关的信息,以提供更准确的知识依托回答,减少错误生成的信息。尽管 RAG 会使响应时间增加约 500 毫秒,但其提供的事实准确性显著提升。

 

ElevenLabs 演示了一个和 Stripe 的年度信交流的 demo:

 

https://elevenlabs.io/app/talk-to?

 

agent_id=SRq67SLIhbMFDBx93mMi(@ ElevenLabs)

 

3、解锁未来社交新姿势:TaoAvatar 如何用 3D 技术打造超现实数字人

 

阿里巴巴集团的研究团队推出了一项名为 TaoAvatar 的技术,凭借其高保真、轻量化以及实时渲染的特性,点燃了 AR(增强现实)领域的创新热情。

 

TaoAvatar 是一款基于 3D Gaussian Splatting(3DGS) 技术的全身体态会话虚拟形象解决方案。简单来说,它能从多视角视频中快速生成一个栩栩如生的 3D 数字人,不仅能捕捉用户的面部表情、手势,还能精准还原身体动作,甚至连衣服褶边和头发飘动的细节都不放过。更厉害的是,它能在移动设备上实现实时渲染,帧率高达 90 FPS ,分辨率支持 2K ,完美适配像 Apple Vision Pro 这样的高端 AR 设备。

 

应用场景:从虚拟主播到全息社交

 

  • 电商直播: 想象一个永不疲倦的虚拟主播,24 小时在线带货,还能根据商品自动调整表情和动作。

  • 全息通讯: 通过 AR 眼镜与远方的朋友「面对面」,仿佛 TA 就站在面前。

  • 数字娱乐: 游戏、影视中的角色可以直接以用户的形象生成

 

研究团队还在 Apple Vision Pro 上部署了一个 3D 数字人代理,通过语音识别(ASR)、大语言模型(LLM)和文本转语音(TTS)技术,实现实时对话互动。未来,你的「数字分身」或许还能陪你聊天、跳舞,甚至帮用户开会。(@机智流)

02、有亮点的产品

1、Epiphany :一款通过语音笔记快速将想法转化为行动的工具

 

 

(图片来源:Product Hunt)

 

https://epiphanyvoice.io/

 

定位为一款提高生产力的工具,主要面向需要快速捕捉和执行想法的个人和团队。其核心价值主张在于通过语音笔记将想法转化为可执行的行动,并与多个流行的生产力工具(如 Notion、Asana、Todoist 等)集成。目标用户是那些希望减少手动输入时间并提高效率的个人。

 

在功能和体验方面,Epiphany 的亮点包括其语音转行动的能力、与多个生产力工具的集成以及简化的用户界面。产品的差异化优势在于其能够无缝地将语音输入转化为可执行的任务,减少了用户的操作步骤。用户体验方面,Epiphany 提供了快速高效的想法捕捉和执行流程,帮助用户减少分心并提高生产力。(@ Z Potentials)

 

2、AI 口音重塑功能提高 26%销售转化,语音 AI 掀起职场口音标准之争

 

 

(图片来源:Krisp)

 

音频初创公司 Krisp 周三宣布推出一项新功能,利用 AI 在通话中改变用户的口音。该公司首先推出的是帮助印度人在通话中听起来像美国人。

 

该初创公司表示,口音转换过程保留了说话者的原声,仅切换音素以匹配美式口音。此功能显然已在企业环境中测试过,现在测试版即将登陆 Krisp 桌面应用。用户可在通话期间或之前随时开启该功能。

 

然而,当记者测试该功能时,处理后的语音听起来并不自然,有时甚至会遗漏部分词语。公司将这些问题归因于测试版发布,表示模型会随时间推移不断改进。

 

Krisp 宣称,在企业用户测试中,该功能使销售转化率提升了 26.1%,单次预订收入增长了 14.8%。

 

该公司表示,之所以选择首先针对印度口音进行优化,是因为在全球 STEM 领域的劳动力中,印度人占据了很大比例。未来还计划增加包括菲律宾口音在内的更多口音支持。

 

其他初创公司如 GV 投资的 Sanas,已在呼叫中心大规模部署了类似技术。

 

公司称,该模型基于数千个涵盖不同口音和方言的语音样本进行训练,并在获得用户同意后使用了其会议助手的数据。

 

公司联合创始人提到该功能的另一优势在于无需对用户声音进行预训练,因为它能实时创建说话者的声音档案。(@ Z Potentials)

 

3、可灵 AI 音效功能全面上线

 

4、Keep 发布运动健康垂直领域的专属模型 Kinetic.ai 和首个通用 AI 教练体验版

 

 

Keep 发布了运动健康垂直领域的专属模型 Kinetic.ai,并基于此模型同步上线了首个通用 AI 教练体验版——卡卡(Kaka)。

 

Keep AI 教练卡卡(Kaka)当前主要应用在运动方案定制的场景,Keep 用户可在「今日」页面找到应用入口。卡卡(Kaka)可基于用户的运动诉求定制训练计划和方案,同时也支持基础问答。

 

预计在 5 月份上线卡卡(Kaka)正式版,增加多模态能力,包括语音指导以及图片识别等能力。

 

2025 年 Keep 计划将对 App 8.0 版本再一次升级迭代,在 4 月会推出带有 AI Agent 的内测版,并于后期上线全新 9.0 AI 版本,在大模型的推动下,全力打造智能时代下的 AI Agent。

 

Kinetic.ai 为 Keep 研发的运动健康垂类专属模型,为行业首发。这一模型为 Keep 基于大量的运动数据和运动专业知识的沉淀,以及基座模型基础上训练和优化后发布,在运动健康垂类领域有更专业的表现。

 

未来,Keep 会持续更新 Kinetic.ai 的模型能力,除了文字交互形态,未来会增加多模态的能力,包括音频和图像等。同时,还会增加图片的识别、语音互动等新的交互来丰富 AI 教练的服务技能,这些技能也会无缝衔接在用户使用 Keep 过程中,让用户感受到 AI 教练的价值。(@ Keep 箭厂胡同)

03、有态度的观点

1、雷军:躬身入局才能做好每件事

 

 

近日,在武汉大学 2024 级雷军班的主题班会上,小米创办人、董事长兼 CEO 雷军分享了自己创业路上的学习实践经历和感悟。班会上,雷军强调大学时光是建立世界观、人生观和价值观的关键时刻,其提出三点建议:

 

  • 首先,要利用大学环境塑造自己,形成正确的三观;

  • 其次,学会如何学习,强调学习的广度与深度并重,避免过早确定专业方向;

  • 最后,广交朋友,利用大学期间无利益纠葛的环境,结交人生重要伙伴。

 

雷军还强调了身体健康、兴趣广泛的重要性。雷军还不忘通过小米汽车的研发之路,来分享自己的成功秘诀。其表示,若想做好一件事,那么前提就是要让自己躬身入局,把自己放入到事情里,去了解、熟知相关领域的知识。雷军还调侃表示,「要成为这个领域的人,不能说成为绝顶的专家,至少要成个伪专家吧」。对于高压的工作环境,雷军也表示,要用无比的乐观精神来看待工作中生活中遇到的各种困难。同时他分享表示,只有定下高目标,才能激发出努力的热情。雷军也强调,在设定高目标后,应将目标分解为可实现的小目标,以保持动力和节奏感。(@ APPSO)

 

 

更多 Voice Agent 学习笔记:

 

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

 

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

 

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/907221.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

川崎机器人减速机齿轮维修解析

一、齿轮磨损的原因正常磨损:长期使用时,齿轮齿面在不断啮合的过程中,会因摩擦等因素而逐渐磨损。 润滑不良:润滑油不足或油质不良会导致齿轮间的摩擦磨损增加,同时也会使齿轮温度升高,进一步影响齿轮的精度和寿命。 过载运行:当川崎机器人过载时,减速器齿轮承受的载荷…

Oracle驱动下载和本地maven仓库文件结构的创建

写在前面: 2I2Rc*@JY8 本文章用于记录博主平时遇到的问题,步骤略粗糙,目的在于记录便于后续博主自己查找,如果能帮助到其他人更好。文章中用到的链接均为自行引入,侵删,谢谢 问题描述:1、需要 maven 工程引入 Oracle jdbc驱动;2、查找了 maven 中央仓库,发现 ojdbc 的…

阿里云Tair KVCache:打造以缓存为中心的大模型Token超级工厂

一、Tair KVCache 简介 Tair KVCache 是阿里云瑶池旗下云数据库 Tair 面向大语言模型推理场景推出的 KVCache 缓存加速服务。 随着互联网技术的演进与流量规模的激增,缓存技术逐渐成为系统架构的核心组件。该阶段催生了 Redis 等开源缓存数据库,阿里巴巴基于自身业务需求自主…

NRF54L15/NRF54L10/NRF54L05蓝牙6.0支持多协议CS信道检测

NRF54L15,NRF54L10,NRF54L05 是NORDIC推出的高性能,多协议,低功耗BLE6.0芯片 产品优势特点简介增强的多协议支持 nRF54L 系列支持低功耗蓝牙、蓝牙 Mesh、Thread、Matter、Zigbee、Amazon Sidewalk 和 2.4 GHz 专有协议,并具有高达 4 Mbps 数据传输速率等增强功能。这一系…

Anaconda-python版本管理

Anaconda-python版本管理官网下载Download Anaconda Distribution | Anaconda 一路next,路径可自选。我是D:\install\Anaconda环境配置如下图所示环境高级设置中path新开cmd,进行检查。conda --version返回:conda 24.11.3环境配置完成conda 自身管理版本查看conda --version…

C#实现HTTP服务器:处理文件上传---解析MultipartFormDataContent

完整项目托管地址:https://github.com/sometiny/http HTTP还有重要的一块:文件上传。这篇文章将详细讲解下,前面实现了同一个链接处理多个请求,为了方便,我们独立写了一个HTTP基类,专门处理HTTP请求。https://github.com/sometiny/http/blob/main/src/Http/HttpServerBas…

达梦数据库使用日寄1

最近一个朋友找过来说可能有个项目可以合作,项目背景是信创重构,于是摸鱼半辈子的老汉开始翻个身选择了解达梦数据库了。虽然项目还没下来,现在只是确定了整个项目的大概架构:达梦数据库+.net core6.0+vue3(内网)+微信小程序(外网)+nginx(反向代理外网访问内网)/双服…

算法常用库函数

1.reverse翻转2.unique去重3.random_shuffle随机打乱 用法与reverse相同 4.sort5.lower_bound/upper_bound二分

阿里邮箱通讯录插件(outlook)安装后不能正常使用

阿里邮箱通讯录插件安装后打开outlook,并未找到Alimail选项。下图为正常显示 1、在文件选项卡中找到“管理COM加载项”,查看是否插件被禁用加载 2、将禁用插件更改为启用。 3、此时Alimail选项已经显示,但是通讯录为灰色,点击设置登录邮箱账号即可。

Cell | 亚洲免疫细胞多样性图谱发布!揭示基因与疾病关联新视角

关键词 亚洲人群、免疫细胞多样性、单细胞测序、遗传变异、精准医学 摘要总结: 这篇文章是2025年3月发表在《Cell》杂志上的一篇研究,标题为“Asian diversity in human immune cells”。这篇文章通过构建覆盖5个亚洲国家的619名健康人群的单细胞免疫图谱(AIDA),探索了人群…

【VsCode】使用Cline+deepseek实现VsCode自动化编程

不知道大家有没有听说过cursor这个工具,类似于AI+VsCode的结合体,只要绑定chatgpt、claude等大模型API,就可以实现对话式自助编程,简单闲聊几句便可开发一个软件应用。 但cursor受限于外网,国内用户玩不了,而且还收费很贵,非常的不接地气。 于是乎就有了平替,VsCode上的…