罗永浩 AI 智能助理 J1 Assistant 上线;字节开源 LatentSync ,精准控制唇形同步丨 RTE 开发者日报

news/2025/1/7 19:00:58/文章来源:https://www.cnblogs.com/Agora/p/18655357

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、字节跳动开源全新 AI 模型 LatentSync 精准控制唇形同步

 

字节跳动近日开源了一项名为 LatentSync 的创新技术,该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示,即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同,LatentSync 直接利用了 Stable Diffusion 的强大功能,能更有效地建模复杂的视听关联。

 

研究发现,基于扩散的唇同步方法在时间一致性方面表现不佳,因为不同帧之间的扩散过程存在不一致性。为了解决这个问题,LatentSync 引入了时间表示对齐 (TREPA) 技术。TREPA 利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性,同时保持唇同步的准确性。

 

此外,研究团队还深入研究了 SyncNet 的收敛问题,并通过大量的实证研究,确定了影响 SyncNet 收敛的关键因素,包括模型架构、训练超参数和数据预处理方法。通过优化这些因素,SyncNet 在 HDTF 测试集上的准确率从 91% 显著提升至 94%。由于没有改变 SyncNet 的整体训练框架,这项经验也可应用于其他利用 SyncNet 的唇同步和音频驱动的人像动画方法。(@AIbase 基地)

 

2、阿里发布 Qwen-Agent 框架,赋能开发者构建复杂 AI 智能体

 

 

阿里通义千问 Qwen 推出全新 AI 框架 Qwen-Agent,基于现有 Qwen 语言模型,支持智能体执行复杂任务,并提供多种高级功能,赋能开发者构建更强大的 AI 智能体。

 

该框架基于 Qwen 现有语言模型,赋予智能体执行详细指令、使用工具、规划任务和维护对话上下文等核心能力,还集成了 RAG(检索增强生成)、代码解释器和基于 Qwen2.5-Math 的专用数学推理等高级功能。

 

在架构方面,Qwen-Agent 采用两层架构。底层提供语言模型和基础工具,顶层提供现成的智能体组件。开发者可以灵活组合这些组件,构建能够执行复杂任务的智能体,例如阅读 PDF、操作现有工具以及执行自定义功能。

 

开发者可以通过阿里巴巴的 DashScope 云服务或自行部署 Qwen 模型,阿里巴巴近期下调了 API AI 服务价格,进一步降低了使用门槛。此外,框架还提供 GUI 界面,方便开发者使用 Gradio 框架创建交互式网页演示。(@IT 之家)

 

3、Autodesk 内测 AI 大模型 Bernini 生成式 CAD 要来了

 

 

近日,全球知名 CAD 软件巨头 Autodesk 宣布正在内部测试一款名为 Bernini 的生成式 AI 大模型。

 

Bernini 这一名称源于 17 世纪意大利著名雕塑家和建筑师 Gian Lorenzo Bernini,充分体现了其创造力与艺术性的结合。与其他生成式 AI 模型不同,Bernini 具备独特的功能:它不仅能将文本和手绘草图转化为实用的 3D 文件,还具备生成中空功能性结构的能力,避免了仅生成外观模型的问题。使用者可以自由调整生成的形状和纹理,实现个性化设计。

 

为了训练这一模型,Autodesk 与香港中文大学合作,利用了 1000 万种公开可用的 3D 形状进行数据训练。Autodesk 执行副总裁兼首席技术官 Raji Arasu 在公开活动中表示,Bernini 能够从单一输入生成多个功能性 3D 形状变体,显著提升设计师的创作效率。

 

不过,Bernini 的推出并不意味着它已具备商业化能力。根据 Autodesk 的 CEO Andrew Anagnost 透露,目前该模型仍在测试阶段,尚未正式投入商业应用。未来,客户将能够使用自己的数据来优化模型,从而进一步提升其性能。

 

在技术层面,Autodesk 选择了 Amazon DynamoDB 作为数据存储解决方案,确保能够高效处理 PB 级别的数据。此外,结合 Amazon SageMaker 等云服务,Autodesk 的模型训练流程得以高效管理,从而在保持成本稳定的同时,实现了 AI 生产力的提升。(@AIbase 基地)

02有亮点的产品

1、罗永浩重返科技行业:AI 智能助理 J1 Assistant 上线

 

罗永浩旗下的 AI 新兴企业 Jarvis 低调推出了新款 AI 智能助理——J1 Assistant。这款软件已在官网上线,目前是 Beta 版本,支持三星 Galaxy S24 系列、Galaxy S23 系列、Galaxy S22 系列、谷歌 Pixel 9 系列、谷歌 Pixel 8 系列以及谷歌 Pixel 7 系列。

 

根据官方公布的演示视频,打开 J1 Assistant 后,主界面会显示一个麦克风图标。长按并输入语音,语音内容会自动转换成文字,你可以将这些语音内容发给谷歌搜索或者 ChatGPT,也可以发给 J1 Assistant,它会聆听、理解你的语义内容并给出对应的答案。

 

官方表示,J1 Assistant 是一款更智能、更高效、设计更优雅的 AI 助手,它能真正理解用户,并完成复杂的语音指令,比如创建待办事项、执行高效搜索等等,目前该应用还处于测试阶段。(@极客公园)

 

2、陪伴型机器人「Mirumi」问世,模仿婴儿的好奇心

 

 

Yukai Engineering 在 CES 2025 展览会上发布了一款特别的新产品 —— 看起来毛茸茸的小型「陪伴型」机器人 Mirumi,官方称其能够模仿婴儿的好奇心。其内置传感器,可探测到周围的环境,并完成转头与附近的人或物互动,可谓「憨态可掬」。

 

当有人突然接近或触摸它时,它会羞涩地低下头,模拟出一副害羞的模样。公司计划通过众筹活动,于 2025 年中期推出 Mirumi,提供粉色和灰色等毛发颜色,售价预计在 70 美元左右。

 

Mirumi 通常被挂在手提包的带子上。然而,Mirumi 并不能独立行走,功能上也仅限于转动头部。通过结合距离传感器和惯性测量单元来感知周围的运动,Mirumi 会根据所感应到的情况做出不同反应。当包包开始移动时,Mirumi 会开始四处张望,发现人或物后,它会专注地盯着目标。

 

如果有陌生人突然接近或触摸它,Mirumi 会做出相反的动作,转过头来表现出婴儿般的羞涩反应。甚至在被摇动时,它也会像在表示「不」一样摇头,表现出它的「不喜欢」。如果一段时间内没有互动,它就会恢复「天真无邪」的环顾四周的行为。

 

Mirumi 不仅仅是一个伴侣机器人,它还能够给他人带来欢乐。「人们常常通过与他人分享自己的喜悦来获得满足,Mirumi 正是让你做到这一点的机器人。」Yukai Engineering 的首席执行官青木俊介表示。「无论你是在拥挤的地铁里,还是在商店排队,Mirumi 总能用它那天真无邪的目光触动人心,促使他人不由自主地向它挥手或做出搞笑的表情回应。」(@IT 之家)

 

3、马斯克宣布 Grok 3 预训练已完成

 

 

1 月 4 日,X CEO 马斯克宣布,xAI 旗下 AI 聊天机器人 Grok 3 即将推出,并表示预训练已经完成。

 

马斯克表示,计算量将会是 Grok 2 的 10 倍。2024 年 7 月,马斯克曾透露,Grok 3 使用了 10 万块英伟达 H100 芯片进行训练,并相信 Grok 3 将会「十分特别」。同时,马斯克预计 2024 年底发布 Grok 3,但并未如期而至。

 

据悉,2024 年 12 月,xAI 宣布向所有 X 平台用户免费推送新版本的 Grok 2。据官方介绍,Grok 利用 X 平台实时了解世界正在发生的事情。此前,Grok 推出了两个额外功能—网页搜索和引用,从而增强了 Grok 的使用体验。(@ APPSO)

03有态度的观点

1、OpenAI 研究员:数据集的选择决定 AI 好不好

 

近日,OpenAI 研究员 Jason Wei 在个人社交账号发布推文,并表示数据集的选择决定 AI 好不好。

 

文中,Jason Wei 提到,当前 AI 研究中一项被低估但却能决定成败的技能:找到真正能体现新方法有效性的数据集。同时他提及,这项技能在十年前还不存在,但如今却可能成为一项研究成败的关键。

 

Jason Wei 举例「思维链 (Chain of Thought, CoT) 在哪些数据集上能提升性能?」,同时他引用了一篇「认为 CoT 主要对数学和逻辑任务有帮助」的论文。但 Jason Wei 认为这种观点是缺乏想象力和多样化评估的表现。

 

Jason Wei 强调,要确保用于测试的数据集确实能够检验该方法,并且他认为人为设计的数据集可能无法代表用户查询的大部分内容。(@ APPSO)

 

 

更多 Voice Agent 学习笔记:

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/864971.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习jsp-使用IDEA2024社区版

安装tomcat 先要知道自己有的jdk对应可以运行的tomcat版本 https://tomcat.apache.org/whichversion.htmlServlet SpecJSP SpecEL SpecWebSocket SpecAuthentication Spec (JASPIC)Apache Tomcat VersionLatest Released VersionSupported Java Versions6.1 4.0 6.0 2.2 3.1 11…

学习 - Nginx - 浅谈反向代理正向代理

一张图搞懂反向代理&正向代理反向代理 客户端发送请求 连接到互联网以后,不能直接访问到业务服务器(如Tomcat集群),需要通过Nginx反向代理才能访问,同理Tomcat返回报文数据的时候也不能直接返回给客户端,也需要通过Nginx才可以 正向代理 用户通过代理服务器(网关)访…

2025年简单好用的电脑桌面便签记事本软件

在新的一年,很多打工人希望自己可以更加高效工作,把每件事管理的井井有条,实现升职加薪。 每天使用电脑办公,想要随手记录工作事项、零散琐事,用一款电脑桌面便签或记事本软件是非常方便的。 今天为大家推荐一款2025年简单又好用的电脑桌面便签记事本软件:敬业签! ~ 桌面…

基础知识-虚拟化(Virtualization)技术

(250106) 参考资料 KVM 虚拟化技术 | cnblogs | 惨绿少年@clsn.io 虚拟化介绍 | cnblogs | 休耕 云计算与虚拟化技术发展编年史 | cnblogs | 云物互联 nova系列二:kvm介绍 | cnblogs | linhaifeng 虚拟化与容器 | cnblogs | marility 《LPIC-3-Virtualization-and-Containe…

【k8s基础】k8s 基本使用

介绍及教程大全 Kubernetes中文文档 结构模型 k8s 是经典的一对多模型,有一个主要的管理节点master和许多的工作节点slaver。当然,k8s 也可以配置多个管理节点,拥有两个以上的管理节点被称为 高可用。k8s 包括了许多的组件,每个组件都是单运行在一个docker容器中,然后通过…

Scss 入门

Scss 是对 CSS 的扩展,提供了比 CSS 更简洁的语法和更强大的功能。不过,在部署时,我们要先把 Scss 编译成 CSS,才能让浏览器识别。编译 Scss 的方法有很多,这里我们使用 VS Code 的插件 Live Sass Compiler 进行自动编译。 基本准备配置保存目录。在 VS Code 配置文件中添…

Seed Lab实验:RSAPublic-Key Encryption and Signature Lab

Seed Lab实验:RSAPublic-Key Encryption and Signature Lab笔记RSAPublic-Key Encryption and Signature Lab 1.推导RSA私钥 import gmpy2p = 0xF7E75FDC469067FFDC4E847C51F452DF q = 0xE85CED54AF57E53E092113E62F436F4F e = 0x0D88C3n = q * p phi = (p - 1) * (q - 1) d =…

双稳态触发器

双稳态触发器双稳态触发器是一种具有记忆功能的逻辑单元电路,它能储存一位二进制码。 特点有两个稳定状态“0”态和“1”态; 能根据输入信号将触发器置成“0”或“1”态; 输入信号消失后,被置成的“0”或“1”态能保存下来,即具有记忆功能。RS触发器 基本RS触发器 输入低电…

在Lazarus下的Free Pascal编程教程——以数据处置推动程序运行的模块化程序设计方法

0.前言 我想通过编写一个完整的游戏程序方式引导读者体验程序设计的全过程。我将采用多种方式编写具有相同效果的应用程序,并通过不同方式形成的代码和实现方法的对比来理解程序开发更深层的知识。 了解我编写教程的思路,请参阅体现我最初想法的那篇文章中的“1.编程计划”和…

foobar2000 v2.24.1 汉化版

foobar2000 v2.24.1 汉化版 -----------------------【软件截图】---------------------- -----------------------【软件介绍】---------------------- foobar2000 是一个 Windows 平台下的高级音频播放器.包含完全支持 unicode 及支持播放增益的高级标签功能. 特色: * 支持的…

ABB机器人IO板DSQC652维修方法归纳

ABB机械手IO板DSQC652维修需要一定的专业知识和技能,以下是详细的维修步骤和注意事项:1. 初步检查断电操作:在维修前,确保机器人系统完全断电,避免触电或损坏设备。外观检查:检查DSQC652板是否有明显的物理损坏,如烧焦痕迹、裂纹或元件脱落。连接检查:检查IO板与控制器…

车载以太网一致性测试套件TAE.AETP

随着汽车电子电气架构的发展,高带宽、高速率的数据通信需求逐步涌现,具有稳定、高效特点的车载以太网技术逐步成为汽车主干网通信主流方案。为了满足复杂的通信需求,越来越多的以太网通信协议被应用到车载领域与之而来的是更多新技术的测试验证需求,经纬恒润自主研发的车载…