开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、英伟达推出首个生成式世界基础模型 Cosmos,加速物理 AI 系统的发展
在 2025 年消费电子展(CES)上,NVIDIA 发布了全新的 Cosmos 平台,该平台旨在加速物理人工智能(AI)系统的开发,尤其是自主驾驶车辆和机器人。Cosmos 平台集成了生成式世界基础模型(WFM)、视频标记器、安全防护机制以及一个加速的数据处理管道,这些功能帮助开发者在减少对真实世界数据依赖的情况下创建和优化 AI 模型。
Cosmos 平台将以开放模型许可的形式在 Hugging Face 和 NVIDIA NGC 目录中提供,后续将推出经过优化的 NVIDIA NIM 微服务,并通过 NVIDIA AI 企业软件平台提供企业支持。
NVIDIA 首席执行官黄仁勋在展会上表示:「机器人技术即将迎来像 ChatGPT 那样的转折时刻。与大型语言模型一样,世界基础模型是推动机器人和自主驾驶车辆发展的核心,但并非所有开发者都有能力和资源来训练自己的模型。我们创建 Cosmos 就是为了让物理 AI 的开发更加普及,让每个开发者都能接触到通用机器人技术。」
Cosmos 模型可以根据文本、图像和传感器数据生成基于物理的高清视频,使其适用于视频搜索、合成数据生成和强化学习等应用。开发者能够定制模型以模拟工业环境、驾驶场景以及其他特定用例。此外,NVIDIA 还推出了 NeMo Curator,这是一个加速视频处理管道,能够在 14 天内处理 2000 万小时的视频数据,以及 Cosmos Tokeniser,这是一个视觉数据压缩工具。
多家主要的机器人和运输公司,包括 Agile Robots、XPENG、Waabi 和 Uber,已经开始采用 Cosmos 进行 AI 开发。除了 Cosmos,NVIDIA 还推出了 Llama Nemotron 大型语言模型和 Cosmos Nemotron 视觉语言模型,专为医疗、金融和制造等行业的企业使用而开发。(@AIbase 基地)
2、Meta 提出新型可扩展记忆层,提升语言模型知识储备、减少幻觉现象
随着企业越来越多地应用大型语言模型(LLMs),如何提升模型的知识准确性并减少幻觉现象,成为了一项重要挑战。Meta AI 的研究人员在一篇新论文中提出了 「可扩展记忆层」,或许能够为这一问题提供解决方案。
可扩展记忆层的核心思想是在不增加推理时计算资源的情况下,向 LLMs 中添加更多参数,从而提升其学习能力。这种架构适用于需要储存大量事实知识但又希望保持推理速度的应用场景。
传统的语言模型使用 「密集层」 来编码大量信息。在密集层中,所有参数在推理时几乎都是同时激活的,能够学习复杂的函数,但这需要额外的计算和能量资源。而对于简单的事实知识,使用具有关联记忆架构的简单层会更加高效和易于理解,这就是记忆层的作用。记忆层通过简单的稀疏激活和键值查找机制来编码和检索知识。尽管稀疏层在内存占用上高于密集层,但其同时仅使用少量参数,从而提高了计算效率。
虽然记忆层已经存在多年,但在现代深度学习架构中却鲜有应用,主要是因为它们并未针对当前硬件加速器进行优化。当前前沿的 LLMs 通常采用某种形式的 「专家混合」 架构,这与记忆层有相似之处。专家混合模型由多个专门化的小型专家组件构成,通过路由机制在推理时激活特定的专家。
为了克服记忆层在计算上轻便但内存占用大的挑战,Meta 的研究人员提出了若干改进措施,使其能够在大规模应用中实现可行性。他们为记忆层配置了并行化,能够在多个 GPU 上存储数百万个键值对,同时不会减慢模型的运行速度。此外,他们还为处理高内存带宽操作开发了特定的 CUDA 内核,并实现了参数共享机制,允许多个记忆层共享一组内存参数。
通过对 Llama 模型的修改,将一个或多个密集层替换为共享记忆层,研究人员对记忆增强模型进行了测试。他们的研究发现,记忆模型在多个任务中表现优异,特别是在需要事实知识的任务上,性能明显超过密集基线,甚至能与使用 2 到 4 倍计算资源的模型竞争。(@ AIbase基地)
3、可灵 AI V1.6 模型已开放 API:内容质量与效果显著提升
昨日(1 月 7 日)北京快手科技有限公司宣布,其自研的视觉生成大模型可灵 AI V1.6 版本已经开放 API。这一消息标志着该模型在生成质量上的进一步提升,为用户带来了更加稳定和高质量的内容创作体验。
可灵 AI V1.6 模型在运动、时序类动作和运镜等文字描述的响应上表现出色,文本响应度显著提高,从而使得广告视频素材的生成成功率大幅增加。此外,该模型在风格保持、画面色彩、光影效果以及细节逼真度等方面也有了显著的提升,能够以更低的成本为用户创造出具有电影级画面质感的作品。(@ AIbase 基地)
02 有亮点的产品
1、Akool :AI 音视频界的「瑞士军刀」,华人 AI 初创已与超过 2000 家知名企业合作
Akool 于 2022 年成立,短时间取得了巨大的成就,ARR 超过 4000 万美元。其主要布局视频编辑与生成赛道,瞄准 ToB 业务,为企业提供高效、智能的视频生成解决方案。
Akool 像 AI 界的「瑞士军刀」,提供包括 AI 换脸、直播换脸、定制数字人形象声音、AI 视频编辑、AI 直播聊天、AI 视频翻译、图片生成与背景替换、数据检查、AI 智能体等各种功能,帮助企业解决遇到的实际问题。实测表明,Akool 的 AI 音视频质量已经达到了影视级别。
华人创始人吕家俊在浙大与 UIUC 求学期间专注于图形和机器学习领域,曾先后供职于苹果与 Google,获人工智能公司 50 强 CEO 奖。(@ Z potentials)
2、阿里通义与雷鸟合作推出 AI 眼镜,推动大模型应用落地
1 月 7 日,雷鸟创新公司正式发布了首款搭载阿里通义定制意图识别大模型的雷鸟 V3AI 拍摄眼镜。这一产品的发布标志着国内首次实现大模型与 AI 眼镜硬件的定制合作,旨在加速端侧模型在 AI 眼镜上的应用落地。
此次发布会强调,AI 眼镜市场的快速增长受到 Meta 和雷朋等公司推出的第二代拍摄眼镜的影响。雷鸟创始人李宏伟表示,预计 2025 年将成为智能眼镜的 「世纪大战之年」。业内分析师指出,虽然大模型与 AI 眼镜结合的技术日益成熟,但整体应用生态的构建仍处于初级阶段。AI 眼镜的市场前景广阔,但未来的发展方向将更加关注增强现实(AR)和虚拟现实(VR)等头戴设备的创新。
雷鸟 V3AI 拍摄眼镜的主要功能包括手机通知的 AI 总结、QQ 音乐点播、AI 新闻播客等,预计将在 2025 年上半年推出更多应用。同时,该眼镜还引入了科创板上市公司虹软科技的画质算法,并展示了其在 AR 光学领域的技术进展,包括自主研发的 「萤火光引擎」。(@AIbase 基地)
3、微信公众号悄然上线 「AI 配图」 功能,基于腾讯混元大模型
近日,微信公众平台悄然上线了一个很有意义的新功能 ——「AI 配图」,用户只需输入描述即可生成与其内容相关的图像,这无疑可以显著提升了内容创作的效果。
据介绍,AI 配图功能是腾讯以微信公众平台第三方生成技术服务为技术基础开发的向微信公众账号用户提供的 AI 图片生成功能。该服务使用了模型算法机制为腾讯混元助手大模型算法。
在使用上,运营者只需登录微信公众账号,在「图片-AI 配图」功能下使用 AI 配图功能,或在 AI 配图中点击「试试 AI 配图」跳转到 AI 配图功能,或其它以「AI 配图」为标识的本功能入口,用户可输入文字描述、关键词或参考图片以获取 AI 生成的图片,系统便会在短短十几秒内为用户呈现出四张生成的图片。值得注意的是,通过此功能生成的图片仅限于在微信公众平台场景内使用。
另外,还可以基于生成的图片,进行二次风格创作,平台提供了包括「纯真动漫、清新日漫、油画、莫奈、极简、胶片电影、糖果色、穆夏」,只要选择其中一个风格,就能将原图生成相应的风格模式。
不过,用户在使用 「AI 配图」 功能时,需要注意相关的使用条款。根据条款,平台要求不得利用本功能,恶意生成、传播虚假信息和可能导致公众混淆或者误认的生成图片,须基于平台提供的标识指示对生成图片进行合理标识,不得采用技术手段删除、篡改、隐匿合成标识。此外,腾讯并不承担生成图片的法律责任,用户在使用时需对生成图片的合法性负责。(@ AIbase 基地)
03 有态度的观点
1、英伟达黄仁勋:AI Agent 可能是下一个机器人行业的风口
北京时间 1 月 7 日,英伟达举行了 CES 2025 主题演讲,CEO 黄仁勋演讲中表示,AI Agent 可能是下一个机器人行业的风口。
黄仁勋演讲中提到,世界上有 10 亿知识工作者,而 AI Agent 可能是下一个机器人行业,很可能是一个价值数万亿美元的机会。
同时,黄仁勋也代表英伟达对 AI Agent 提出了全新的发展愿景。他表示新一代 AI 系统将不再局限于简单的问答模式,而是能够像真实员工一样理解需求、互动交流并解决复杂问题,它还可以调用多种工具,并通过多个模型的协同合作来完成任务。
此外,黄仁勋还对 Scaling law 疑似「撞墙」这一看法作出回应。他认为 Scaling law 并未失效,只要投入足够的计算资源和采用更复杂的算法,AI 的智能水平就能持续提升。(@ APPSO)
2、斯坦福大学研究:AI 在与人类对话仅 2 小时后即可「再现」其个性特征
一项新的研究发现,与 AI 模型进行两小时对话,就能准确复制一个人的个性。
这项研究来自谷歌和斯坦福大学,他们通过与 1052 名参与者进行两小时访谈,创建了「模拟智能体」——AI 的个性化复制品。这些访谈被用来训练一个生成型 AI 模型,模仿人类的行为。
为了验证 AI 复制品的准确性,每位参与者都完成了两轮人格测试、社交调查和逻辑游戏,并在两周后再次进行相同的测试。当 AI「复制品」进行了这些测试时,它们的回答与真实参与者相符的准确率高达 85%。
研究人员认为,能够模拟人类行为的 AI 模型可能在多个研究领域发挥作用。例如,它可以帮助评估公共卫生政策的效果、了解公众对产品发布的反应,甚至模拟对重大社会事件的反应,这些问题由于成本高昂、操作复杂或伦理问题而难以通过真人参与研究。
研究人员在论文中提到:「模拟人类的态度和行为可以为研究人员提供一个实验平台,用于测试各种干预措施和理论。每个模拟个体都能参与到不同的社会、政治或信息环境中。」他们补充道,这种模拟还可以帮助试行新政策,探索因果关系和背景因素的互动,并加深我们对制度与网络如何影响人们的理解。
研究人员也意识到,这项技术可能被滥用。AI 和「深度伪造」技术已被不法分子用于欺诈、冒充和操控他人。模拟智能体也可能被误用。然而,他们认为,这项技术为我们提供了以前无法实现的方式来研究人类行为,能在高度可控的测试环境中进行实验,避免了传统人类实验中的伦理、后勤和人际问题。(@IT 之家)
更多 Voice Agent 学习笔记:
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
市场规模超 60 亿美元,语音如何改变对话式 AI?
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻