Hugging Face 发布 Python WebRTC 库：构建实时音视频应用；微软 Magma：多模态跨数字物理世界丨日报-编程知识

Hugging Face 发布 Python WebRTC 库：构建实时音视频应用；微软 Magma：多模态跨数字物理世界丨日报

news/2025/2/26 20:28:16/文章来源:https://www.cnblogs.com/Agora/p/18739548

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

01 有话题的技术

1、阿里深夜发布重磅开源！暴击 Sora 登顶榜首，消费级显卡就能跑

阿里云旗下视觉生成基座模型万相 2.1（Wan）重磅开源。

据悉，此次开源采用最宽松的 Apache2.0 协议，14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务。

14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。在评测集 VBench 中，万相 2.1 以总分 86.22% 的成绩大幅超越 Sora、Luma、Pika 等国内外模型，稳居榜首位置。

1.3B 版本测试结果不仅超过了更大尺寸的开源模型，甚至还接近部分闭源模型，同时能在消费级显卡运行，仅需 8.2GB 显存就可以生成高质量视频，适用于二次模型开发和学术研究。

值得注意的是，万相 2.1 还是首个具备支持中文文字生成能力，且同时支持中英文文字特效生成的视频生成模型。

技术创新

基于 DiT 架构和 Flow Matching 范式
研发高效因果 3D VAE 和可扩展预训练策略
实现特征缓存机制，支持无限长 1080P 视频编解码
通过空间降采样压缩，减少 29% 内存占用

实验结果显示，在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中，万相表现出色，并且斩获 5 项第一。

尤其在复杂运动和物理规律遵循上的表现上大幅提升，万相能稳定呈现人物的旋转、跳跃等高难度动作，并逼真模拟物体碰撞、反弹和切割等真实物理效果。

开源地址：

GitHub: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区：https://modelscope.cn/organization/Wan-AI

(@APPSO)

2、DeepSeek-R2 曝 5 月前上线！第三弹 DeepGEMM 300 行代码暴击专家优化内核

第三天，DeepSeek 发布了 DeepGEMM。

这是一个支持稠密和 MoE 模型的 FP8 GEMM（通用矩阵乘法）计算库，可为 V3/R1 的训练和推理提供强大支持。

仅用 300 行代码，DeepGEMM 开源库就能超越专家精心调优的矩阵计算内核，为 AI 训练和推理带来史诗级的性能提升！

DeepGEMM 库具有以下特征：

在 Hopper GPU 上实现高达 1350+ FP8 TFLOPS 的算力
极轻量级依赖，代码清晰易懂
完全即时编译，即用即跑
核心逻辑仅约 300 行代码，却在大多数矩阵规模下超越专家级优化内核
同时支持密集布局和两种 MoE 布局

总之，这个 DeepGEMM 听起来简直是数学界的超级英雄，比飞快的计算器还要快。

它改变了我们使用 FP8 GEMM 库的方式，简单、快速、开源。这就是 AI 计算的未来！

同时，外媒还曝出了另一个重磅消息：原计划在 5 月初发布的 DeepSeek-R2，现在发布时间将再次提前！

在 DeepSeek-R2 中，将实现更好的编码，还能用英语以外的语言进行推理。

业内人士预测，DeepSeek-R2 的发布，将是 AI 行业的一个关键时刻。目前 DeepSeek 在创建高成本效益模型上的成功，已经打破了该领域少数主导玩家的垄断。

DeepSeek 开源两天，前两个项目爆火程度难以想象。FlashMLA 已在 GitHub 斩获近 10k 星标，DeepEP 的星标已有 5k。（@新智元）

3、新突破！微软开源多模态 AI Agent

微软在官网开源了多模态 AI Agent 基础模型——Magma。

与传统 Agent 相比，Magma 具备跨数字、物理世界的多模态能力，能自动处理图像、视频、文本等不同类型数据，例如，你可以用 Magma 来自动下电商订单、查询天气；也可以自动操作实体机器人，或者下真实象棋时获得帮助。

此外，Magma 还能内置了心理预测功能，增强了对未来视频帧中时空动态的理解能力，能够准确推测视频中人物或物体的意图和未来行为。

开源地址：

https://huggingface.co/microsoft/Magma-8B

github：

https://github.com/microsoft/Magma

（@AIGC 开放社区）

02 有亮点的产品

1、Perplexity 宣布进军 AI 浏览器

近日，AI 搜索引擎 Perplexity 宣布将要推出 AI 浏览器，命名为「comet」。据 Perplexity 官方介绍，comet 将基于 Agentic（智能体）打造，暂无其他更多细节透露。目前，comet 已开放报名预约。

此外，Perplexity 还发文表示，公司正在积极招聘加入建设 comet 的职位，具体显示，Perplexity 现已开放了高级搜索工程师、AI 推理工程师等职位。近期，Perplexity 推出了「Deep Research（深度研究）」功能，主打深度检索、专业输出。在 Humanity's Last Exam 上获得了 21.1% 的准确率，远高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和许多其他领先模型。而该功能已全量推送，能为免费用户每天提供五次试用。(@APPSO)

2、医疗 AI 助手 OpenEvidence 获 7500 万美元，估值 10 亿美元

CNBC 消息，医疗 AI 初创公司 OpenEvidence，从红杉资本获得了新一轮 7500 万美元的融资，估值达到 10 亿美元。

OpenEvidence 的创始人是 Daniel Nadler，此前曾创立专注于华尔街业务的 AI 公司 Kensho Technologies，在 2018 年以 7 亿美元的价格出售给了标准普尔。

2021 年，Nadler 自掏腰包为 OpenEvidence 提供启动资金，2023 年又获得了来自朋友和家人的投资，目前总融资额已超过 1 亿美元。

产品方面，OpenEvidence 开发的是一款为医生服务的 AI 聊天机器人，旨在帮助医生在诊疗过程中做出更优决策。据公司称，目前美国约四分之一的医生都在使用这款产品。Nadler 将其形容为 AI 助手，虽说使用体验与 ChatGPT 有些相似，实则大不相同。

OpenEvidence 仅以《新英格兰医学杂志》等经过同行评审的医学期刊数据训练模型，训练时也未连接公共互联网，并且与众多医学期刊签有许可协议。 这样的训练方式让其避免了 AI「幻觉」问题，在准确性上远超同类产品。

OpenEvidence 的商业模式是免费提供聊天机器人服务，通过广告盈利。这款产品能在医生群体中快速传播，靠的是医生之间的口口相传。（@AIGC 开放社区）

3、微软 Copilot 已免费开放

智东西 2 月 26 日报道，今日，微软宣布面向所有 Copilot 用户推出 免费、无限制访问的 Voice（语音）和 Think Deeper（深度思考） 功能，由 OpenAI 的 o1 模型提供支持。

在 DeepSeek 带飞 AI 推理模型热潮后，近期 OpenAI、谷歌、xAI、Anthropic、阿里等多家 AI 巨头上新深度推理/深度思考模型。

微软在两年前推出了 Copilot，专注于帮助人们获取知识、获得答案、思考、集思广益和创造。从今天起，所有 Copilot 用户都可以用 Voice 功能与 Copilot 进行长时间对话，并随时用 Think Deeper 的高级推理模型来解决更复杂的问题或任务。（@智东西）

4、商汤小浣熊家族全面升级：多模态融合

https://xiaohuanxiong.com

商汤科技在 2025 全球开发者先锋大会上宣布了其 AI 生产力工具——商汤小浣熊家族的全面升级，强化了多模态能力，推动 AI 应用加速落地，向 AI Agent 演进。这次升级不仅提升了工具的性能，还使 AI 更好地服务于生产力。

亮点提要

升级后的商汤小浣熊家族实现了多模态能力的全面提升，能够高效整合信息和分析数据。
办公小浣熊通过自动化工具支持，轻松应对复杂任务，并提升团队协作效率。
代码小浣熊 2.0 实现了多维度数据融合，增强了编程效率，支持实时检索技术文档。（@AIbase 基地）

5、Hugging Face 发布 Python WebRTC 开源库 FastRTC，方便构建实时音频视频应用

https://huggingface.co/blog/fastrtc

背景与问题

近期语音模型领域发展迅速：OpenAI 和 Google 发布了实时多模态 API；Kyutai、Alibaba 和 Fixie ai 推出了开源音频 LLM；ElevenLabs 获得了 1.8 亿美元 C 轮融资
尽管模型和资金丰富，但在 Python 中构建实时音频/视频应用仍然困难：
机器学习工程师可能缺乏 WebRTC 等相关技术经验
甚至代码辅助工具也难以为实时应用编写有效代码

FastRTC 核心功能

自动语音检测和轮流发言功能
内置 WebRTC 支持的 Gradio UI
免费电话号码服务（fastphone）
支持 WebRTC 和 Websocket
可自定义并与任何 FastAPI 应用集成
提供 STT、TTS 等语音实用工具（@meng shao@X）

03 有态度的观点

1、OpenAI 早期员工：DeepSeek 并未改变 AI 技术的叙事

近日，播客「Unsupervised Learning」采访了 OpenAI 早期员工（目前已离职）David Luan，采访中双方探讨了 DeepSeek 给大模型领域带来的研究和实践所呈现的启示，并对未来 AI 模型的突破做出了预测分享。

David 表示，DeepSeek 表现出色，并且它体现了一个重要转折点：在降低成本的同时获得更高智能，并非意味着停止追求智能，这反而会激发大家使用更多智能。David 还提到，开发者应该首先学会如何打造更智能的大模型，再探索如何让它们运行得更高效，而 DeepSeek 在这一整体发展方向上，只是作为了一个转折点。

此外，David 认为 AI 的未来不仅在于模型本身的规模提升，更在于构建一个「能可靠产出模型的工厂」。他还指出，未来的人机交互将从传统的命令行和聊天转向多模态、环境感知的体验，而优秀的组织文化与年轻人才的激励，则是推动长期技术突破的重要保障。(@APPSO)