Hugging Face 发布 Python WebRTC 库:构建实时音视频应用;微软 Magma:多模态跨数字物理世界丨日报

news/2025/2/26 20:28:16/文章来源:https://www.cnblogs.com/Agora/p/18739548

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、阿里深夜发布重磅开源!暴击 Sora 登顶榜首,消费级显卡就能跑

 

阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源。

 

据悉,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务。

 

14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。在评测集 VBench 中,万相 2.1 以总分 86.22% 的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。

 

1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。

 

值得注意的是,万相 2.1 还是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。

 

技术创新

 

  • 基于 DiT 架构和 Flow Matching 范式

  • 研发高效因果 3D VAE 和可扩展预训练策略

  • 实现特征缓存机制,支持无限长 1080P 视频编解码

  • 通过空间降采样压缩,减少 29% 内存占用

 

实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相表现出色,并且斩获 5 项第一。

 

尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能稳定呈现人物的旋转、跳跃等高难度动作,并逼真模拟物体碰撞、反弹和切割等真实物理效果。

 

开源地址:

 

GitHub: https://github.com/Wan-Video

 

HuggingFace: https://huggingface.co/Wan-AI

 

魔搭社区:https://modelscope.cn/organization/Wan-AI

 

(@APPSO)

 

2、DeepSeek-R2 曝 5 月前上线!第三弹 DeepGEMM 300 行代码暴击专家优化内核

 

第三天,DeepSeek 发布了 DeepGEMM。

 

这是一个支持稠密和 MoE 模型的 FP8 GEMM(通用矩阵乘法)计算库,可为 V3/R1 的训练和推理提供强大支持。

 

仅用 300 行代码,DeepGEMM 开源库就能超越专家精心调优的矩阵计算内核,为 AI 训练和推理带来史诗级的性能提升!

 

DeepGEMM 库具有以下特征:

 

  • 在 Hopper GPU 上实现高达 1350+ FP8 TFLOPS 的算力

  • 极轻量级依赖,代码清晰易懂

  • 完全即时编译,即用即跑

  • 核心逻辑仅约 300 行代码,却在大多数矩阵规模下超越专家级优化内核

  • 同时支持密集布局和两种 MoE 布局

 

 

总之,这个 DeepGEMM 听起来简直是数学界的超级英雄,比飞快的计算器还要快。

 

它改变了我们使用 FP8 GEMM 库的方式,简单、快速、开源。这就是 AI 计算的未来!

 

同时,外媒还曝出了另一个重磅消息:原计划在 5 月初发布的 DeepSeek-R2,现在发布时间将再次提前!

 

 

在 DeepSeek-R2 中,将实现更好的编码,还能用英语以外的语言进行推理。

 

业内人士预测,DeepSeek-R2 的发布,将是 AI 行业的一个关键时刻。目前 DeepSeek 在创建高成本效益模型上的成功,已经打破了该领域少数主导玩家的垄断。

 

DeepSeek 开源两天,前两个项目爆火程度难以想象。FlashMLA 已在 GitHub 斩获近 10k 星标,DeepEP 的星标已有 5k。(@新智元)

 

3、新突破!微软开源多模态 AI Agent

 

微软在官网开源了多模态 AI Agent 基础模型——Magma。

 

与传统 Agent 相比,Magma 具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,例如,你可以用 Magma 来自动下电商订单、查询天气;也可以自动操作实体机器人,或者下真实象棋时获得帮助。

 

此外,Magma 还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。

 

开源地址:

 

https://huggingface.co/microsoft/Magma-8B

 

github:

 

https://github.com/microsoft/Magma

 

(@AIGC 开放社区)

02 有亮点的产品

1、Perplexity 宣布进军 AI 浏览器

 

 

近日,AI 搜索引擎 Perplexity 宣布将要推出 AI 浏览器,命名为「comet」。据 Perplexity 官方介绍,comet 将基于 Agentic(智能体)打造,暂无其他更多细节透露。目前,comet 已开放报名预约。

 

此外,Perplexity 还发文表示,公司正在积极招聘加入建设 comet 的职位,具体显示,Perplexity 现已开放了高级搜索工程师、AI 推理工程师等职位。近期,Perplexity 推出了「Deep Research(深度研究)」功能,主打深度检索、专业输出。在 Humanity's Last Exam 上获得了 21.1% 的准确率,远高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和许多其他领先模型。而该功能已全量推送,能为免费用户每天提供五次试用。(@APPSO)

 

2、医疗 AI 助手 OpenEvidence 获 7500 万美元,估值 10 亿美元

 

 

CNBC 消息,医疗 AI 初创公司 OpenEvidence,从红杉资本获得了新一轮 7500 万美元的融资,估值达到 10 亿美元。

 

OpenEvidence 的创始人是 Daniel Nadler,此前曾创立专注于华尔街业务的 AI 公司 Kensho Technologies,在 2018 年以 7 亿美元的价格出售给了标准普尔。

 

2021 年,Nadler 自掏腰包为 OpenEvidence 提供启动资金,2023 年又获得了来自朋友和家人的投资,目前总融资额已超过 1 亿美元。

 

产品方面,OpenEvidence 开发的是一款为医生服务的 AI 聊天机器人,旨在帮助医生在诊疗过程中做出更优决策。据公司称,目前美国约四分之一的医生都在使用这款产品。Nadler 将其形容为 AI 助手,虽说使用体验与 ChatGPT 有些相似,实则大不相同。

 

OpenEvidence 仅以《新英格兰医学杂志》等经过同行评审的医学期刊数据训练模型,训练时也未连接公共互联网,并且与众多医学期刊签有许可协议。 这样的训练方式让其避免了 AI「幻觉」问题,在准确性上远超同类产品。

 

OpenEvidence 的商业模式是免费提供聊天机器人服务,通过广告盈利。这款产品能在医生群体中快速传播,靠的是医生之间的口口相传。(@AIGC 开放社区)

 

3、微软 Copilot 已免费开放

 

 

智东西 2 月 26 日报道,今日,微软宣布面向所有 Copilot 用户推出 免费、无限制访问的 Voice(语音) 和 Think Deeper(深度思考) 功能,由 OpenAI 的 o1 模型提供支持。

 

在 DeepSeek 带飞 AI 推理模型热潮后,近期 OpenAI、谷歌、xAI、Anthropic、阿里等多家 AI 巨头上新深度推理/深度思考模型。

 

微软在两年前推出了 Copilot,专注于帮助人们获取知识、获得答案、思考、集思广益和创造。从今天起,所有 Copilot 用户都可以用 Voice 功能与 Copilot 进行长时间对话,并随时用 Think Deeper 的高级推理模型来解决更复杂的问题或任务。(@智东西)

 

4、商汤小浣熊家族全面升级:多模态融合

 

 

https://xiaohuanxiong.com

 

商汤科技在 2025 全球开发者先锋大会上宣布了其 AI 生产力工具——商汤小浣熊家族的全面升级,强化了多模态能力,推动 AI 应用加速落地,向 AI Agent 演进。这次升级不仅提升了工具的性能,还使 AI 更好地服务于生产力。

 

亮点提要

 

  • 升级后的商汤小浣熊家族实现了多模态能力的全面提升,能够高效整合信息和分析数据。

  • 办公小浣熊通过自动化工具支持,轻松应对复杂任务,并提升团队协作效率。

  • 代码小浣熊 2.0 实现了多维度数据融合,增强了编程效率,支持实时检索技术文档。(@AIbase 基地)

 

5、Hugging Face 发布 Python WebRTC 开源库 FastRTC,方便构建实时音频视频应用

 

https://huggingface.co/blog/fastrtc

 

背景与问题

 

  • 近期语音模型领域发展迅速:OpenAI 和 Google 发布了实时多模态 API;Kyutai、Alibaba 和 Fixie ai 推出了开源音频 LLM;ElevenLabs 获得了 1.8 亿美元 C 轮融资

  • 尽管模型和资金丰富,但在 Python 中构建实时音频/视频应用仍然困难:

  • 机器学习工程师可能缺乏 WebRTC 等相关技术经验

  • 甚至代码辅助工具也难以为实时应用编写有效代码

 

FastRTC 核心功能

 

  • 自动语音检测和轮流发言功能

  • 内置 WebRTC 支持的 Gradio UI

  • 免费电话号码服务 (fastphone)

  • 支持 WebRTC 和 Websocket

  • 可自定义并与任何 FastAPI 应用集成

  • 提供 STT、TTS 等语音实用工具(@meng shao@X)

03 有态度的观点

1、OpenAI 早期员工:DeepSeek 并未改变 AI 技术的叙事

 

 

近日,播客「Unsupervised Learning」采访了 OpenAI 早期员工(目前已离职)David Luan,采访中双方探讨了 DeepSeek 给大模型领域带来的研究和实践所呈现的启示,并对未来 AI 模型的突破做出了预测分享。

 

David 表示,DeepSeek 表现出色,并且它体现了一个重要转折点:在降低成本的同时获得更高智能,并非意味着停止追求智能,这反而会激发大家使用更多智能。David 还提到,开发者应该首先学会如何打造更智能的大模型,再探索如何让它们运行得更高效,而 DeepSeek 在这一整体发展方向上,只是作为了一个转折点。

 

此外,David 认为 AI 的未来不仅在于模型本身的规模提升,更在于构建一个「能可靠产出模型的工厂」。他还指出,未来的人机交互将从传统的命令行和聊天转向多模态、环境感知的体验,而优秀的组织文化与年轻人才的激励,则是推动长期技术突破的重要保障。(@APPSO)

 

 

更多 Voice Agent 学习笔记:

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/890298.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1Panel 专业版评测:全面超越宝塔的运维面板新标杆

一、 UX体验与移动端适配:更直观的跨平台交互 1Panel 专业版在用户体验上实现了对宝塔的全面超越。其界面采用现代化设计语言,以黑金主题 为代表的可定制化主题系统支持一键切换,视觉风格更符合技术审美,同时保持功能模块的清晰布局。相较于宝塔复杂的多级菜单,1Panel 的 …

基于抖音agent平台Cozi打造Agent智能体

AI Agent 一、AI Agent(智能体)与开发平台 【1】AI Agent的概念 AI Agent直接翻译更准确,AI代理人。AI Agent是指可以自主执行任务或目标的系统,它可以是一个软件,也可以是一个智能机器,这些系统通过感知环境并在此基础上做出决策。AI Agent可以集成多种技术,包括AI大模…

纯离线部署本地知识库LLM大模型

纯离线部署本地知识库LLM大模型 一、下载离线大模型下载的网址:https://hf-mirror.com/deepseek qwen 相关的模型,只建议使用1.5B的,GGUF后缀的模型 推荐下载llama相关模型,同样是GGUF后缀的,自己笔记本电脑推荐下载8B的 二、下载大模型管理平台 LM Studio下载网址:https…

mailto链接

本文主要内容转载自Haorooms!好用的mailto网站话不多说直接上正菜! 大佬dawsbot提供的工具mailto.vercel.app前言 今天看到老外写的一篇关于mailto: HTML e-mail 的文章,感觉很新奇,以前从来没有这么用过,用email的时候,最多用过mailto,但是其中穿链接参数,还是第一次看…

二次开发(第一周作业)

(1) 来源 C++ 大作业 超市收银系统 - shugen - 博客园 该文章介绍了一个软件的实现过程,并提供了相关代码。通过对该软件的分析对其进行了改进和二次开发。 (2) 运行环境+运行结果的截图(伸缩代码附上) 操作系统:Windows 11 开发工具:Dev-c++ 编程语言:C++ 运行结果截…

iconfont本地引入

本地引入iconfont的好处 Butterfly主题自带的Font Awesome图标库免费版里有好多图标没有,而阿里巴巴的开源图标iconfont里的图标非常丰富,所以可以同时引入一下iconfont图标作为Font Awesome图标库的补充。 考虑到在线引入的icon图标大小都是16x16的,而Font Awesome图标一般…

powershell-alias配置方案

最近实在被git命令和poetry命令搞烦了,每次都要输入好长的命令,并且都差不太多,所以就搜索了怎么配置alias,下面是我的配置过程,主要资料来自[1]。配置 因为我用的是Windows Terminal,主要使用的Powershell环境,所以一下教程主要是以Powershell为例,配置的Alias主要是关…

leetcode hot 13

解题思路:本题思路主要是前缀和思想,涉及到子集和问题,前缀和思想有效,两个前缀和的差就等于对应一个子集和。本题可以用哈希表的方式记录每个前缀和的值,核心依靠k = pre[j]-pre[i]转化成pre[j]-k=pre[i],计算pre[i]这个值出现的个数加到res中,最后返回。 class Solutio…

redis - [10] 持久化

redis是一个内存数据库,断电即失。需要持久化到磁盘中。 001 || RDB 在执行的时间间隔内将内存中的数据集快照写入到磁盘(快照),恢复时是将快照文件直接读到内存中。 Redis会单独创建(fork)一个子进程进行持久化,会先将数据写入到一个临时文件中,待持久化过程都结束了…

小红书独立开发大赛:让你的宝藏应用被更多人看到

无论你是业余在做一款 passion project 的 builder,还是试图 bootstrapping 自己造血的小团队。小红书发起的首届独立开发大赛都值得你关注。最近越来越多的社区开发者说,他们会选择在小红书冷启动自己的项目,因为这里能获取到友善的初期反馈和精准的早期用户。这些反馈和用…

博客作业:软件缺陷分析与二次开发实践(图书管理系统)

(1)来源 本次分析的代码来源于网络上的一个C++书籍购买系统项目。该项目模拟了不同用户类型(如会员、贵宾、学生等)购买书籍时的折扣计算和购买记录保存功能。原始代码虽能运行,但存在一些设计缺陷和潜在问题。 (2)运行环境+运行结果截图 运行环境: 环境:Windows 11 +…

博客添加看板娘

{% note info flat %} 本文转载自偷掉月亮的阿硕,本博客看板娘基于该教程搭建。 文章作者: 偷掉月亮的阿硕 文章链接: https://moonshuo.cn/posts/16544.html {% endnote %}