Meta 无预警发布新一代 AI 眼镜 Aria Gen 2;腾讯混元 Turbo S 模型将长短思维链融合丨日报

news/2025/2/28 20:01:32/文章来源:https://www.cnblogs.com/Agora/p/18743978

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、OpenAI 最大最贵的模型,GPT-4.5 发布

 

 

OpenAI 正式发布旗下 GPT-4.5 模型。API 价格方面,因 GPT-4.5 计算量极大,成本高昂,相较于 GPT-4o 价格有了较高上涨。GPT-4.5 支持联网搜索,能够处理文件和图片上传,还可以使用 Canvas 来进行写作和编程。不过,目前 GPT-4.5 还不支持多模态功能,如语音模式、视频和屏幕共享。

 

GPT-4.5 主要通过「无监督学习」(就是自己从大量数据中学习)变得更聪明,而不是像 OpenAI o1 或者 DeepSeek R1 那样专注于推理能力。简单说,GPT-4.5 知道的更多,而 o1 系列更会思考。

 

API 价格方面,因 GPT-4.5 计算量极大,成本高昂,价格涨到了 75 美元 / 百万 tokens,是 GPT-4o 的 30 倍,更是 DeepSeek 的 280 倍。Sam Altman 提到,GPT-4.5 不是推理型模型,不会在基准测试中碾压其他模型。在目前曝出的实测中,性能的提升远没有价格大。

 

GPT-4.5 的更新要点

 

  • 知识更广泛:它学习了更多的信息,所以懂的东西比以前多

  • 更少胡说八道:减少了「幻觉」(就是 AI 编造事实的情况)

  • 更懂人心:「情商」更高,更能理解你的真实意图

  • 对话更自然:聊天感觉更像和真人交流,不那么机械

  • 创意更丰富:在写作和设计方面表现更好从今天开始,ChatGPT Pro 用户已经可以用上 GPT-4.5(研究预览版)了。

 

下周,将会逐步开放给 Plus 和 Team 用户;再下一周则是 Enterprise 和 Edu 用户。(@ APPSO)

 

2、Kimi 新模型 k1.6 曝光,代码生成能力超越 GPT o3-mini

 

 

近日,月之暗面旗下 Kimi 的最新模型 k1.6 曝光。据全球动态基准测试平台 LiveCodeBench 显示,k1.6 登上测试榜榜首。具体显示,k1.6-high 在多项代码生成基准测试中超越 OpenAI 的 GPT o3-mini、o1 和通义 QwQ-Max 等多款模型。

 

成绩公布后,月之暗面研究员 Flood Sung 在其个人社交账号表示,榜单中的 k1.6 是一个基于 k1.5 持续训练代码能力的特定版本,目前 k1.6 还在不断训练并提升性能。此外,月之暗面创始人张予彤也在朋友圈表示,k1.6 还没有发布,但看到 LiveCodeBench 的成绩感到开心,期待智能模型的持续进化。(@ APPSO)

 

3、语音合成也遵循 Scaling Law,太乙真人「原声放送」讲解论文 ,港科大等开源

 

活久见,太乙真人给讲论文了。

 

「咳咳,诸位道友且听我一番唠叨。老道我闭关数日,所得一篇妙诀,便是此 Llasa 之法。此术上个月一出,海外仙长们无不瞠目结舌,直呼「HOLY SHIT」」。

 

热度最高时,曾在 huggingface 上的「丹药热度榜」上排第六。

 

 

如上引发围观的成果由香港科技大学等联合推出,它验证语音合成模型,也可以遵循 Scaling Law,即扩展计算资源、语音合成效果可以更好。

 

它核心提出了一个语音合成的简单框架 Llasa,该框架采用单层 VQ 编解码器和单个 Transformer 架构,和标准 LLM 保持一致。

 

研究团队提供了 TTS 模型(1B、3B、8B)、编解码器的 checkpoint 以及训练代码。

 

论文链接:https://arxiv.org/abs/2502.04128(@量子位)

 

4、腾讯推出新一代快思考模型混元 Turbo S

 

 

2 月 27 日,腾讯混元自研的快思考模型 Turbo S 正式发布。据官方介绍,区别于 Deepseek R1、混元 T1 等需要「想一下再回复」的慢思考模型,混元 Turbo S 能够实现「秒回」,吐字速度提升一倍,首字时延降低 44%,同时在知识、数理、创作等方面也有突出表现。通过模型架构创新,Turbo S 部署成本也大幅下降。具体来看,在业界通用的多个公开 Benchmark 上,腾讯混元 Turbo S 在知识、数学、推理等多个领域展现出对标 DeepSeek V3、GPT 4o、Claude3.5 等业界领先模型的效果表现。

 

同时通过长短思维链融合,腾讯混元 Turbo S 在保持文科类问题快思考体验的同时,基于混元 T1 模型合成的长思维链数据,显著改进了理科推理能力。架构方面,通过创新性地采用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 缓存占用,实现训练和推理成本的下降。

 

目前,腾讯混元 Turbo S 模型已在腾讯云官网上架,开发者和企业用户可以通过 API 调用,同时将逐步在腾讯元宝灰度上线。腾讯混元还表示,正式版的混元 T1 模型 API 也即将上线,对外提供接入服务。(@ APPSO)

 

5、Meta 无预警发布新一代 AI 眼镜,专为 AI 和机器人研究打造

 

Meta 今日正式推出第二代 Aria 智能眼镜(Aria Gen 2),计划面向从事机器感知系统、人工智能和机器人技术研究的第三方科研人员开放使用。

 

此次发布的第二代 Aria 眼镜延续了无显示屏设计,但配备了升级版传感器套件,包含 RGB 摄像头、定位追踪摄像头、眼球追踪摄像头、空间麦克风阵列、惯性测量单元(IMU)、气压计、磁力计、全球导航卫星系统(GNSS)以及定制化 Meta 芯片。

 

Meta 设想通过 Aria 的 SLAM 技术,用户可在 GPS 信号薄弱或缺失的室内环境实现自主建图与导航——这种视觉定位系统(VPS)既能辅助城市街道导航,也可帮助在商店内精准定位目标商品。

 

Aria 第二代的独特价值

 

  • 顶尖传感器阵列:升级后的传感器系统包含 RGB 摄像头、六自由度 SLAM 摄像头、眼动追踪摄像头、空间麦克风、惯性测量单元(IMU)、气压计、磁力计及全球导航卫星系统(GNSS)。相较于前代,本代创新性在鼻托处嵌入了两大传感器:用于心率监测的光电容积描记(PPG)传感器,以及可区分佩戴者与周围人声的接触式麦克风。

  • 超低功耗设备端机器感知处理:SLAM、眼动追踪、手势识别及语音识别均由 Meta 定制芯片在设备端完成计算。

  • 全天候使用体验:支持 6-8 小时持续运行,整机重量约 75 克,配备可折叠镜腿提升便携性。

  • 音频交互系统:通过行业领先的开放式主动降噪扬声器提供音频反馈,支持用户参与式系统原型开发。(@三次方 AIRX)

02 有亮点的产品

1、Lingo.dev :一款能在几分钟内将应用翻译成多种语言的 AI 本地化引擎

 

 

(图片来源:Product Hunt)

 

https://lingo.dev/zh

 

Lingo.dev 是一款创新的 AI 本地化引擎,其核心价值主张是将耗时数周的翻译工作转化为自动化的拉取请求,大幅提高应用本地化的效率。目标用户主要是需要快速部署多语言应用的开发团队,特别是那些追求高效开发流程的团队。Lingo.dev 解决了传统应用本地化耗时长、成本高的关键痛点,同时抓住了全球化市场对快速本地化解决方案日益增长的需求。

 

在功能与体验方面,Lingo.dev 的核心亮点包括

 

  • AI 驱动的翻译引擎,能够理解 UI 元素的位置和微观上下文;

  • 开发者友好的设计,提供 API 和 SDK 支持;

  • 自动化的拉取请求功能,无缝集成到开发流程中。

  • 与传统翻译服务相比,Lingo.dev 的差异化优势在于其对开发环境的深度理解和集成,以及 AI 技术带来的高效率和准确性。

  • 用户体验方面,产品提供了 1000 美元的免费额度,让用户可以轻松尝试和评估服务质量。(@ Z Potentials)

 

2、Figure 机器人加速进军家庭场景 2025 年启动 Alpha 测试挑战行业极限

 

 

湾区机器人新锐 Figure 正以超预期速度推进其家庭机器人计划。公司创始人 Brett Adcock 周四宣布,将于 2025 年下半年启动 Figure02 人形机器人的家庭环境 Alpha 测试,这一时间表较业界预期大幅提前。推动这一激进计划的核心是 Figure 最新研发的 Helix 系统——一个集视觉、语言与动作于一体的通用 AI 模型。

 

Helix 的突破性在于其多模态学习能力,可同时处理视觉数据和自然语言指令,显著提升机器人学习新任务的效率。这一自主研发的技术路线标志着 Figure 与 OpenAI 分道扬镳后的战略转向。在近期展示中,Helix 已能协调两个机器人协同完成烹饪等复杂家务,展现出强大的任务执行能力。

 

尽管家庭场景被普遍视为人形机器人的终极目标,Figure 却采取了「先工业后家庭」的务实策略。2024 年初,该公司已在宝马南卡罗来纳州工厂展开工业试点,利用结构化环境积累实战经验。这一选择与特斯拉、Apptronik 等行业玩家不谋而合,反映出工业场景在技术成熟度和商业可行性上的双重优势。(@ AIbase 基地)

 

3、Fleet AI Copilot :一款简化 IT 生活的 AI 驱动 IT 助手聊天机器人

 

 

(图片来源:Product Hunt)

 

https://fleet.co/en/ai-copilot

 

Fleet AI Copilot 是一款创新的 AI 驱动 IT 助手,其核心价值主张是通过智能化手段简化设备管理和日常 IT 任务。目标用户主要是寻求提高 IT 运营效率的企业和 IT 团队。该产品解决了传统 IT 管理复杂、耗时的痛点,同时抓住了 AI 在 IT 运营领域应用日益广泛的市场机遇。

 

在功能与体验方面,Fleet AI Copilot 的核心亮点

 

  • 个性化支持,根据用户需求提供定制化服务;

  • 集中化运营,整合 IT 管理流程;

  • 自适应能力,能够根据用户需求不断优化。与传统 IT 管理工具相比,Fleet AI Copilot 的差异化优势在于其 AI驱动的智能化和自动化能力,能够显著提升 IT 运营效率。(@ Z Potentials)

03 有态度的观点

1、DeepMind 首席科学家:「慢思考」模式将能提升 AI 性能

 

 

近日,Google DeepMind 首席科学家 Jack Rae 接受访谈,其指出「慢思考」模式将能提升 AI 性能。采访时,Jack 表达了自己对于大模型「慢思考」模式的看法。其认为,即使对于人类而言在回应之前也会花更多时间思考,而大模型也一样,在不断的深入思考中,人类和大模型都能不断发现正确或者是错误,并随时进行修改。因此在模型进行更长时间思考时,答案可能还会更加准确。Jack 还以上面的观点进行展开,其指出推理模型是模型发展的新范式。

 

推理模型并非追求即时响应,而是通过增加推理时的思考时间来提升答案质量,Jack 认为,这也导致了一种新的 Scaling Law,「慢思考」模式是提升 AI 性能的有效途径。此外,Jack 还判断了推理模型与 AI Agent 的未来。他认为,对于构建有用的 AI Agent 能力而言,推理能力至关重要,原因分别是可靠性和复杂问题的解决能力。

 

Jack 提到,AI Agent 要开始执行第一步,就必须经过思考,因此他认为 AI Agent 能力与思考和推理能力是紧密相连、不可分割的。(@ APPSO)

04 Real-time AI Demo 分享

1、通过手势识别让 Gemini 分析环境视觉信息

 

Google Creative Lab 的 Tina 使用 Gemini 2.0 Flash 和 Mediapipe 构建了一个将手变成木偶的实验。通过检测手何时张开+实时捕获网络摄像头图像,Gemini 分析所处环境并生成情境感知的思考。将提示调整为仅关注颜色,木偶的回答立即更新:

 

 

更多 Voice Agent 学习笔记:

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/891311.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于我在使用Steamlit中碰到的问题及解决方案总结

Steamlit 并不支持一个可以预览本地文件的路径选择器(并不上传文件) 解决方案:使用 Python 自带的 tkinter 来完成 参考:【Streamlit 选择文件夹的曲折方案】Streamlit选择文件夹-CSDN博客 import streamlit as st from tkinter import filedialog, Tk# Set up tkinter roo…

day10 管道符grep 和 find

day10 管道符grep 和 find grep 命令 grep 是对于数据进行查找的关键词 源数据可以是文件内容 grep hello /opt/hello.txt,找出存在hello的那一行 命令的执行结果 ,这个需要结合管道符使用,cat /etc/passwd | grep root测试数据I teach linux.I like python.My qq is 877…

[豪の学习笔记] JavaReStudy#07

IDEA常用快捷键、包、访问修饰符、OOP封装、OOP继承、super关键字、方法重写/覆盖、OOP多态、Object类详解面向对象编程-进阶部分 1 - IDEA常用快捷键 1.删除当前行 ctrl+Y 2.查看一个类的层级关系 ctrl+H 3.定位方法 ctrl+B 4.自动分配变量名,在后面加 .var 5.导入该行需要的…

HTB GreenHorn (源码审计、PDF修复) 随笔

一、端口信息扫描 Spawn Machine后拿到了IP,先nmap扫一下,输入nmap -sV -sC -v 10.10.11.25 -Pn探到了22,80,3000端口,并且可以发现80端口重定向到了http://greenhorn.htb/页面 输入vim /etc/hosts打开一下hosts文件,添加10.10.11.25 greenhorn.htb再探测一下子域名,看看…

CS144 Lab2

CS144 Lab2 开始有点痛苦了,因为文档给的并不全面,光读文档是没法覆盖所有的test case的,有太多的业务逻辑要自己考虑。接下来分别就几个难点总结一下: SYN/FIN 有几种情况要特判:当前没收到过SYN,要拒绝所有的segment 当前收到过SYN了,又收到了新的SYN,这得拒绝 当前收…

msyql三表命令

一、建表 create table student( stu_no int, stu_name varchar(10), sex char(1), age int(3), edit varchar(20) ) DEFAULT charset=utf8; insert into student values (1,wang,男,21,hello), (2,小明,女,22,haha2), (3,hu,女,23,haha3), (4,li,男,25,haha4); create table …

活动报名:Voice Agent 技术现状及应用展望丨 3.8 北京

「人人发言,所有人向所有人学习!」——Z 沙龙「一起探索下一代语音驱动的人机交互界面。」——RTE 开发者社区3 月 8 日周六下午,北京,「智谱 Z 计划&Z Fund」和「RTE 开发者社区」将合办一场 Voice Agent 主题的线下活动。多家语音模型的技术负责人,多个落地场景(AI…

Advance Installer Appium环境配置

安装参数文件同步环境变量 Path = [python_Dir];[NodeJS_Dir];[AndroidSDK_Dir];[redis_Dir]

2月solar月赛wp

2025年Solar应急响应公益月赛-2月暗链排查-1 网站被劫持,被跳转到外部网站,请分析外部原因。本题提供两个端口:第一个端口为ssh端口默认密码为solar@202502第二个端口为被劫持的web服务,路径为 /projectA/index.jsp做的时候,跳转到/projectA/home有一串js代码 拿出里面那串…

谷歌地图案例 | 为服务不足的银行客户提供优质服务

谷歌地图占全球导航市场67%,重塑空间运行。Current银行用谷歌地图平台提供精确定位,为“银行服务不足”群体改善财务状况,商家和客户均受益。据Statista最新数据显示,谷歌地图以67%的全球导航市场份额构建起数字时代的基础设施霸权。这项始于2005年的地理信息服务,已完成从…

解决在Ubuntu中用conda配置环境和下载依赖缓慢问题(重点:mamba)

前情:背景:在重现text2cad文章的过程中,通过environment.yml下载环境和依赖(包括pythonocc-core,pytorch等需要conda安装的包)开发环境:Ubuntu待下载的包: 官方environment.yml中要求的包及对应版本要求(之后会根据我的cuda驱动版本等其他问题,对包的版本进行调整):de…

又一款免费的资产设备管理软件 - WGFIX

WGFIX是wgcloud团队最近发布的一个资产管理系统,免费开源,而且使用非常简单,部署也很方便,非常适合中小企业使用的一款IT资产设备管理系统 下载:www.wgstart.com WGFIX资产设备管理系统是私有化部署的B/S系统,只需要在本地搭建好WGFIX后,所有用户都通过浏览器来访问使用…