Llama 4 即将发布,引入语音能力;AI 智能运动眼镜 BleeqUp:实时对讲、AI 自动成片等功能丨日报

news/2025/3/10 19:51:21/文章来源:https://www.cnblogs.com/Agora/p/18763499

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、蜜月期结束,微软自研 AI 模型

 

 

据 The Information 援引知情人士消息称,微软公司已成功研发一系列内部人工智能模型,名为 MAI,其测试性能表明可与 OpenAI 和 Anthropic 的模型相媲美。这些模型有望为微软的 Copilot 智能助手提供支持,增强其处理用户问题和提供具体建议的能力。

 

除基础模型外,微软还在开发「推理模型」,旨在解决更复杂的查询并展现类人思维能力。值得注意的是,微软上月已将 OpenAI 的 o1 推理模型整合进 Copilot 产品中。有趣的是,报道中提到微软希望能够查看 OpenAI o1 模型在推理过程中的「思维链」,以便在自家的 AI 模型中复制相关技术。然而,OpenAI 拒绝了微软的要求,这也让微软的研究团队在研发自己的 AI 模型时遇到了困难。

 

此外,微软发言人表示,公司正采用混合模型策略,包括继续与 OpenAI 保持深度合作,同时利用自研 AI 模型和开源模型。这一策略可能减轻微软对 OpenAI 的依赖,后者已获得微软约 130 亿美元的投资。两家公司最近重新谈判合作协议,允许 OpenAI 在某些条件下使用其他云计算服务商的服务器,该协议将持续至 2030 年。微软首席财务官艾米·胡德在近期会议上强调,双方都在为未来十年乃至二十年的发展做规划。除 MAI 外,微软已推出名为 Phi 的小型模型,并销售多家公司的 AI 模型产品。据报道,微软还测试了包括 Anthropic、Meta 和马斯克的 xAI 等公司模型作为 Copilot 的备选方案。( APPSO)

 

2、Llama 4 将在几周内推出改进的语音功能

 

据金融时报报道,Meta 公司计划在未来几周推出的最新开源大型语言模型 Llama 4 中引入改进的语音功能。据知情人士透露,Meta 将注重打造更接近自然对话的用户体验,允许用户在交流过程中随时打断 AI 助手,而非遵循严格的问答模式。 商业方面,报道称 Meta 正考虑为其 AI 助手推出高级订阅服务,提供预订和视频制作等 Agent 功能。

 

 

公司还计划在 AI 助手的搜索结果中引入付费广告或赞助内容。另外,扎克伯格今年还宣布了打造具备中级工程师能力的 AI Agent,他认为这一领域拥有非常大的市场潜力。

 

Meta 首席产品官克里斯·考克斯近日在摩根士丹利会议上表示,Llama 4 将是一种「全能模式」,其中语音将成为「原生功能」,而非简单地将语音转文本再转回语音的过程。他强调:「你可以与互联网对话,向它询问任何事情,这种能力的强大之处我们仍在不断探索。」(@ APPSO)

02 有亮点的产品

1、联手 Perplexity,德国电信计划年内推出「AI 手机」

 

 

德国电信近日在 MWC 上宣布,将与 AI 公司 Perplexity 联合打造一款 AI 手机。这款手机将于今年下半年正式亮相,并计划在 2026 年正式上市销售,售价将低于 1000 美元,初期主要针对欧洲市场。Perplexity 联合创始人兼 CEO Aravind Srinivas 表示,Perplexity 正从一个简单的「回答机器」转变为「行动机器」,不仅能回答问题,还能为用户预订航班、安排餐厅、发送邮件、拨打电话、设置提醒等多种任务。

 

德国电信表示,其推出的 AI 手机能够扮演用户「虚拟助手」的角色。无论是查找信息、预订出租车、安排餐厅用餐,还是完成购物等任务,都可以通过一个统一的应用程序实现,省去了在不同应用之间来回切换的麻烦。

 

此外,这款手机内置的人工智能功能还可以优化多种日常操作,例如撰写电子邮件、进行语言翻译、播放音乐以及拨打电话等。用户只需双击电源键,或者从锁屏界面直接点击,即可进入 Magenta AI 平台。该平台初期将整合 Perplexity 提供的 AI 助手服务,后续还将陆续引入 Google Cloud AI(内容分析)、ElevenLabs 以及 Picsart 等功能模块,进一步扩展其服务能力。(@ APPSO)

 

2、黑鲨魔戒 2 智能戒指发布:支持手势刷短视频,749 元

 

 

3 月 9 日黑鲨现已在京东上架「黑鲨魔戒 2」智能戒指产品,在产品重量、宽度、续航、控制方面上均有所改进,定价为 749 元。

 

据介绍,这款智能戒指整体重量 4 克,可选黑、银、深空灰、金色配色,可以 24 小时监测用户心率、血氧、卡路里、步数信息,同时支持睡眠监测功能,整体续航约 7-10 天,在搭配充电盒使用情况下可实现 70-90 天续航。

 

该智能戒指新增手势识别功能,号称可以实现「手指摇一摇」切换短视频,但官方没有公布其他场景。(@ IT 之家)

 

3、致敬未知推出全新 AI 智能运动眼镜,具备实时对讲、AI 自动成片等功能

 

 

MWC 2025 已经成功举办,目前已知很多业内厂商都推出了新的产品或技术。

 

致敬未知于 MWC 2025 展会上推出了全新品牌 BleeqUp,同时也推出了全新的 AI 眼镜产品——BleeqUp Ranger 智能运动眼镜。

 

据了解,BleeqUp Ranger 是一款由 GPT 驱动的智能骑行眼镜。作为一款四合一智能骑行眼镜,BleeqUp Ranger 具备 AI 自动摄像、运动蓝牙耳机、防护眼镜、实时对讲、AI 自动成片等功能,全面提升了骑行体验和乐趣。产品主要适用于骑行、跑步等户外运动场景,是专为骑行等户外运动人群量身打造的 AI 运动眼镜。

 

在设计上,BleeqUp Ranger 采用轻质耐用的 TR90 材料制成,可将运动相机、耳机和对讲机组合成一个装备,同时将重量保持在 50 克以下。(@ VRAR 星球)

 

4、硅基智能推出 HeyGen 开源替代品:HeyGem

 

 

HeyGem 是硅基智能推出的全离线数字人合成工具,支持通过文字和语音驱动数字人形象。提供了从安装 Docker 到启动的详细教程。

 

目前放出的代码只开源了 前端部分,最核心依赖的 3 个 Docker 镜像并未开源。(@三花 AI )

 

5、Hedra 推出 Character-3:多模态 AI 数字人视频生成模型

 

Character-3 是由 Hedra 开发的一个 AI 数字人视频生成模型。它能够同时处理多种输入类型,包括图像、文本和音频,并通过联合推理生成更高质量的视频。

 

这一代在头部和身体协调性方面进步不错,英文效果非常出色,但中文语音口型对齐的效果还有待提升。

 

用户可以在 Hedra Studio 上使用 Character-3,每月免费获得 400 积分。订阅服务分为多个档次,最低档为 10 美元提供 1000 积分,最高档为 75 美元提供 11000 积分。(@三花 AI )

03 有态度的观点

1、Hugging Face 首席科学官:我们需要敢质疑的 AI

 

 

Hugging Face 联合创始人兼首席科学官 Thomas Wolf 最近发文称,如果人工智能研究没有实质性突破,AI 可能仅会成为「服务器上的唯唯诺诺者」,而非真正的创新者。Wolf 认为,当前的 AI 发展路径难以产生能够进行创造性思考和突破性解决方案的系统。他指出,现有的 AI 模型更像是「非常听话的学生」,擅长填补已知知识之间的空白,但缺乏质疑现有认知框架和提出全新问题的能力。

 

「人们通常犯的主要错误是认为牛顿或爱因斯坦等人只是优秀学生的放大版。」 沃尔夫在文章中写道,「要在数据中心创造爱因斯坦,我们不仅需要一个知道所有答案的系统,而且还需要一个能够提出别人从未想过或不敢问的问题的系统。」沃尔夫将这一问题部分归因于 AI 领域的「评估危机」。

 

他指出,目前用于衡量 AI 系统进步的基准测试大多集中在有明确、封闭式答案的问题上,这限制了系统发展出质疑和创新能力的可能性。作为解决方案,他建议行业应当发展新的评估标准,能够测量 AI 是否能采取「大胆的反事实方法」,并基于微小线索提出一般性建议。「科学最重要的方面是提出正确问题和质疑自己所学知识的能力,我们不需要一个能用常识回答所有问题的 A+ 学生,而是需要一个能看到并质疑其他人所错过的东西的 B 级学生。」(@ APPSO)

 

 

更多 Voice Agent 学习笔记:

 

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/896944.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BigDecimal类--java进阶day05

1.BigDecimal出现的原因2.BigDecimal的创建不推荐第一种形式,会有误差第二种方式创建对象第三种方式调用方法2.BigDecimal常用方法除法的特殊事项 如果有除不尽的情况,常规的除法会出现问题divide的另一种方法 divide还有一个重载方法,可以解决除不尽的问题舍入模式中,进一…

3.10 学习记录

实现了员工页面的前端代码实现点击查看代码 <script setup> import { ref, onMounted } from vue import axios from axiosconst searchEmp = ref({name: ,gender: ,job: , })onMounted(() => {search(); })const search = async () => {const url = `https://web-…

transformer 中的掩码类型

知识是我们已知的也是我们未知的基于已有的知识之上我们去发现未知的由此,知识得到扩充我们获得的知识越多未知的知识就会更多因而,知识扩充永无止境

如何设计、维护和推广 API:专业人士的实用指南

API 在今天的数字化环境中扮演着至关重要的角色,它们作为系统和应用程序之间的连接纽带。对于公司而言,打造用户喜爱的 API、有效地维护它们并成功地在内部和外部推广,不仅能提高数字价值,还能带来巨大的业务收益。 API 设计是创建一个标准化、易于理解且稳定的应用程序接口…

springboot引入nacos

springboot引入nacos 一、 环境准备(windows为例)安装nacos(github镜像网址:Releases alibaba/nacos) 推荐下载发行版启动nacos本地服务 下载完毕,建议解压到没有中文路径的文件夹,在bin目录下打开cmd对话框输入下面命令启动nacos startup.cmd -m standalone启动成功出现以…

95%开发者不知道的调试黑科技:Apipost让WebSocket开发效率翻倍的秘密

在现代 Web 开发中,Websocket 作为一种常见的 Web 协议,与 Restful API 有着本质的不同。Restful API是基于请求-响应模式的单向通信,而 WebSocket 提供全双工通信渠道,允许客户端和服务器之间进行实时双向数据传输。这种特性使得它在需要实时交互的场景中大放异彩,比如 I…

题解:P9221 「TAOI-1」Pentiment

P9221 解题报告 一眼线段树优化 dp,但是调了7h。 首先考虑朴素 dp,设 \(dp_{i,j}\) 表示走到第 \(i\) 行第 \(j\) 列的方案数,转移: \[dp_{i,j}=\sum dp_{i-1,k} \]其中 \(k\) 表示第 \(i\) 行可以走到 \(j\) 的列。 比如如果第 \(i\) 行是下面这种情况:当 \(j=3\) 时,\(…

【Java开发】Tools4AI:一个适用于企业Java应用的开源智能体框架

一、简介 GitHub主页:(https://github.com/vishalmysore/Tools4AI) Tools4AI 是一个基于 Java 的开源智能体框架,它为企业Java应用程序提供了一种集成人工智能的独特方法。作为一个大型动作模型(Large Action Model,LAM)智能体,Tools4AI 能够根据自然语言指令自主执行任务…

英语328个词缀和词根汇总(14张图)

在所有的单词记忆法中,构词法是最科学、记忆效果最佳的词汇记忆法。下面整理了高中常用的词根、词缀。利用有限的词根、词缀对英语单词进行构词分析和解形释义,单词变得好认又好记,词义也一目了然。通过构词法记单词,可以举一反三,记一识十,从而达到事半功倍的记忆效果。…

No.48 ES6---数组扩展之扩展运算符和新增方法

一、数组扩展之扩展运算符 1.扩展运算符扩展运算符(spread)是三个点(…)。将一个数组转为用逗号分隔的参数序列。<script>var arr = [10,23,45,6,7];//以前获取数组中的每个元素for(let i = 0;i<arr.length;i++){console.log(arr[i]);}//有了扩展运算符之后console.lo…

Zabbix 7.0 LTS 部署

Zabbix 7.0LTS教程 一、环境介绍 操作系统:Rocky Linux 9.5 软件版本:7.0LTS 二、安装教程 官网:Zabbix:企业级开源监控解决方案 点击右上角的下载ZABBIX选择对应的环境:选择之后往下拉会看到相应的部署步骤:2.1 软件源配置 按照文档提示:如果有epel.repo源码,需要先注释…