
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@鲍勃
01 有话题的技术
1、MoshiVis:具备图像理解能力的 AI 实时语音开源模型
MoshiVis = Moshi + 图像理解能力 + 实时语音互动能力。
它是个支持实时语音对话且具备视觉理解能力的开源视觉语音模型,由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。
简而言之,它可以「看图说话」,并能与人进行自然的语音对话,同时保持低延迟,适用于真实时间的交互场景。
主要功能
-
图像理解 :输入一张图像后,模型能以语音方式描述其内容、回答相关问题。
-
实时语音交互 :支持全程语音输入输出,保持低延迟(<80ms)。
-
上下文理解 :可在一般聊天和图像相关对话之间自由切换,记住上下文。
-
多语音风格 :支持模仿不同语调,如海盗口音、耳语等,增加交互趣味性。
-
内在思维流(Inner Monologue) :模拟模型「思考」的过程,用于训练更自然的语音生成。
-
多任务能力 :可同时执行图像描述、视觉问答、OCR 等多种任务。(@ AIGitHub)
2、千问或将发布端到端多模态模型 Qwen2.5-Omni-7B


https://github.com/huggingface/transformers/pull/36752/commits/b4ff115375f02b59eb3e495c9dd3c1219e63ff50
来自@karminski-牙医:千问好像还要发一个 Qwen2.5-Omni-7B 模型,这是一个端到端的多模态模型,支持文本、图片、音频、视频作为输入,输出支持文本和语音。
看代码是使用了双路径生成,即文本和音频可以同时生成,内置了两种声音 Cherry (女声), Ethan (男声),(另外语音是可以用参数控制的,return_audio=False 就不输出语音了)。
感觉小模型的发力从单纯的文本任务已经逐渐到现实感知与交互了。(@karminski-牙医@X)
02 有亮点的产品
1、米家智能音频眼镜 2 今日上架

昨日,小米智能生态宣布,米家智能眼镜系列产品将在今日迎来更新。而在 3 月 22 日,小米众筹曾短暂上架了「MIJIA 智能音频眼镜 2」,页面显示标准价格为 1,199 元,众筹价 999 元。据目前消息显示,MIJIA 智能音频眼镜 2 主打纤细镜腿:最细处为 5mm,表面采用 NCVM 纳米真空镀膜工艺;重量为 27.6g 起,提供 5 款框型可选,其中深空钛款采用一体成型设计;配备琴钢超弹铰链,支持第二代快拆技术。
MIJIA 智能音频眼镜 2 配备 4 枚麦克风,支持「全能录音大师」(现场录音无需手机);搭载定制非同轴钢壳电池,最长 12 小时续航,充电时间约 1 小时;声学方面,采用开放式声场 + 混响通道;支持双设备连接,语音唤醒设备端小爱同学。此外,小米智能生态还一同公布了米家窗帘系列产品,从官方公布的图片显示,产品仅巴掌大小,号称「小巧身材、动力强劲,掌控家中每一缕阳光」。( @APPSO)
2、宠物+AI 赛道:国产 AI 宠物摄像头出海,挑战海外市场巨头
在宠物经济蓬勃发展的当下,AI 宠物相机市场迎来了爆发式增长。Furbo 和 Petcube 等国际品牌在市场中占据领先地位。在这样的市场格局下,最近一家新的中国 AI 摄像头产品,毅然进军海外市场,试图在这片被巨头盘踞的领域中闯出一片天地。
Pickfun 1080P 高清宠物摄像头精准定位, 致力于成为集高清监控、AI 智能分析、双向互动和家居安全监测于一体的多功能宠物摄像头。
它不仅为宠物主人提供实时了解宠物动态的窗口,还通过 AI 技术助力宠物健康管理,同时兼顾家庭安全监控,以满足现代养宠家庭多样化需求,试图在功能上与国际巨头一较高下。
值得注意的是,其 支持双向语音功能 ,摄像头内置高灵敏度麦克风和高性能扬声器,宠物主人可通过手机 APP 与宠物实时对话,安抚宠物、引导其行为。在语音传输过程中,采用了降噪和回声消除技术,有效减少了环境噪音和回声的干扰,确保语音通话清晰流畅。
这一功能在国际品牌中已较为成熟,国产品牌 Pickfun 通过优化语音处理技术,减少延迟和噪音,在双向语音的流畅度和清晰度上不断改进,以提升海外用户与宠物互动的体验。

(@AIoT 未来智讯)
3、谷歌 Gemini Live:开启 AI 实时视频问答新时代

谷歌今日宣布其 AI 助手 Gemini Live 即日起向高级订阅用户开放实时视觉问答功能
该服务可通过手机摄像头即时解析现实场景,被《The Verge》称为「首个真正理解三维世界的移动 AI」。
早期体验视频显示,用户对着冰箱拍摄后,Gemini 不仅识别出剩余食材,还同步推荐了五道定制菜谱。
这项代号「Project Astra」的研发成果展现出惊人的环境感知能力。在泄露的小米 14 Ultra 测试视频中,开发者用摄像头扫描电脑屏幕时,Gemini Live 准确指出代码错误并给出调试建议。谷歌 CEO 桑达尔·皮查伊向 CNBC 证实:「我们的多模态模型现在能理解超过 400 种物体空间关系,响应速度比去年快 3 倍。」
据 Statista 2024 年 Q1 数据显示,谷歌助手以 34%市场份额领跑行业,但面临亚马逊 Alexa(21%)和苹果 Siri(18%)的激烈竞争。不同于亚马逊聚焦智能家居控制,Gemini Live 的突破在于打通移动场景——彭博社获取的内部文件显示,其图像解析准确率在实验室测试中达到 92%,远超行业平均 75%的水平。
科技论坛 Reddit 已有用户讨论实际应用可能。「当我用 Gemini 查看汽车仪表盘时,它居然能结合故障灯和里程数建议维修方案,」网友@CodeMaster 在讨论串中写道。Twitter 上的早期体验者@TechLover 则分享:「让孩子用这个功能完成生物作业时,AI 不仅识别了植物种类,还自动生成 3D 生长过程动画。」
行业分析师对此反应热烈:「这是从『语音命令』到『视觉对话』的质变。」(@ TopInfo)
4、FeedbackStream:8 分钟创建 AI 面试智能体
FeedbackStream 能够更频繁地以类人 AI 智能体 客户访谈的形式与客户进行互动。它比调查更深入、更个性化,同时比一对一访谈更节省时间。
工作流程:
-
8 分钟创建 AI 面试智能体: 构建无限数量的智能体,以适应不同的场景或客户流程。用户只需提供希望智能体提出的问题,并设定访谈目标即可。
-
邀请客户: 将访谈链接嵌入用户网站,或通过电子邮件或短信发送给客户。客户可以随时点击链接开始访谈。
-
审查访谈结果: 访谈结束后,用户将收到回复通知,并可查看自动生成的摘要、建议以及完整的访谈记录。(@Product Hunt)
03 有态度的观点
1、李开复:中国大模型未来大概率只剩下三家

3 月 20 日,零一万物 CEO、创新工场董事长李开复博士接受了彭博社的专访。在访谈中他表示,DeepSeek 热潮之后,中国经历了自己的「DeepSeek」时刻。李开复以 Windows 内核类比:DeepSeek 是 Windows 内核,而零一万物提供的平台则是 Windows 操作系统、应用程序、UI 界面。李开复强调,AI 需要市场,市场也需要 AI。要真正发挥大模型的价值所在,AI 领域内仍然没有出现自己的「Windows 操作系统」,零一万物想要做的正是填补这一空缺。
谈及大模型领域未来的竞争格局,李开复预测中国大模型领域未来将会收敛至 DeepSeek、阿里巴巴、字节跳动三家,其中以 DeepSeek 势头最猛;美国则以 xAI 的发展势头最为迅速,但 OpenAI、Anthropic、Google 也都会做出令人敬佩的研发工作。至于中美之间的 AI 竞赛,李开复认为 GPU 资源稀缺的情况反而倒逼着 DeepSeek 做出了惊艳业界的技术创新,实现训推成本与模型性能的突破。在印证了「需求是创新之母」的同时,DeepSeek 的突破也使得开源模式呈现出压倒性的优势,坚持闭源策略的 OpenAI、Anthropic 等公司,都会面临更大的压力。(@APPSO)

更多 Voice Agent 学习笔记:
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻