FeedbackStream:8 分钟创建 AI 面试智能体;Moshi 开源图像理解实时语音模型 MoshiVis 丨日报

news/2025/3/26 15:47:34/文章来源:https://www.cnblogs.com/Agora/p/18790027

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、MoshiVis:具备图像理解能力的 AI 实时语音开源模型

 

MoshiVis = Moshi + 图像理解能力 + 实时语音互动能力。

 

它是个支持实时语音对话且具备视觉理解能力的开源视觉语音模型,由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。

 

简而言之,它可以「看图说话」,并能与人进行自然的语音对话,同时保持低延迟,适用于真实时间的交互场景。

 

主要功能

 

  • 图像理解 :输入一张图像后,模型能以语音方式描述其内容、回答相关问题。

  • 实时语音交互 :支持全程语音输入输出,保持低延迟(<80ms)。

  • 上下文理解 :可在一般聊天和图像相关对话之间自由切换,记住上下文。

  • 多语音风格 :支持模仿不同语调,如海盗口音、耳语等,增加交互趣味性。

  • 内在思维流(Inner Monologue) :模拟模型「思考」的过程,用于训练更自然的语音生成。

  • 多任务能力 :可同时执行图像描述、视觉问答、OCR 等多种任务。(@ AIGitHub)

 

2、千问或将发布端到端多模态模型 Qwen2.5-Omni-7B

 

 

 

https://github.com/huggingface/transformers/pull/36752/commits/b4ff115375f02b59eb3e495c9dd3c1219e63ff50

 

来自@karminski-牙医:千问好像还要发一个 Qwen2.5-Omni-7B 模型,这是一个端到端的多模态模型,支持文本、图片、音频、视频作为输入,输出支持文本和语音。

 

看代码是使用了双路径生成,即文本和音频可以同时生成,内置了两种声音 Cherry (女声), Ethan (男声),(另外语音是可以用参数控制的,return_audio=False 就不输出语音了)。

 

感觉小模型的发力从单纯的文本任务已经逐渐到现实感知与交互了。(@karminski-牙医@X)

02 有亮点的产品

1、米家智能音频眼镜 2 今日上架

 

 

昨日,小米智能生态宣布,米家智能眼镜系列产品将在今日迎来更新。而在 3 月 22 日,小米众筹曾短暂上架了「MIJIA 智能音频眼镜 2」,页面显示标准价格为 1,199 元,众筹价 999 元。据目前消息显示,MIJIA 智能音频眼镜 2 主打纤细镜腿:最细处为 5mm,表面采用 NCVM 纳米真空镀膜工艺;重量为 27.6g 起,提供 5 款框型可选,其中深空钛款采用一体成型设计;配备琴钢超弹铰链,支持第二代快拆技术。

 

MIJIA 智能音频眼镜 2 配备 4 枚麦克风,支持「全能录音大师」(现场录音无需手机);搭载定制非同轴钢壳电池,最长 12 小时续航,充电时间约 1 小时;声学方面,采用开放式声场 + 混响通道;支持双设备连接,语音唤醒设备端小爱同学。此外,小米智能生态还一同公布了米家窗帘系列产品,从官方公布的图片显示,产品仅巴掌大小,号称「小巧身材、动力强劲,掌控家中每一缕阳光」。( @APPSO)

 

2、宠物+AI 赛道:国产 AI 宠物摄像头出海,挑战海外市场巨头

 

在宠物经济蓬勃发展的当下,AI 宠物相机市场迎来了爆发式增长。Furbo 和 Petcube 等国际品牌在市场中占据领先地位。在这样的市场格局下,最近一家新的中国 AI 摄像头产品,毅然进军海外市场,试图在这片被巨头盘踞的领域中闯出一片天地。

 

Pickfun 1080P 高清宠物摄像头精准定位, 致力于成为集高清监控、AI 智能分析、双向互动和家居安全监测于一体的多功能宠物摄像头。

 

它不仅为宠物主人提供实时了解宠物动态的窗口,还通过 AI 技术助力宠物健康管理,同时兼顾家庭安全监控,以满足现代养宠家庭多样化需求,试图在功能上与国际巨头一较高下。

 

值得注意的是,其 支持双向语音功能 ,摄像头内置高灵敏度麦克风和高性能扬声器,宠物主人可通过手机 APP 与宠物实时对话,安抚宠物、引导其行为。在语音传输过程中,采用了降噪和回声消除技术,有效减少了环境噪音和回声的干扰,确保语音通话清晰流畅。

 

这一功能在国际品牌中已较为成熟,国产品牌 Pickfun 通过优化语音处理技术,减少延迟和噪音,在双向语音的流畅度和清晰度上不断改进,以提升海外用户与宠物互动的体验。

 

 

(@AIoT 未来智讯)

 

3、谷歌 Gemini Live:开启 AI 实时视频问答新时代

 

 

谷歌今日宣布其 AI 助手 Gemini Live 即日起向高级订阅用户开放实时视觉问答功能

 

该服务可通过手机摄像头即时解析现实场景,被《The Verge》称为「首个真正理解三维世界的移动 AI」。

 

早期体验视频显示,用户对着冰箱拍摄后,Gemini 不仅识别出剩余食材,还同步推荐了五道定制菜谱。

 

这项代号「Project Astra」的研发成果展现出惊人的环境感知能力。在泄露的小米 14 Ultra 测试视频中,开发者用摄像头扫描电脑屏幕时,Gemini Live 准确指出代码错误并给出调试建议。谷歌 CEO 桑达尔·皮查伊向 CNBC 证实:「我们的多模态模型现在能理解超过 400 种物体空间关系,响应速度比去年快 3 倍。」

 

据 Statista 2024 年 Q1 数据显示,谷歌助手以 34%市场份额领跑行业,但面临亚马逊 Alexa(21%)和苹果 Siri(18%)的激烈竞争。不同于亚马逊聚焦智能家居控制,Gemini Live 的突破在于打通移动场景——彭博社获取的内部文件显示,其图像解析准确率在实验室测试中达到 92%,远超行业平均 75%的水平。

 

科技论坛 Reddit 已有用户讨论实际应用可能。「当我用 Gemini 查看汽车仪表盘时,它居然能结合故障灯和里程数建议维修方案,」网友@CodeMaster 在讨论串中写道。Twitter 上的早期体验者@TechLover 则分享:「让孩子用这个功能完成生物作业时,AI 不仅识别了植物种类,还自动生成 3D 生长过程动画。」

 

行业分析师对此反应热烈:「这是从『语音命令』到『视觉对话』的质变。」(@ TopInfo)

 

4、FeedbackStream:8 分钟创建 AI 面试智能体

 

FeedbackStream 能够更频繁地以类人 AI 智能体 客户访谈的形式与客户进行互动。它比调查更深入、更个性化,同时比一对一访谈更节省时间。

 

工作流程:

 

  • 8 分钟创建 AI 面试智能体: 构建无限数量的智能体,以适应不同的场景或客户流程。用户只需提供希望智能体提出的问题,并设定访谈目标即可。

  • 邀请客户: 将访谈链接嵌入用户网站,或通过电子邮件或短信发送给客户。客户可以随时点击链接开始访谈。

  • 审查访谈结果: 访谈结束后,用户将收到回复通知,并可查看自动生成的摘要、建议以及完整的访谈记录。(@Product Hunt)

03 有态度的观点

1、李开复:中国大模型未来大概率只剩下三家

 

 

3 月 20 日,零一万物 CEO、创新工场董事长李开复博士接受了彭博社的专访。在访谈中他表示,DeepSeek 热潮之后,中国经历了自己的「DeepSeek」时刻。李开复以 Windows 内核类比:DeepSeek 是 Windows 内核,而零一万物提供的平台则是 Windows 操作系统、应用程序、UI 界面。李开复强调,AI 需要市场,市场也需要 AI。要真正发挥大模型的价值所在,AI 领域内仍然没有出现自己的「Windows 操作系统」,零一万物想要做的正是填补这一空缺。

 

谈及大模型领域未来的竞争格局,李开复预测中国大模型领域未来将会收敛至 DeepSeek、阿里巴巴、字节跳动三家,其中以 DeepSeek 势头最猛;美国则以 xAI 的发展势头最为迅速,但 OpenAI、Anthropic、Google 也都会做出令人敬佩的研发工作。至于中美之间的 AI 竞赛,李开复认为 GPU 资源稀缺的情况反而倒逼着 DeepSeek 做出了惊艳业界的技术创新,实现训推成本与模型性能的突破。在印证了「需求是创新之母」的同时,DeepSeek 的突破也使得开源模式呈现出压倒性的优势,坚持闭源策略的 OpenAI、Anthropic 等公司,都会面临更大的压力。(@APPSO)

 

 

更多 Voice Agent 学习笔记:

 

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

 

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

 

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/904931.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20234120 2024-2025-2 《Python程序设计》实验一报告

20234120 2024-2025-2 《Python程序设计》实验一报告 课程:《Python程序设计》 班级: 2341 姓名: 李卓颖 学号:20234120 实验教师:王志强老师 实验日期:2025年3月22日 必修/选修:专业选修课 一、实验内容 (一)准备工作:1.安装Python和PyCharm:访问Python和PyCharm官…

day:28 postman——断言

一.postman 断言 1.断言再test中 状态码是否等于200: tests["Status code is 200"] = responseCode.code === 200; 断言响应时间小于200ms: tests["Response time is less than 200ms"] = responseTime < 200; 断言响应体包含内容: tests["Bod…

XDA论坛打不开的解决办法

开了梯子反而进不去,关掉全局代理 v2 可以添加两行 https://xdaforums.com/; https://www.xda-developers.com/;

国内首个HR智能体平台:开启人力资源管理智能化征程

在当今数字化飞速发展的浪潮中,人工智能已不再是一个遥远的概念,而是实实在在地渗透到了各个领域,深刻改变着我们的工作与生活方式。人力资源管理,这一关乎企业核心竞争力的关键环节,也正经历着AI技术带来的前所未有的变革。HR智能体作为这一变革中的重要成果,正逐渐成为…

爆火开源库!20K星标,一键让网页设计秒变手绘风

今天必须给大伙说说一个超有意思的开源库,在GitHub上已经斩获20K星标啦,它能轻松给网页设计加上手绘风格的“滤镜”,让页面瞬间告别千篇一律,充满艺术感!一、Rough.js是什么?这个名为Rough.js轻量级的图形库,大小才8KB,能赋予网页元素自然又独特的手绘质感。通过一套特…

易路iBuilder智能体平台:AI+HR、全场景、深融合,7大创新应用引领HR管理变革

从国产AI大模型DeepSeek发布至今,国内外人工智能的热度持续居高不下。AI Agent(智能体)作为人工智能领域的重要概念与产品形态,也被广泛提起、认识并应用于千行万业中。本文将基于人力资源领域首个AI Agent垂直应用——易路iBuilder智能体平台的创新实践应用,对智能体在人…

Gitee DevOps 实践指南:本土团队效率提升的新范式

在数字化转型的浪潮中,Gitee DevOps 作为国内领先的一体化研发效能平台,通过深度融合代码托管、CI/CD、项目管理等核心功能,为企业提供了本土化的 DevOps 解决方案。一、Gitee DevOps 的核心价值定位 在数字化转型的浪潮中,Gitee DevOps 作为国内领先的一体化研发效能平台,…

那些正常的动态规划

目录前言动态规划到底是啥?线性dp最长上升子序列子集和子序列和子串的区别内容分析最大上升子序列例题1——[NOIP2004 提高组] 合唱队形分析最长公共子序列最长公共子串平面dp例题2——[NOIP2000 提高组] 方格取数分析例题3——[NOIP2008 提高组] 传纸条分析例题4——最大加权…

3月24日刷题笔记-第六章 流量特征分析-常见攻击事件 tomcat

1、在web服务器上发现的可疑活动,流量分析会显示很多请求,这表明存在恶意的扫描行为,通过分析扫描的行为后提交攻击者IP flag格式:flag{ip},如:flag 我们查看流量包,可以发现有一个外部IP在对常见端口进行SYN扫描,判断出为恶意IPflag{14.0.0.120} 2、找到攻击者IP后请通过…

如何在云效中使用 DeepSeek 等大模型实现 AI 智能评审

除了代码智能补全外,AI 代码智能评审是 DevOps 领域受开发者广泛关注的另一场景了。本文,我们将结合云效代码管理 Codeup、流水线 Flow 和 DeepSeek,分享一种企业可快速自主接入,即可实现的 AI 智能评审解决方案,希望给大家一些启发。作者:崔力强、黄博文 除了代码智能补…