M5Stack 发布全双工通信语音识别硬件;雷蛇发布 AI 游戏伴侣 Project AVA,实时指导复盘

news/2025/1/10 18:32:53/文章来源:https://www.cnblogs.com/Agora/p/18664494

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Suna,@鲍勃

01有话题的新闻

1、海螺 AI 推出「主体参考」功能,一张图片就能玩转电影大片

 

海螺 AI 推出全新主体参考功能,让 AI 视频创作再上新台阶。用户只需上传一张图片,就能让任何人物角色在各种场景中自由活动,保持高度还原的同时又不失创作自由度。

 

与传统的图生视频技术相比,「主体参考」采用了完全不同的技术路线。它并非简单地让静态图片产生局部动作,而是能够基于文字提示词(prompt)生成完整的视频片段。

 

从官方提供的视频可以看到,只要上传一张人物的照片,系统不仅可以保持人物的面部特征,还能让人物在场景中做出任何自然的连贯动作,比如滑滑板,骑车,挑眉,皱眉等,在人物的脸部情感表达上也非常的生动细腻。

 

在技术实现层面,海螺 AI 选择了基于图片参考的路线,而非传统的 LoRA 技术路线。这一选择使得用户无需提供大量素材,仅凭一张图片就能准确识别并还原人物特征。更重要的是,生成速度得到显著提升,从之前的漫长等待缩短到了秒级响应。

 

作为一家成立仅 3 年的初创企业,MiniMax 凭借海螺 AI 在全球 AI 视频生成领域确立了领先地位。未来,海螺 AI 计划将「主体参考」功能扩展到多人、物体和场景等更多领域,进一步释放创作潜能。(@ AIbase 基地)

 

2、阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频生成功能,支持无限长 1080P 视频的高效编解码

 

 

阿里旗下通义万相宣布推出 2.1 版本模型升级,视频生成、图像生成两大能力均有显著提升。

 

在视频生成方面,通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力,支持无限长 1080P 视频的高效编解码,首次实现了中文文字视频生成功能,登上 VBench 榜单第一。

 

据介绍,通义万相 2.1 支持中英文视频,都可以一键生成艺术字,还提供多种视频特效选项,以增强视觉表现力,例如过渡、粒子效果、模拟等等。

 

值得一提的是,通义万相 2.1 还支持复杂运镜,可还原碰撞、反弹、切割、挤压等真实世界的物理规律,例如雨滴落在伞上会溅起水花。

 

图片生成方面,通义万相 2.1 支持文生组图,采用了 IC-LoRA 图像生成训练方法,利用 DiT 架构,增强文本到图像的上下文能力;对多张图像进行拼接与联合描述即可实现关联图像间的组合生成,并保持特征稳定连续。(@ IT 之家)

 

3、商汤科技发布 「日日新」 融合大模型,与 DeepSeek V3 不相上下

 

 

商汤科技正式推出了 「日日新」 融合大模型。这款模型在多模态信息处理能力和深度推理能力上实现了显著提升,并在两大权威评测榜单中获得了第一名。

 

根据国内权威测评机构 SuperCLUE 发布的《中文大模型基准测评 2024 年度报告》,商汤的 「日日新」 融合大模型以 68.3 的高分与 DeepSeek V3 并列国内榜首。此外,在 OpenCompass 的多模态评测中,该模型同样位列第一,分数显著超越了 GPT-4o。

 

「日日新」 融合大模型的特点在于能够同时处理多种复杂的信息,不仅能够识别模糊的文本,还能快速分析数据图表,并提供深入的推理支持。在实际应用场景中,这款模型显示出了其独特的优势,特别是在自动驾驶、视频交互、办公教育、金融和工业制造等领域。

 

在产品开发过程中,商汤科技采用了大量的图文交错数据,通过先进的合成技术建立了模态之间的互动桥梁,增强了模型对多模态信息的理解能力。此外,商汤还构建了丰富的跨模态任务,这为 「日日新」 融合大模型的训练提供了扎实的基础。通过这种创新的训练方法,商汤的融合模态模型能够在多种业务场景中有效响应用户需求,实现了应用落地与基础模型迭代的良性循环。(@ AIbase 基地)

 

4、声网携手博通集成,RTE+AI 赋能智能硬件创新

 

 

1 月 8 日,中国领先的无线连接芯片设计企业博通集成在 CES 2025 展会上正式发布人工智能解决方案 AIDK (Artificial Intelligence Development Kit)。该方案将助力智能硬件开发者快速构建具有出色人机交互体验的创新产品。

 

为进一步展示 AIDK 解决方案的应用潜力,博通集成携手声网,充分利用声网领先的实时多模态对话式 AI 技术,联合推出了智能眼镜、陪伴机器人、智能音箱、智能玩具等多款智能产品原型机,这些原型机在不同场景中展现了突破性的对话能力和交互体验,吸引了众多参会者的关注。

 

据了解,博通集成 AIDK 解决方案基于其高性能芯片 BK7258,充分利用其强大的音视频处理能力、边缘计算能力、无线连接能力和超低功耗等优势,以及 Arm 生态系统在物理层安全和 Edge AI 等方面的优势,结合本地深度学习框架和大语言模型 (LLM),实现了人机实时互动体验的显著提升。

 

该解决方案提供从智能设备端侧处理、网络加速到大语言模型对接的全套方案和应用示例,可大幅缩短智能产品的开发周期,降低开发门槛。博通集成联合声网推出的多款智能产品原型机,通过声网自研的 SD-RTN™ 实时传输网络和超低延时对话能力,让智能硬件实现自然流畅的人机互动;同时,声网的 AI VAD 技术和先进的音频 3A 处理能力,确保在嘈杂环境中,设备仍能清晰准确地理解用户需求。此外,声网灵活可扩展的 AI Agent 架构让开发者可以根据业务场景快速接入 ASR、LLM 和 TTS 技术,极大降低开发复杂度,为智能硬件赋能更多个性化与创新功能。声网将针对智能硬件行业的特殊性,持续优化 AI x IoT 智能硬件解决方案,实现在低功耗、低算力芯片上快速接入大模型,保证低延时实时互动、低成本灵活适配的特性,通过丰富的功能在智能硬件场景中构建真实、自然的 AI 语音交互体验。

 

据悉,目前已有数家企业完成了 AIDK 的设计导入,相关智能产品即将量产发布。博通集成表示,将持续投入研发,不断完善 AIDK 解决方案,为全球智能硬件开发者提供更强大的技术支持和更便捷的开发体验。(@声网)

02有亮点的产品

1、Atomic Echo Base 语音识别底座

 

Atomic Echo Base 是一款专为 M5 Atom 系列主机设计的 语音识别 底座,集成了 ES8311 音频解码器、MEMS 麦克风和 NS4150B 功率放大器。它提供 24 位音频分辨率和 16KHz-64KHz 采样率,支持 I2S 通信和高保真音频处理。配备的 MEMS 麦克风具有高信噪比和数字输出,特别适用于自动语音识别。

 

设备内置的扬声器可确保清晰的音频播放,并支持全双工通信,允许同时发送和接收声音,从而提升语音识别、唤醒、录音播放等互动功能。且支持调用最新的 OpenAI API,同时兼容 Home Assistant。非常适合智能家居和教育领域的应用。(@ M5Stack 明栈)

 

2、雷蛇 CES2025 发布 AI 游戏伴侣 Project AVA,实时指导复盘助力玩家升级

 

雷蛇在 CES 2025 大会上震撼发布了一款名为 Project AVA 的全新 AI 游戏伴侣,这款产品旨在通过人工智能技术,助力玩家在游戏中更上一层楼。

 

Project AVA 是雷蛇的一次大胆尝试,它将顶尖电竞职业玩家和教练的游戏智慧融入 AI 系统中,能够为玩家在 MOBA 和 FPS 游戏中提供实时的战术指导。比赛结束后,它还会生成个性化的总结报告,精准指出玩家的高光操作和需要改进的地方,帮助玩家不断进步。

 

不仅如此,Project AVA 在 ARPG 游戏中同样表现出色。它能够在极短的时间内完成大量的游戏模拟,迅速为玩家提供专业攻略,帮助他们规避 BOSS 的攻击,解开复杂的谜题,顺利通过难关。

 

这款 AI 游戏伴侣还拥有强大的硬件优化功能。玩家只需轻轻一按,它就能自动调整电脑硬件的性能,提升游戏帧数,缩短加载时间,并优化画面效果,让游戏体验更加流畅。同时,它还会定期检查硬件、软件和固件的最新版本,提醒玩家及时更新,确保游戏的稳定性和安全性。

 

Project AVA 的交互模式也非常多样化,包括游戏内嵌窗口、语音聊天和文字聊天框等,玩家可以根据自己的喜好和习惯选择最适合的交互方式,与 AI 助手进行无缝沟通。

 

雷蛇对 Project AVA 充满了信心,他们在官网上表示:「Project AVA 不仅仅是一个理念,它将成为现实。」为了更好地推广这款产品,雷蛇还发布了征集测试者的电子表格,邀请广大玩家参与测试,共同见证这款 AI 游戏伴侣的神奇魅力。(@ ITBearDaily)

 

3、Quick Mock:将 LinkedIn 职位描述转化为即时模拟面试的 AI 工具

 

 

Quick Mock 是一个创新的 AI 驱动模拟面试平台,专为求职者提供针对性的面试准备服务。其核心价值主张是将 LinkedIn 上的任何职位描述即时转化为模拟面试,目标用户群体主要是积极寻找工作机会的求职者。Quick Mock 解决了传统面试准备方法缺乏针对性和实时性的痛点,抓住了 AI 辅助求职市场的新兴机会。

 

在功能方面,产品突出了 AI 驱动的即时面试生成和个性化反馈两大特点。用户只需选择感兴趣的职位,点击按钮即可开始模拟面试,AI 会根据职位描述生成相关问题,并提供详细反馈以快速提升面试技能。这种高度个性化和即时性的面试准备方式,为 Quick Mock 带来了显著的差异化优势。从用户体验角度看,产品设计为 Chrome 扩展程序,与 LinkedIn 无缝集成,为用户提供便捷、高效的使用体验。(@ Z Potentials)

03 有态度的观点

1、彭博分析师:受 AI 影响,全球银行业未来三到五年内将裁减最多 20 万个职位

 

根据彭博智能(Bloomberg Intelligence)发布的分析,随着 AI 逐渐取代当前由人工完成的工作任务,全球银行业将在未来三到五年内裁减最多 20 万个职位。

 

彭博智能对首席信息官和技术官的调查显示,受访者平均预期将裁减约 3% 的员工。报告撰写人、彭博智能高级分析师托马什・诺茨尔指出,后勤、中台和运营岗位最有可能受到影响。客户服务领域可能会发生变化,机器人将承担客户相关的任务,而「了解客户」等职能也将面临威胁。「任何涉及重复性和常规任务的职位都面临风险,但 AI 不会完全取代这些工作,更多的是推动工作方式的转变。」

 

大约四分之一的受访者认为,裁员幅度可能会更大,达到总人数的 5% 至 10%。彭博智能调查的公司包括花旗集团、摩根大通和高盛集团等。

 

调查结果表明,行业将经历深刻变革,从而提升盈利能力。根据彭博智能的预测,到 2027 年,AI 的应用有望使银行的税前利润比预期高出 12% 至 17%,即增加最多 1800 亿美元的收入,主要源于生产力的提升。约 80% 的受访者预计,生成式 AI 将在未来三到五年内至少提高 5% 的生产力和收入。(@IT 之家)

 

 

更多 Voice Agent 学习笔记:

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/867266.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WPF 怎么利用behavior优雅的给一个Datagrid添加一个全选的功能

前言:我在迁移旧项目代码的时候发现别人写很多界面都涉及到一个DataGrid的全选,但是每个都写的很混乱,现在刚好空闲下来,写一个博客, 给部分可能不太会写这个的同学讲一下,怎么实现全选功能,并且可以在任何项目里面复用这个功能。 先准备一个Datagrid,我们给这个DataGr…

使用chai3d-GEL模块进行软体模型力反馈仿真的一点碎片化记录

在要模拟的网格模型中手动添加节点或者对于形状比较复杂的模型使用TetGen之类的网格划分程序自动添加节点和连接;然后设置合理的仿真参数(质量、刚度、重力、时间步长...) 骨架驱动:SkeletonModel 使用骨架结构来表示变形体。骨架由一系列节点(cGELSkeletonNode)和连接这…

销售新手必看:七大关键要素助你快速蜕变行业精英

在销售领域的探索之路上,我时常遇到新入行的同仁们询问如何迅速提升自我。回望自己初涉销售的时光,那段没有专业背景支撑,也缺乏资深前辈指引的日子,我选择了最质朴的方式——埋首于书店中,搜寻销售相关的书籍。然而,那些偏重理论研究的书籍,并未给予我太多实战中的助力…

电机控制的数字化升级:基于DSP和FPGA的仿真与实现

​数字信号处理器(DSP,Digital Signal Processor)在工业自动化领域的应用日益广泛。DSP是一种专门用于将模拟信号转换成数字信号并进行处理的技术,能够实现信号的数字滤波、重构、调制和解调等多项功能,确保信号处理的精确性和稳定性。特别是在电机控制系统中,DSP的应用尤…

中考英语优秀范文-热点话题-传统文化-001 Chinese Treasures: Opera Paper Art 国宝探秘:京剧与剪纸

1 写作要求 坚定文化自信,弘扬中华优秀传统文化,做中华文明的传播者是新时代中国青少年的责任与使命。假如你是李华,近期,一批外国朋友要到你所在的学校参观访问,请用英语写一篇发言稿,向他们介绍中华优秀传统文化。 内容包括: 1 欢迎朋友们的到来; 2 总体介绍中国传统…

货梯载人监控报警自动停梯系统

货梯载人监控报警自动停梯系统利用安装在货梯轿厢内的监控摄像头,实时捕捉轿厢内的画面信息,货梯载人监控报警自动停梯系统一旦确认有人员进入货梯轿厢监测范围内,系统便会迅速输出报警信号。同时,与电梯控制系统实现联动,强制电梯不关门、不运行,从而将人员拒之于危险之…

【YashanDB知识库】使用DBeaver 插入数据 nvarchar字段插入为空

本文内容来自YashanDB官网,原文内容请见 https://www.yashandb.com/newsinfo/7901516.html?templateId=1718516 【问题分类】DBeaver使用 【关键字】DBeaver、nvarchar 【问题描述】使用DBeaver ,插入数据nvarchar字段插入为空。其他字段都有数据,且插入没有报错。【问题原…

[.NET] 使用客户端缓存提高API性能

在现代应用程序中,性能始终是一个关键的考虑因素。无论是提高响应速度,降低延迟,还是减轻服务器负载,开发者都在寻找各种方法来优化他们的API。在Web开发中,利用客户端缓存是一种有效的方法,可以显著提高API的性能。本文将结合Replicant与Delta库,深入探讨如何在.NET中使…

ABB机器人IO板DSQC651维修检查方法

ABB机器人作为工业自动化的重要设备,其稳定性和可靠性对于生产线的持续运行至关重要。然而,在实际使用中,由于各种原因,可能会出现ABB机器人IO板DSQC651故障,影响机器人的正常运行。 一、ABB工业机械臂IO板故障的常见原因 ABB机器人IO板故障的原因可能有很多,常见的包括电…

Flutter进阶(6):详解 Key

一、Key是什么? 用官方的说法就是:Key 是 Widget、Element 和 SemanticNodes 的唯一标识符。 组件在更新的时候,其状态的保存主要是通过判断组件的类型或者 key 值是否一致。因此,当各组件的类型不同的时候,类型已经足够用来区分不同的组件了,此时我们可以不必使用 key。…

数据的涟漪效应:实时数据赋能保险资产管理,打造数字化、信息化、智能化的保险新业态

本期内容以保险公司的具体案例为切入点,探讨数字化技术如何助力保险资产管理行业应对数据管理的挑战并实现创新突破。使用 TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量替代 OGG, Kettle 等同步工具,以及基于 Kafka 的 ETL 解决方案,「CDC + 流处理 + 数…

KingbaseES RAC在线扩容案例

KingbaseES、KingbaseES RAC案例说明: KingbaseES RAC在两节点的基础上,执行在线扩容为3节点。 集群版本: test=# select version();version ---------------------KingbaseES V008R006 (1 row)集群架构:操作系统: [root@node210 KingbaseHA]# cat /etc/os-release NAME=&…