Tavus 发布对话轮次控制模型:能理解对话节奏和意图;百度推出 AI 情感陪伴应用月匣,整合 MiniMax 等模型丨日报

news/2025/3/12 19:05:41/文章来源:https://www.cnblogs.com/Agora/p/18765781

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、腾讯混元-TurboS:首个混合 Transformer-Mamba MoE 超大模型来了

 

腾讯混元团队发布了他们最新的力作—— Hunyuan-TurboS ,首个混合 Transformer-Mamba MoE 架构的超大模型大家都知道,传统 Transformer 模型在处理长文本时一直面临挑战,O(N²)的复杂度以及 KV-Cache 问题让长文本训练和推理效率大打折扣。 而这次,混元-TurboS 巧妙地融合了 MambaTransformer 两种架构的优势:

 

  • Mamba 的高效长序列处理能力

  • Transformer 强大的上下文理解能力强强联合,效果自然惊艳!官方数据显示,Hunyuan-TurboS 在多个关键 benchmark 上表现出色:

  • 数学、推理、对齐 能力超越或持平 GPT-4o-0806DeepSeek-V3 以及各类开源模型。

  • 知识 能力同样突出,在 MMLU-Pro 等专业评测中也具备竞争力

 

 

 

Hunyuan-TurboS 的 推理成本 相比之前的 Turbo 模型 降低了整整 7 倍 。 性能提升的同时,成本大幅下降为了进一步提升模型能力,混元团队还对 TurboS 进行了多项 后训练优化:

 

  • 引入 慢思考(Slow-thinking)集成 ,显著提升了模型在数学、编程和推理任务上的表现。

  • 通过 精细化的指令调优 ,增强了模型的对齐性和 Agent 执行能力。

  • 进行了 英语训练优化 ,从而提升模型的通用性能。除了模型架构和训练优化,混元团队还升级了 奖励系统:

  • 采用 基于规则的评分和一致性验证 ,保证模型输出的质量和可靠性。

  • 引入 代码沙箱反馈 ,大幅提升模型在 STEM 领域的准确性。

  • 使用 生成式奖励 ,优化模型在问答和创意性任务上的表现,并有效减少奖励作弊现象。(@AI 寒武纪)

 

2、Tavus 发布轮次控制模型 Sparrow-0:能够理解对话节奏、意图和节拍

 

Tavus 发布了其下一代情感智能操作系统,其中包括轮次控制模型 Sparrow-0,旨在让 AI 对话更自然。

 

传统 AI 经常在不恰当的时候打断或停顿,导致交互体验不佳。Sparrow-0 基于 Transformer 的轮次控制引擎,通过理解对话的节奏、意图和节拍来解决这个问题。它不仅能检测静默,还能实时适应对话,确保流畅自然的交流。

 

Sparrow-0 的主要特点:

 

  • 对话感知: 通过语调、节奏和语义分析,精准判断最佳回应时机。

  • 轮次敏感与控制: 能够捕捉细微的语言线索,尊重停顿,灵活适应不同对话风格。

  • 时机智能: 根据语音模式动态调整响应延迟,使 AI 对话更自然。

  • 极速响应: 响应时间小于 600 毫秒,确保实时流畅的交流。(@带你学 AI)

 

3、RWKV 基金会正式发布 RWKV7-G1 0.1B 推理模型,原生支持 100+ 种语言和代码

 

2025 年 3 月 10 日,RWKV 基金会正式发布 RWKV7-G1 0.1B 推理模型。这是 RWKV-7 系列的首个 Reasoning Model,具备强大的推理能力,并且 原生支持 100+ 种语言和代码。

 

尽管仅有 0.1B 参数规模,RWKV7-G1 依然能够回答开放性和创造性问题,在多任务处理上表现突出。

 

RWKV7-G1 系列的核心特点

 

💡 模型背景

 

RWKV7-G1(「GooseOne」)基于 World v3.5 数据集 继续训练 RWKV-7 「Goose」World 系列。

 

World v3.5 数据集包含 更多小说、网页、数学、代码及推理(reasoning)数据 ,总量达到 5.16T tokens 。其中,RWKV7-G1 0.1B 在训练过程中 随机采样 1T tokens 进行学习。

 

💡 高效推理,适用于移动端和嵌入式

 

RWKV 团队表示,目前 RWKV7-G1 1.5B 已可在 高通 8gen3 以 62 token/s 速度运行 ,而 0.1B 版本甚至可在 树莓派 上流畅运行,适合移动设备和嵌入式应用开发。(@Safphere)

02、有亮点的产品

1、苹果新专利,允许摄像师在 Vision Pro 上添加额外的摄像头和音频系统

 

据 patentlyapple 报道,近日,美国专利局公布了三项新的 HMD 相关专利申请。其中一项主要专利涉及一种摄像师配件,该配件允许摄像师在 Vision Pro 上添加额外的摄像头和音频系统,旨在提供稳定功能和增强拍摄过程中的运动。另外两项专利涉及 Vision Pro 使用头部运动来滚动内容,以及涉及显示器的缓冲垫。

 

 

(图片来源:patentlyapple)

 

据专利描述,头戴式设备可用于捕获、创建和编辑媒体,例如,通过捕获图像、录制音频等。此类捕获和录制操作可在用户佩戴头戴式设备时执行。这可允许用户在佩戴头戴式设备时通过自然移动来确定要捕获的视野。当此类捕获和录制操作生成媒体时,可在回放操作中查看该媒体。这可在相同或不同的电子设备上完成。因此,其他人可在稍后体验捕获和录制的图像和/或音频。当用户佩戴头戴式设备时进行捕获,用户的移动可以决定头戴式设备捕获的视野。最好提供机制来支持、引导和/或增强用户和头戴式设备在捕获过程中的移动,以便录制的媒体在播放时具有所需的功能。

 

本专利的系统和设备可以包括稳定功能,以支持头戴式设备,从而促进和增强捕获过程中的运动。系统可以包括一个与头戴式设备接合并提供外部环境视图的外壳。系统提供的支撑可以为佩戴头戴式设备的用户提供广泛的运动范围(例如,平移和倾斜),同时还可以引导范围内的运动。(@patentlyapple)

 

2、百度推出 AI 情感陪伴类 App「月匣」 搭载 DeepSeek 等模型

 

 

百度近期悄然上线了一款名为「月匣」的情感陪伴类 App,该应用以高自由度 AI 对话与沉浸式剧本互动为核心功能,旨在泛娱乐社交领域探索新的发展方向。

 

月匣不仅搭载了百度自研的文心一言大模型,还整合了 DeepSeek、豆包、MiniMax abab 三大外部大模型,这一创新设计使得月匣能够覆盖从知识问答到内容共创的全链路社交需求,为用户提供更为丰富和个性化的交互体验。

 

目前,月匣的聊天对象涵盖了后宫、穿越、玄幻、职场等 300 多个类型,用户可以像刷短视频一样切换聊天对象,享受不同的剧情和故事。聊天记录会保存在用户的个人中心内,方便用户随时回顾和分享。

 

月匣通过多模型协同+沉浸式剧本交互的创新架构,重新定义了情感陪伴类应用的边界。(@AIbase 基地)

 

3、一加 13 手机推新 ColorOS 15.0.0.701,首发 AIGC 合成语音识别功能

 

 

一加 13 手机迎来了 ColorOS15.0.0.701 版本的重大升级。这次更新的系统包大小约为 1.33GB,除了诸多优化和修复,还引入了行业首发的 AIGC 合成语音识别功能,为用户的安全与便利提供了全新保障。

 

此次更新中,桌面功能得到了显著改善,用户现在可以通过拖拽的方式轻松调整文件夹的大小至 1×2 或 2×1 的尺寸。同时,在桌面四列布局下,用户可以在 dock 栏中放置多达五个应用,使得手机的操作更加灵活方便。此外,通知和控制中心的动画流畅度也进行了优化,让用户的操作体验更加丝滑顺畅。

 

在安全与隐私方面,新增的 AIGC 合成语音识别功能可智能识别通话中对方声音是否经过 AI 合成或变声,大大降低了用户在网络通话中受骗的风险。 此外,手机管家的隐私中心模块也上线,支持定期检测权限的过度授权行为,便于用户一键回收闲置权限。值得注意的是,如果应用在后台连续三天读取位置信息,系统将主动弹出提醒,保护用户的个人信息安全。

 

在网络通信方面,WLAN 网络连接体验同样得到了优化,特别是在抖音直播和微信视频通话时,流畅性显著提升。此外,新增的智慧车载投屏功能,允许用户将手机上的所有应用投屏至车载屏幕上使用,为车主提供了更多的便捷体验。(@AIbase 基地)

03、有态度的观点

1、图灵奖得主:科学里没有权威

 

 

近日,2024 年图灵奖(ACM A.M。 图灵奖)获得者 Richard Sutton 接受了一场独家采访。他表示,当初收到获奖通知时完全出乎意料,甚至因忘记会议时间而迟到,直到看到一群他略感面熟的前图灵奖得主才意识到发生了什么。在访谈中,Sutton 强调了强化学习的核心理念——从经验中学习。他指出这与大语言模型等其他人工智能技术有着本质区别,大语言模型主要是从人类那里学习并模仿人类行为,而强化学习是从直接经验中学习,这是最自然的学习方式。Sutton 还特别提到,这一理念可以追溯到人工智能之父艾伦·图灵。

 

早在 1947 年,图灵在伦敦数学学会的演讲中就明确表示「我们想要的是一台能从经验中学习的机器。」不仅如此,图灵还提出了奖励和惩罚的概念,这正是现代强化学习的基础。面对近年来强化学习技术在 AlphaGo 和最近 DeepSeek 等项目中的重大突破,Sutton 保持着冷静的态度。他认为 AI 的发展是一场马拉松而非短跑,尽管取得了巨大进步,「AI 最具影响力的部分还没到来。」对于年轻研究者,这位图灵奖得主建议要志向远大,但别骄傲自满。

 

他特别强调了「科学里没有权威」的理念,鼓励研究者保持质疑精神,不论对方拥有什么头衔或荣誉。Sutton 也分享了自己的一个重要理念:「每个人能做的最重要贡献,往往是那些对自己来说显而易见的东西。」这也许正是这位强化学习先驱最终获得计算机科学最高荣誉的秘诀。(@APPSO)

 

 

更多 Voice Agent 学习笔记:

 

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/897368.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

clickhouse 25.2.1 集群部署

依赖条件 sysctl.conf echo "kernel.threads-max = 262144" >> /etc/sysctl.conf && sysctl -p Huge Pages(按需修改) 编辑 /etc/default/grub,在 GRUB_CMDLINE_LINUX 参数中添加: GRUB_CMDLINE_LINUX="... transparent_hugepage=never"…

可视化图解算法:链表指定区间反转

对于链表的相关操作,我们总结了一套【可视化+图解】方法,依据此方法来解决链表相关问题,链表操作变得易于理解,写出来的代码可读性高也不容易出错。1. 题目 描述 给你单链表的头指针 head 和两个整数 left 和 right ,其中 left <= right 。请你反转从位置 left 到位置 …

ov5640原理讲解

Camera开发-OV5640(MIPI)-CSDN博客

[I.2] 个人作业:软件案例分析

[I.2] 个人作业:软件案例分析项目 内容这个作业属于哪个工程 https://edu.cnblogs.com/campus/buaa/BUAA_SE_2025_LR这个作业的要求在哪里 https://edu.cnblogs.com/campus/buaa/BUAA_SE_2025_LR/homework/13367我在这个课程的目标是 学习团队软件开发方式, 丰富开发经验这个作…

应对SQLyog trial到期方式:删脚本!

(1)进入注册表中的HKEY_CURRENT_USER\SOFTWARE路径 (2)找到{d58cb4b1-47f3-45cb-a209-f298d0c3f756}文件夹 删除掉!! (3)到期了删一回

React18 React中的REF的使用

想要获取元素操作DOM,React中该怎么做呢?~ 首先肯定是要在DidMount周期函数中调用啦需要真实dom为前提嘛 1. 和VUE一样,可以使用this.$refs.xxx,结合元素中放置ref属性 【其实不推荐这样~】2.可以使用document.querySelector(xx)获取 3.把ref属性值设置为一个函数的形式获取…

3ds Max 2025下载与安装教程

Autodesk 3ds Max 是专业的三维建模、渲染和动画软件,可助您创建广阔的世界和优质的设计。使用强大的建模工具为环境和景观注入活力。 使用直观的纹理和明暗处理工具创建精细的设计和道具。 迭代和生成具有全方位艺术控制的专业级渲染‌3Dmax 2025的安装要求:‌操作系统‌:3…

Java多线程(一)---- 创建与使用

JUC Java多线程是一个非常复杂的知识点,今天这篇我们就来说说Java多线程的多种实现方式吧。 Thread 构造 Thread类可以说是非常基础的一个类了,通过继承Thread类,我们可以成功的创建一个“线程类”。 public class threadDemo {public static class threadDemo extends Thre…

Office 2024软件下载与安装教程

安装系统要求: 以下操作系统支持 Office LTSC 2024:Windows 11* Windows 10 Windows 10 LTSC 2021 Windows 10 LTSC 2019 Windows Server 2022设备至少需要一个 1.1 GHz、双核处理器、4 GB RAM、4 GB 可用磁盘空间,以及分辨率为 1280 x 768 的显示器才能运行 Office LTSC 20…

Visio 2024软件下载与安装教程

Microsoft Visio 2024专业版是一款专业的专业矢量绘图软件。Visio 2024不但新增了许多功能,而且还优化了众多性能,比如用户界面优化、更多图形元素库、允许用户邀请其他人一起编辑和查看图表、过程自动化等等,其一系列的改动旨在给予用户们最直观、最便利的操作体验! 操作系…

PhpStorm 2024 软件下载与入门级安装教程

高效智能的 PHP IDE 支持主流框架 PhpStorm完美支持Symfony、Drupal、WordPress、Zend Framework、Laravel、Magento、 Joomla!、CakePHP、Yii ...等各种主流框架。 全能的PHP工具 内建编辑器实际“了解”您的代码并且深刻理解其结构,支持所有PHP语言功能, 在开发现代技术和维…

在华为开发者空间:体验用仓颉基于DeepSeek开发智能聊天机器人

在华为云开发者空间体验YOLOV3。本文分享自华为云社区《华为开发者空间:基于仓颉编程语言和DeepSeek开发智能聊天机器人》,作者:开发者空间小蜜蜂。 华为开发者空间,汇聚鸿蒙、昇腾、鲲鹏、GaussDB、欧拉等各项根技术的开发资源及工具,致力于为每位开发者提供一台云主机、…