CosyVoice 2.0 支持双向流式语音合成;无问芯穹开源全模态理解端侧模型丨RTE 开发者日报

news/2025/3/10 14:55:10/文章来源:https://www.cnblogs.com/Agora/p/18610858

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、语音生成大模型 CosyVoice 升级 2.0 版本

 

CosyVoice 是阿里巴巴通义实验室语音团队于今年 7 月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice 具有韵律自然、音色逼真等特点。自开源以来,CosyVoice 凭借高品质的多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言的细粒度控制能力获得了广大社区开发者们的喜爱和支持。

 

如今,CosyVoice 迎来全面升级,我们将发布 CosyVoice2.0 版本,提供更准、更稳、更快、 更好的语音生成能力。

 

超低延迟:CosyVoice 2.0 提出了离线和流式一体化建模的语音生成大模型技术,支持双向流式语音合成,在基本不损失效果的情况下首包合成延迟可以达到 150ms。

 

高准确度:CosyVoice 2.0 合成音频的发音错误相比于 CosyVoice 1.0 相对下降 30%~50%,在 Seed-TTS 测试集的 hard 测试集上取得当前最低的字错误率。合成绕口令、多音字、生僻字上具有明显的提升。

 

强稳定性:CosyVoice 2.0 在零样本语音生成和跨语言语音合成上能够出色地保证音色一致性,特别是跨语言语音合成相比于 1.0 版本具有明显提升。

 

自然体验:CosyVoice 2.0 合成音频的韵律、音质、情感匹配相比于 1.0 具有明显提升。MOS 评测分从 5.4 提升到 5.53(相同评测某商业化语音合成大模型为 5.52)。同时, CosyVoice 2.0 对于指令可控的音频生成也进行了升级,支持更多细粒度的情感控制,以及方言口音控制。(@阿里语音 AI)

 

2、Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型

 

Nexa AI 近日推出了其全新的 OmniAudio-2.6B 音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B 将 Gemma-2-2b、Whisper Turbo 以及定制的投影仪集成到一个统一框架中,这一设计消除了传统系统中各个组件链接所带来的低效率和延迟,特别适用于计算资源有限的设备。

 

主要亮点:

 

  • 处理速度: OmniAudio-2.6B 在性能上表现出色。在 2024Mac Mini M4Pro 上,使用 Nexa SDK 并采用 FP16GGUF 格式时,模型可实现每秒 35.23 个令牌的处理速度,而在 Q4_K_M GGUF 格式下,可处理每秒 66个令牌。与之对比,Qwen2-Audio-7B 在相似硬件上只能处理每秒 6.38 个令牌,展示出显著的速度优势。

  • 资源效率: 该模型的紧凑设计有效减少了对云资源的依赖,使其成为功率和带宽受限的可穿戴设备、汽车系统及物联网设备的理想选择。这一特点使其能够在有限的硬件条件下实现高效运行。

  • 高准确性和灵活性: 尽管 OmniAudio-2.6B 专注于速度和效率,其在准确性方面也表现不俗,适用于转录、翻译、摘要等多种任务。无论是实时语音处理还是复杂的语言任务,OmniAudio-2.6B都能够提供精准的结果。(@ AIbase 基地)

 

3、微软推出基于合成数据集的新一代 Phi-4,小模型也可以擅长数学推理

 

根据 Tech Crunch 报道,微软宣布推出其 Phi 系列生成式 AI 模型的最新版本——Phi-4。据微软介绍,Phi-4 在多个领域相较于其前代模型都有所改进,尤其是在数学问题解决方面。这一进步部分得益于更高质量的训练数据。

 

从周四晚间开始,Phi-4 以非常有限的形式开放,仅在微软最近推出的 Azure AI Foundry 开发平台上可用,并且仅限于基于微软研究许可协议的研究用途。

 

这是微软最新的小型语言模型,参数规模为 140 亿,与其他小型模型如 GPT-4o Mini、Gemini 2.0 Flash 和 Claude 3.5 Haiku 竞争。这类小型语言模型运行速度更快,成本更低,但近年来小型语言模型的性能也在逐步提升。

 

微软表示,Phi-4 性能的提升得益于使用了「高质量的合成数据集」,以及高质量的人类生成内容数据集和一些未公开的后期训练改进。

 

值得注意的是,Phi-4 是微软自塞巴斯蒂安·布贝克(Sébastien Bubeck)离职后发布的首个 Phi 系列模型。布贝克此前是微软 AI 部门副总裁,也是 Phi 模型开发的核心人物,他于今年 10 月离开微软加入 OpenAI。(@ Z Finance)

 

4、无问芯穹发布全球首个全模态理解开源端模型:长语音自动总结,轻松处理图文音

 

无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型 Megrez-3B-Omni,不仅体积轻巧,速度飞快,更是一个多才多艺的全能选手,能够轻松处理图片、音频、文本三种模态数据。

 

在众多测评基准中,Megrez-3B-Omni 在图片、文本、音频三个模态中均取得了同尺寸下最优性能。作为一个 3B 模型,综合性能表现甚至能超过 34B 模型。

 

具体来说,Megrez-3B-Omni 采用了专为手机、平板等端侧设备量身定制的 30 亿参数黄金尺寸,其主干网络参数规模仅有 2.3B,精度超越了上一代 14B 模型,做到了最大推理速度比同精度模型快达 300%。(@ 量子位)

02有亮点的产品

1、Moonvalley:AI 视频生成黑马,获顶级机构近亿美金美元投资

 

 

Moonvalley 是一家新兴的生成式视频公司,在 Discord 上拥有超过 100,000 名用户,其核心产品先进的文本到视频生成平台,用户只需输入文本提示即可生成多种风格的视频,包括动漫、3D 动画和现实主义风格。

 

根据 CEO Talukdar 的说法,其核心视频生成模型尚未完全训练完成,预计将在今年晚些时候推出首个版本。公司特别强调其在数据使用方面的合规性,是少数严格采用「选择加入」授权数据的企业之一。

 

在技术创新方面,Moonvalley 正致力于解决视频 AI 领域的关键挑战,包括精确的对象控制、模型清洁度以及专业工作流程工具的开发,旨在为品牌广告和电影制作等创意产业打造一个功能强大的原生 AI 设计平台,以实现前所未有的精确度、协作效率和定制化能力。

 

这一愿景也得到了投资界的认可,公司于 2024 年 11 月 18 日宣布完成 7050 万美元融资,由 General Catalyst 和 Khosla Ventures 领投,Bessemer Ventures 参投,为其技术研发和市场拓展提供了强有力的资金支持。

 

CEO Talukdar 曾在 Zapier 负责产品增长,他招募了前 DeepMind 的科学家 Mateusz Malinowski 和 Mik Binkowski 一起创立 Moonvalley,后两者曾在 DeepMind 期间研究视频生成技术。公司有约 30 名员工,从公司披露的团队名单看,有 8 位来自前 DeepMind 的成员,另外还有多位来自 Google、meta、TikTok、Snap 公司的成员。(@ Z potentials)

 

2、OpenAI 计划推出 2000 美金/月的 AI Agent

 

据「彭博社」报道,OpenAI 首席财务官 Sarah Friar 表示,OpenAI 正在为其 AI 产品计划推出 2000 美元/月的订阅会员,并且由于其具备「博士级智能」,该产品可以作为雇用人类的「替代品」。

 

Sarah Friar 表示,OpenAI 即将推出的将会是一款 AI Agent,并且 Sarah Friar 认为软件可能会由此转向基于价值的定价模型,通过订阅这个 AI Agent 来让 AI 自主完成一些复杂任务,例如预定旅行,或者进行科研任务。(@ APPSO)

03有态度的观点

1、OpenAI 首席科学家:预训练即将终结

 

在近期举办的人工智能顶会 NeurIPS 2024 中,OpenAI 首席科学家发表了个人最新演讲,表示预训练即将终结。

 

演讲中,Ilya Sutskever 表示,虽然计算能力在不断增长,硬件和算法的进步使得神经网络的训练效率得到了提升,但数据的增长却已接近瓶颈。

 

他认为,「虽然当前我们仍然可以使用现有数据进行有效训练,但这一增长趋势终将放缓,预训练的时代也会逐步结束。」

 

在谈到人工智能的未来发展方向时,Ilya Sutskever 指出,虽然当前的语言模型和 AI 系统在某些任务上表现出超人类的能力,但它们在推理时仍显得不稳定和不可预测。

 

他还在演讲中进一步推测,未来的 AI 将不仅仅是执行任务的工具,而会发展成能够自主进行推理和决策的「Agent」。(@ APPSO)

 

 

更多 Voice Agent 学习笔记:

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

 

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

 

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

 

Voice-first,闭关做一款语音产品的思考|社区来稿

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/853895.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式锁代码编写问题分析

分布式锁代码编写问题分析 先给大家一段代码示例:@AutowiredRedisson redisson;@GetMapping("/modifyInfo/{id}")public Result modifyInfo(@PathVariable String id) {String lockKey = RedisLockConstant.ERP_CLUE_LOCK + id;RLock rLock = redisson.getLock(lo…

AlmaLinux 10.0 Beta “Purple Lion” - RHEL 二进制兼容免费发行版

AlmaLinux 10.0 Beta “Purple Lion” - RHEL 二进制兼容免费发行版AlmaLinux 10.0 Beta “Purple Lion” - RHEL 二进制兼容免费发行版 由社区提供的免费 Linux 操作系统,RHEL 二进制兼容发行版 请访问原文链接:https://sysin.org/blog/almalinux-10/ 查看最新版。原创作品,…

leetcode2055. 蜡烛之间的盘子 - 前缀和

这道题目作为比较单纯的前缀和题目,不需要额外的一些知识,只需要了解前缀和数组的生成与使用即可,并且也有一定的难度(难度分1819),是一个比较好的前缀和例题。 题干 算术评级: 6第 64 场双周赛Q3 给你一个长桌子,桌子上盘子和蜡烛排成一列。给你一个下标从 0 开始的字符…

云原生周刊:Kubernetes v1.32 正式发布

云原生周刊:Kubernetes v1.32 正式发布 开源项目推荐 Helmper Helmper 简化了将 Helm Charts导入OCI(开放容器倡议)注册表的过程,并支持可选的漏洞修复功能。它确保您的 Helm Charts不仅安全存储,还能及时应用最新的安全修复。该工具完全兼容 OCI 标准,能够方便地与 OCI …

五款实用报表工具推荐:助你轻松搞定数据可视化!

概述 本文将为大家介绍五款功能各异的报表工具,包括山海鲸报表、Canva、BIRT、Chart.js和Metabase。文章详细分析了每款工具的特点、优缺点以及适用场景,帮助企业用户根据自身需求选择合适的报表解决方案,以提高数据分析和可视化能力。 1. 山海鲸报表 简介山海鲸报表是一款国…

三、USB PD物理层

1、定义 物理层(PHY层)定义了USB电源传输的信令技术。本章定义了USB PD设备之间的互操作性所需的PD物理层的电气要求和参数。 2、物理层的功能 USB PD物理层由一对发射机和接收器组成,它们通过单个信号线(CC)进行通信。所有的通信都是半双工的。PHY层实现了避免冲突,以最小…

FineReport模板性能问题排查方法

1. 概述 模板的加载速度受到很多因素影响,如果一个模板预览的时候,加载较慢,该如何去分析问题原因呢? 2. 排查步骤 2.1 查看数据集查询速度 大部分模板加载慢,都是因为 sql 执行速度比较慢。那么如何验证 sql 速度快慢呢?可以使用以下几种方案。 1)在设计器的数据集中直…

模板性能问题排查方法

1. 概述 模板的加载速度受到很多因素影响,如果一个模板预览的时候,加载较慢,该如何去分析问题原因呢? 2. 排查步骤 2.1 查看数据集查询速度 大部分模板加载慢,都是因为 sql 执行速度比较慢。那么如何验证 sql 速度快慢呢?可以使用以下几种方案。 1)在设计器的数据集中直…

【bug】重复请求的幂等问题

问题背景 某验收系统,客户发起验收流程时,由于前端没有做防重点击的限制,导致申请按钮连续点击了多次,重复发起了多条流程 历史逻辑 后端为了保证接口幂等,在发起验收流程的代码中加了几层逻辑如下:判断验收记录状态是否为待发起, 如果不是,则立刻返回失败 发起流程的入…

Deformable DETR

PDF:https://arxiv.org/pdf/2010.04159 Code:https://github.com/fundamentalvision/Deformable-DETR 一、大体内容 前面介绍DETR时,说明了其还存在对小物体检测效果不佳和训练慢的问题,Deformable DETR引入了DCN(Deformable Convolutional Networks)并将其和DETR相结合,借…

【蓝队】HW中盛行的Java内存马,如何全面检测?

一、背景 1.1 Java内存马是什么? 内存马是一种仅在内存中运行、没有文件落地的恶意程序,因此具有较强的隐蔽性,能够避开常规的基于文件系统的检测。Java内存马是针对Java语言的内存马,它利用Java语言的动态特性,如类加载机制、动态代理和反射技术等,在Java应用的内存中注…

Express的使用笔记9 使用bcrypt算法给用户密码加密

先了解一下bcrypt算法,一种基于Blowfish密码学算法的密码散列函数,用于在密码存储时抵抗暴力破解攻击,通过在散列过程中加salt来提高安全性,salt是个随机生成的数据串,与密码一起被散列,使得即使两个相同的密码也会产生不同的散列值。bcrypt算法允许开发者指定工作因子(…