AI 语音独角兽 ElevenLabs C 轮融资估值超 30 亿美元；港科大 Llasa TTS：15 秒声音克隆支持中英双语-编程知识

AI 语音独角兽 ElevenLabs C 轮融资估值超 30 亿美元；港科大 Llasa TTS：15 秒声音克隆支持中英双语

news/2025/3/10 18:41:48/文章来源:https://www.cnblogs.com/Agora/p/18691952

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01 有话题的技术

1、Llasa TTS：文本到语音（TTS）模型，支持中英双语生成

Llasa TTS 是香港科技大学开发的一款基于 LLaMA 微调的文本到语音（TTS）模型，支持中英双语生成。

不仅支持中英文的文本转语音功能，还支持语音克隆，只需 15S 的声音素材即可完美复刻，还能克隆目标语音的情感特色。

模型训练使用了 250,000 小时的中英双语语音数据，与传统的 TTS 模型相比，Llasa 在语音自然性、情感表达以及风格匹配上都有显著提升。

不仅能从纯文本生成语音，还支持通过语音样例提示生成具有类似风格和情感的语音，表现力极其出色。无论是为语音助手生成自然对话，还是用于配音和个性化语音场景，Llasa 都是一个不错的选择。（@开源星探）

2、ByteDance Research 视频理解大模型「眼镜猴」正式发布

最近，ByteDance Research 的视频理解大模型 眼镜猴 （Tarsier）迎来了巨大更新，发布了第二代模型 Tarsier2 及相关技术报告。研究团队此前发布的 Tarsier-7B/34B 在视频描述领域已经是 最强开源模型 ，仅次于闭源模型 Gemini-1.5-Pro 和 GPT-4o。

可以看到，Tarsier2 不仅对于视频中 人物动作 捕捉得细致入微（如小岳岳追车、跪地），还可以充分结合视频中的 字幕信息 ，从而进一步分析人物的动机 / 心理，理解人物关系和情节发展。除此之外，Tarsier 最擅长的视频描述任务自然也不在话下。

无论是真人还是动画、横屏还是竖屏、多场景还是多镜头，Tarsier2 总是能敏锐地捕捉视频中的核心 视觉元素及动态事件 ，使用简练的语言表述出来，并且很少产生幻觉。（@机器之心）

3、J-Moshi：首个日语全双工语音对话系统

https://github.com/nu-dialogue/j-moshi

一、J-Moshi 是日语中第一个全双工（同时双向）语音对话系统。它具有以下特点：

像人类一样同时「说」和「听」
模型尺寸为 7B，重量轻
基于 Kyutai Labs 开发的 Moshi 构建

二、系统主要特点：

可以进行实时语音交互
保持对话的连续性
支持自然同步和重叠

三、技术特点：

采用多流 TTS 技术的自然语音合成
利用大规模日语口语对话数据进行学习
J-Moshi-ext 还利用合成语音数据来提高性能

四、开发背景：

名古屋大学信息学研究生院开发
获得 JST Moonshot 研发项目的支持
与爱信合作建立对话语料库

该系统计划在 2025 年 NLP 会议上展示，目前代码已在 GitHub 上提供。（@チャエン|デジライズ CEO@X）

4、xAI 为 iOS 应用开发语音模式，采用 Grok 和 ElevenLabs 模型

xAI 正在为其 iOS 独立 Grok 应用开发语音模式，该模式由其自家的语音模型以及来自 11 Labs 的模型提供支持。但此功能仍隐藏在功能标志后面，对公众不可用。据报道，提示栏上将有新的语音模式图标，这将打开一个全新的视图以启动语音连接。中间的按钮用作静音，同时也指示连接状态。

将语音模式选择器，用户可以在 Grok 语音或 11 Labs 的模型之间切换。还有多个语音可供选择。到目前为止，有四种不同的选项。除此之外，搜索切换提示 Grok 语音模式也将能够访问实时数据。

该功能本身尚未启用，其发布形式尚不明确。但这对 xAI 来说是一个非常有趣的举措。考虑到这款应用做得很好，增加语音模式将极大地提升该应用的利用率，尤其是在即将推出的 Grok 3 版本中。(@TestingCatalog)

5、AI 语音独角兽 ElevenLabs 完成 2.5 亿美元 C 轮融资，ARR 达 9000 万美元

据多个消息源透露，专注于 AI 语音合成技术的创业公司 ElevenLabs 已完成 2.5 亿美元 C 轮融资，估值达到 30-33 亿美元。本轮融资由 ICONIQ Growth 领投，原有投资方 Andreessen Horowitz 可能跟投。这轮融资较一年前的 B 轮融资估值翻了三倍。

ElevenLabs 成立于 2022 年，由前 Palantir 员工 Mati Staniszewski 和前 Google 员工 Piotr Dabkowski 共同创立。公司主要提供 AI 语音克隆、配音和文本转语音等技术服务，通过 API 形式供企业调用。目前其客户包括 Synthesia、华盛顿邮报、HarperCollins 和贝塔斯曼等知名企业。

据悉，ElevenLabs 的年度经常性收入（ARR）已从 2023 年的 2500 万美元增长至约 9000 万美元。本轮融资后，公司估值与收入的倍数约为 37 倍，相比其他增长最快的生成式 AI 公司 50 倍的估值倍数略显保守。(@Saasverse)

02 有亮点的产品

1、商汤 Vimi 相机改名显演包 APP 已在各个应用商店正式上线

商汤科技旗下的 Vimi 相机更名为显演包 APP，专为创意内容创作者设计，具备 AI 表演功能和活跃的创意社区。用户可通过 AI 角色扮演、变声器与其他创作者互动，上传视频使图片动起来。

显演包 APP 是为创意内容创作者设计的 AI 表演应用，具备强大的生成功能。除此之外，用户可利用 AI 变声器和角色扮演功能，轻松演绎经典角色，丰富创作体验。Vimi 大模型还支持多种驱动方式，用户只需上传图片即可生成数字分身和不同风格的视频。（@AIbase 基地）

2、一张照片生成拜年视频！百度推出「飞帖贺新春」微信小程序功能

近日，百度智能云曦灵数字人推出了一项创新功能——「飞帖贺新春」微信小程序，为传统拜年习俗注入了新的科技活力。这一功能在春节期间免费向公众开放，用户只需上传一张照片，即可快速生成个性化的数字人拜年视频。

「飞帖拜年」源自唐宋年间文人雅士之间的一种拜年习俗，他们将祝福语刻在竹木上互相投递。如今，百度智能云曦灵数字人借助先进的 AI 技术，让这一古老习俗焕发出新的生机。通过「照片数字人视频合成」技术，曦灵小程序利用大模型图像识别算法，为面部关键特征构建初始模型，并通过大量头部动作和面部数据训练动作驱动算法，使数字人面部动作更加自然。同时，曦灵还采用了先进的唇形驱动算法，确保数字人说话时唇形与音频完全同步，让拜年视频更加逼真。

百度智能云曦灵作为全模态应用的数字人平台，致力于为企业提供高可用、高性价比的数字人克隆与应用产品，支持视频创作、对话互动、直播等全场景应用。通过百度在数字人技术领域的多年积累，结合大模型的能力，曦灵数字人不仅具备高效的生成能力和高度逼真的外观，还拥有智能、自然的交互能力。在 2D 数字人方面，曦灵可通过照片或视频快速克隆人像，适用于直播、视频、对话等多种场景。

此外，曦灵还率先在国内推出文生 3D 超写实数字人应用平台，仅需输入一句话，5 分钟即可生成超写实 3D 数字人，并支持无门槛修改。（@AIbase 基地）

03 有态度的观点

1、DeepMind CEO：以现在的标准，实现真正的 AGI 至少需要 5 年

近日，Google DeepMind CEO Demis Hassabis 接受金融时报采访，其表示按目前的标准，实现真正的 AGI 还需要 5 到 10 年。Demis Hassabis 提到，在 DeepMind 的过去 15 到 20 年中，一直坚持一个定义：AGI 是一个能够展现出人类所有认知能力的系统。同时他分析表示，人类大脑是目前在宇宙中发现的唯一一个具有通用智能的例子，所以如果说一个系统有通用智能，那它就应该能做到人类大脑能展现的所有事情。随后 Demis Hassabis 预测，按上述标准来看，实现真正的 AGI 还需要 5 到 10 年时间，并且他认为可能还缺少一两个关键性的突破。(@APPSO)

2、OpenAI 首席产品官表示：2025 年是 AI 智能体之年

在瑞士达沃斯举行的论坛上，OpenAI 首席产品官凯文・韦尔（Kevin Weil）表示，我们正处于人工智能代理的边缘。他预测，到 2025 年，ChatGPT 将不仅仅是一个可以回答各种问题的智能工具，而是能够在现实世界中为用户完成具体任务的「智能助手」。

韦尔强调，人工智能代理将在未来很快能够处理许多日常琐事，这些事情往往让人感到烦恼，比如填写表格、预订餐厅等。他坚信，这种技术的进步是毋庸置疑的，用户将会体验到前所未有的便利。

与此同时，LinkedIn 首席执行官瑞安・罗斯兰斯基（Ryan Roslansky）指出，人工智能正在不断改变人们在职场上所需的技能。他提到，自 2015 年以来，所有工作所需的技能平均变化了 25%，这表明人工智能的影响正在加速，并且这种趋势将在 21 世纪的剩余时间中继续加强。（@AIbase 基地）

更多 Voice Agent 学习笔记：

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨Voice Agent 学习笔记

市场规模超 60 亿美元，语音如何改变对话式 AI？

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/876011.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

The Locker Puzzle

The Locker Puzzle 今天刷到一个很有趣的著名概率题，如果有和我一样闲的人可以一起看看。 Philippe Flajolet和Robert Sedgewick在2009年提出了“百囚犯问题（The Locker Puzzle）”。问题描述在监狱中有100名囚犯，被编号为1-100号。典狱长决定给囚犯们一次特赦的机会，条件…

DDR3 memory type not supported

问题现象电脑开机之后无法进入系统，而是显示下图：解决方法以为是内存条金手指有灰尘导致无法正常读取，插拔擦拭之后问题依旧。在网上查阅资料之后发现可能是内存条的电压与原装的不同，把加装的第二根内存取下之后，电脑正常。hp技术支持中心：https://h30434.www3.hp.co…

Python数据格式转换神器-提高办公效率

Python办公技巧，数据转换神器，提升工作效率一、引言在工作日常里，数据转换总是让人头疼？别急，今天揭秘一个超级实用的Python技巧，帮你轻松搞定各种数据格式转换，提升工作效率不是梦！场景1：你手头有一堆CSV格式的(逗号分隔符)数据，其他部门或公司需要你提供其中几列关…

Python Functools模块

代码：#coding=utf-8import functools from functools import cache from functools import cached_property, lru_cache from functools import partial, partialmethod from functools import singledispatch, singledispatchmethod from functools import update_wrapper, w…