ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

news/2025/3/17 20:23:01/文章来源:https://www.cnblogs.com/Agora/p/18777502

 

 

图:Emmanuel Ashun / Endeavor

 

大家好,这是 Voice Agent 学习笔记系列的第 23 篇,我是课代表十三🧑‍💻。

 

ElevenLabs 是一家专注于人工智能语音技术的创新公司,致力于重新定义音频体验。凭借其突破性的语音克隆和配音工具,ElevenLabs 正在重塑音频内容创作的未来,让高质量、易于访问的音频内容触手可及。

 

ElevenLabs 由两位极具天赋的创始人共同创立。CEO Mati Staniszewski 曾就职于 Palantir,拥有深厚的产品经验。他与童年好友 Piotr Dabkowski(前 Google 机器学习工程师)于 2022 年 4 月共同创立了 ElevenLabs,初衷是解决配音质量低劣的问题。

 

2025 年 1 月,ElevenLabs 宣布完成 1.8 亿美元 C 轮融资,估值高达 33 亿美元,由 a16z 和 ICONIQ Growth 联合领投。同年 2 月,ElevenLabs 发布了其首个语音转文本 (STT) 模型 Scribe v1,声称支持 99 种语言,并在准确性方面达到行业领先水平。

 

在 24 年 11 月 Slush 2024 大会上,Mati Staniszewski 受邀与 a16z 的 Bryan Kim 一同分享创业洞见,探讨如何成功创办人工智能应用公司并获得融资,技术与产品技能如何完美结合,以及在 AI 时代,如何巧妙平衡消费者市场和企业市场等关键问题。

 

我们摘录了本次访谈的部分精彩内容,希望能带来关于 AI 语音领域的新视角和启发。Enjoy~

 

核心要点:

 

 

Mati StaniszewskiElevenLabs 联合创始人兼 CEO

 

  • ElevenLabs 的创立初心: 受波兰外语电影粗糙配音的困扰,两位联创 Mati 和 Piotr 决心改进语音合成技术,让用户以偏好语言欣赏内容,同时保留原作的情感、语调和创意。

  • **a16z 投资 ElevenLabs 的原因:**a16z 认为音频是人类最重要的沟通媒介之一,这是在书写文字尚未出现前最重要的沟通方式,拥有巨大的未开发潜力,他们也投资过类似 Clubhouse 这样的语音公司。

  • 技术+产品,团队互补性的重要性: Mati 对用户需求的深刻洞察与 Piotr 的技术前瞻性完美互补,共同驱动 ElevenLabs 打造出既拥有领先技术,又具备卓越用户体验的创新产品。就像把维生素 C 做成小熊软糖那样,这种团队互补性,是 ElevenLabs 成功的关键。

  • 技术驱动,用户至上是快速增长秘诀: ElevenLabs 将前沿研究与产品开发紧密结合,重视用户体验,通过早期用户反馈不断调整和优化产品,并保持快速迭代的节奏。

  • ElevenLabs 的产品发布策略: 质量、安全和产品形态是 ElevenLabs 内部决策重点,严格把控产品质量和安全性,并通过用户测试不断优化使用体验。

  • 快速迭代的重要性: 优秀创业者需具备极高的产品迭代速度,快速推出新产品才能跟上市场步伐,同时重视产品安全性。

  • 客户群体和发展策略: 通过创作者和产消者(prosumer)用户积累口碑,吸引企业客户,强调产品本身的价值和用户体验是拓展市场的关键。

  • 专注音频,构建生态护城河: 专注于音频领域,构建围绕特定模式的护城河(语音库、语音市场等),打造开放的生态系统。

  • 未来计划: 继续加大在技术研发方面的投入,开发新一代模型,结合大量音频技术和更广泛的 LLM 技术,增强音频的表达能力,提升用户沉浸式体验。

打造无障碍音频世界

Building Universal Audio Access: Mati Staniszewski (ElevenLabs) & Bryan Kim (a16z) | Slush 2024

 

主持人: Tom Mackenzie,彭博社记者嘉宾: Mati Staniszewski, ElevenLabs 联合创始人兼 CEO;Bryan Kim,a16z 合伙人

 

注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。

 

 

Tom Mackenzie(主持人): Mati 和 Bryan,非常高兴能与二位一同参与本次访谈。本次访谈计划涵盖以下议题:首先,回顾 ElevenLabs 的创立历程,并了解二位相识的契机;其次,深入探讨 Mati 及其团队当前正在研发的产品;最后,展望 ElevenLabs 的未来发展。

 

ElevenLabs 近期备受关注,已完成超过 1 亿美元的融资,公司估值超过 10 亿美元(编者注:对话发生在 2024 年 11 月,目前估值已达 33 亿),成功晋升为独角兽企业,其投资者阵容包括 a16z、红杉资本,以及 Oculus 和 Instagram 的创始人等。那么,是什么想法孕育了 ElevenLabs?请带我们回到最初的起点。

 

Mati Staniszewski: 感谢邀请,非常荣幸能参与本次访谈。正如 Tom 所述, ElevenLabs 专注于音频领域,涵盖相关研究和产品开发,旨在提升内容在声音和语言层面的可访问性和理解度。 我非常幸运,早在十四年前便在波兰结识了我的联合创始人 Piotr。我们既是高中同学,也是之后学习、工作和旅行的伙伴,最终一同创立了 ElevenLabs,至今仍保持着挚友关系。

 

ElevenLabs 的诞生灵感源于波兰的特殊文化现象:在波兰观看外语电影时,所有角色,无论男女,都由同一位配音演员进行配音。这种体验往往不尽人意,影片的情感、语调和创意大打折扣。我们希望通过 ElevenLabs 来改变这一现状, 使用户能够以自己偏好的语言欣赏各类内容,同时保留原作的创意和精髓。 这便是 ElevenLabs 的最初愿景。随着业务发展,我们的领域拓展至整个音频产业,包括有声读物、语音合成以及多样化的语音库等等。

ElevenLabs 融资故事:a16z 为何重金押注音频 AI 的未来

Tom Mackenzie(主持人): Bryan,你最初是在什么时候注意到 ElevenLabs,以及 Mati 和 Piotr 他们的团队?是什么特质吸引了你?

 

Bryan Kim:我认为音频作为一种沟通媒介始终具有非凡的吸引力。 事实上,在文字出现之前,人类就已经利用声音进行交流。我曾投资 Clubhouse 等多家公司,深知音频的重要性。大约一年半前,ChatGPT 的问世使我们产生了一个设想:未来可能会涌现出一批专注于特定领域的 LLM 模型。 每个领域,如音频、图像、视频和 3D 世界,都可能孕育出各自的领军者。

 

作为投资机构,我们一直在积极寻找这些潜在赢家,而音频始终是我们重点关注的领域之一。因此,我们开始接触音频领域的各类公司,包括 ElevenLabs 的一些竞争对手。大约在 23 年的一二月份,我们与 Mati 进行了会面。此前,我们已经对整个音频领域进行了深入研究,并了解了各个团队的技术方案。我们之所以没有立即做出投资决定,是因为一直没有遇到真正让我们眼前一亮的项目。

 

Mati 向我们讲述了他的创业故事。我在韩国长大,至今记得 25、30 年前,电影《燃情岁月》中的 Brad Pitt 由一位韩国女配音演员进行配音,效果非常糟糕。 Mati 表示他希望改变这种现状,这让我们感到非常振奋,认为 ElevenLabs 有潜力能够打破「巴别塔」,利用 AI 和音频的结合真正改变世界。 此外,我们也看到了 ElevenLabs 团队在技术和产品方面展现出的深厚实力。最终,我们决定投资这个团队。

 

经过一番努力,我们安排了在旧金山时间早上 9 点与 Mati 进行最后一次通话。我们问了一个经常会问的问题:「我们是你们的首选投资方吗?」通常情况下,我们希望听到「我们非常喜欢你们,非常期待和你们合作」这样的回答。但 Mati 只是说:「我们挺喜欢你们的。」当时我们就意识到情况可能有些不妙。a16z 内部有一句名言:「要么赢,要么输」。我们当时觉得很可能会输掉这次机会。

 

我立刻用 5 分钟收拾好行李,让助理紧急预定了早上 10:30 从旧金山飞往伦敦的航班(当时 9:05)。在飞行过程中,我们完成了演示文稿,并与 Mati 商定了在伦敦的会面地点。我在伦敦总共停留了 4 个小时,其中 2 个小时都花在了从机场前往诺丁山的路上。我们最终在 Electric House 见了面,进行了一次愉快的交流。我在一张纸上潦草地写下了一些内容,然后拍了一张照片,便匆匆赶回了在拉斯维加斯举行的团队活动。而就在第二天,硅谷银行倒闭了。

 

Tom Mackenzie(主持人): 哇!Mati,听起来你当时是在故意吊人胃口啊。你当时炙手可热,根本不需要主动找投资者,红杉资本、a16z 等都在争抢你。

 

Mati Staniszewski: 是的,我们当时确实是在「欲擒故纵」。不过我必须澄清一点,我们非常喜欢 a16z,他们是一个非常优秀的投资机构。

AI 音频领域的「小熊软糖创始人」:技术与产品的完美结合

Tom Mackenzie(主持人): Bryan,你刚刚提到 ElevenLabs 团队兼具产品和技术优势。Piotr 此前在 Google 的机器学习团队工作,而 Mati 则来自 Palantir,主要负责产品。能谈谈这种组合的重要性吗?你认为这种组合是否罕见?

 

Bryan Kim: 对此我有两点感受。首先,我之前在 Snapchat 工作,亲眼见证了 Snap 的创始人 Evan Spiegel 和 Bobby Murphy 之间紧密合作的模式。 一位专注于产品的 CEO 与一位专注于幕后,并思考未来挑战的 CTO 之间的配合,可以达到非常默契的程度。

 

其次,我非常欣赏 Mati 和 Piotr 之间的互补性。我经常会提到一个特殊的概念,那就是 「小熊软糖创始人」 。回顾维生素 C 的发展历程,最初的发明者开发出的是一种又大又棕色的药丸,口感不佳,难以服用。尽管它对健康有益,但服用体验却很糟糕。后来,富有创新精神的人发现了这个问题,并意识到人们,特别是孩子们,并不喜欢这种药丸。因此,他们想到将维生素 C 制成小熊软糖的形状。 这种人既能理解产品的技术难度和价值,又能真正了解客户的需求,并懂得如何将两者结合起来,最终将产品交付给客户。 虽然有时一个人也能兼顾这些方面,但大多数情况下很难实现。像 Piotr 和 Mati 这样能够完美互补的组合实属难得。

 

在 AI 时代,如果不了解底层技术,或者没有打造最先进产品的雄心,就很难开发出真正受用户喜爱和追捧的产品。 ElevenLabs 的一个显著优势便在于此。后来我才知道,他们原来是多年的挚友。这是一个完美的团队,他们彼此信任,共同构建产品,并且非常擅长以技术和产品为中心进行分工合作。这一点让我感到既惊喜又难得。

前沿研究与产品打磨,双轮驱动

Tom Mackenzie(主持人): Mati,在融资过程中,尤其是在早期阶段,你是如何利用这种团队优势,来获得你和团队所期望的投资意向书的?

 

Mati Staniszewski: 总的来说, ElevenLabs 的一个显著优势在于我们能够将前沿研究与产品开发紧密结合。 Piotr 擅长构建模型,并领导着一支卓越的团队,能够真正推动音频领域的技术创新,使得模型不仅听起来像人声,而且能够准确地捕捉到声音的细微差别。

 

除了研究,我们也非常注重产品层面的打磨。因为我们意识到,在推广这项技术的初期,许多用户对音频技术并不熟悉,也不知道该如何使用。因此, 我们需要提供一个简单易用的操作界面,让用户能够轻松上手,了解技术的工作原理, 同时也能向世界展示我们产品的卓越品质,进而帮助我们更好地进行推广。

 

当 Piotr 专注于技术研究的同时,我则致力于寻找我们的第一批用户,并思考我们最初的产品形态。 在项目早期,我们尝试通过 cold email 和 cold outreach 的方式,联系各种潜在用户,了解他们的需求和使用场景,即使当时我们的产品还远未成熟。

 

我记得我们联系了一位书籍作者,询问他是否有兴趣使用我们的技术来为他的有声读物配音。当时,我们的技术还很不完善,只有一个非常小的文本输入框,一次只能输入大约 200 个字符,然后才能生成对应的音频。但他对此很感兴趣,并将他的整本书复制粘贴到那个小小的输入框中,最终生成了音频并发布。结果,他的有声读物获得了不错的评价,之后他又向我们推荐了另外三位也希望使用我们的技术来制作有声读物的作者。

 

这对于我们来说是一个非常积极的信号,表明我们找对了方向。之后,我们又探索了其他一些潜在的应用场景,与更多的创作者展开合作。

 

在正式启动融资流程时,我们已经明确了可以提供的各种使用场景,并且继续通过 自助服务模式 来推广我们的技术,以更好地了解用户需求,同时也 让用户来讲述 ElevenLabs 的故事, 让大家知道我们的产品不仅仅是我们自己说好,而是有真实的用户口碑作为支撑。这些因素共同帮助我们成功完成了融资。

ElevenLabs 产品发布策略:质量、安全与用户体验至上

Tom Mackenzie(主持人): 在模型开发完成、测试完成并成功获得融资之后,你们是如何规划产品发布节奏的?在选择发布时间、把控产品质量和制定合理定价等方面,你们的考量是什么?

 

Mati Staniszewski: 坦白地说,我们在产品发布节奏方面并没有固定的流程。不过, 在内部决策时,我们会重点关注质量、安全性和产品形态三个方面。

 

在质量方面,首先,我们会将新模型的质量与我们之前发布过的模型进行比较。通常,我们会组织内部人员进行人工评估,让他们试听不同的音频样本,并判断新模型是否确实有所提升。其次,由于我们支持 30 多种不同的语言,因此需要对每一种语言的生成质量进行评估,确保它们都达到标准。

 

在安全性方面,我们会进行严格的安全测试,确保模型能够生成符合预期的内容,并具备充分的安全机制,以保护生成的内容免受滥用。

 

在产品包装方面,我们会重点关注用户与技术的交互方式,力求为用户提供最佳的使用体验。通常,我们会先在内部进行一轮测试,之后再邀请一些 Alpha 用户参与测试,帮助我们对产品进行进一步的优化和改进。只有当我们确信产品已经准备就绪之后,才会正式对外发布。

「优秀创业者普遍具备极高的产品迭代速度」

Tom Mackenzie(主持人): Bryan,你在产品发布方面拥有非常丰富的经验,你曾在 Snapchat 工作,也投资过像 Mistral 这样的大型语言模型公司。当你与 ElevenLabs 这样的公司讨论如何平衡研究与产品之间的关系时,你会给出什么样的建议?

 

Bryan Kim: 首先,我需要承认自己对模型的技术细节了解有限。因此,我通常会与 a16z 的基础设施团队合作,确保我们能够为创业者提供专业的技术指导。我个人更关注市场营销和产品发布策略。 我认为,优秀创业者普遍具备极高的产品迭代速度。 Mati 和 Piotr 就是这方面的典范。

 

当然,我们可以闭门造车,空想产品的各种潜在用途。但最终,我们这些风险投资家并不能真正了解市场。Mati 所做的最重要的事情,就是持续加快产品发布速度。那些能够持续进行快速迭代的团队,往往能够取得更大的成功。因为如今技术迭代的速度非常快。如果不能迅速推出新产品,就很难跟上市场步伐,更别提引领行业发展。

 

Tom Mackenzie(主持人): 那么,加快发布速度是否会影响产品质量呢?或者说,对速度的强调是否会给团队带来质量方面的压力呢?

 

Bryan Kim: 当然,速度与质量之间需要保持平衡。Mati 一直非常重视产品的安全性,并深入思考产品的潜在用途。我们在许多场合都会花费大量时间讨论这些问题。因此,我们需要在速度和质量之间找到一个平衡点。但总体而言,我们仍然鼓励团队大胆创新,尽快将令人惊叹的新技术推向市场,从而为其他公司提供构建新应用提供基础。

 

Mati Staniszewski: 我想补充的是,在技术研究领域,我们通常无法完全预测用户最终会如何使用我们的技术。因此, 快速迭代并与用户进行密切合作尤为重要。 通过与用户的互动,我们可以不断调整和优化产品,最终使其真正满足用户的需求。

 

ElevenLabs 是这样,ChatGPT 也是如此。在 ChatGPT 刚刚发布时,人们并没有预料到它会被如此广泛地使用。只有当用户真正体验到它的强大功能之后,我们才意识到这项技术的巨大潜力,并开始加速发展。因此,我们在产品迭代过程中始终非常重视从用户那里获取反馈。

 

当然,像 a16z 这样的投资机构也为我们提供了很多宝贵的帮助。他们不仅关注产品的发布,还积极帮助我们进行市场推广,让更多人了解我们的产品。无论是付费营销、联盟营销,还是 SEO 优化,这些策略对于提升产品的知名度都至关重要。

AI 时代,先赢得个人用户,再赢得企业市场

Tom Mackenzie(主持人): 接下来我们想聊聊企业客户方面的问题。目前,你们的客户群体包括消费者、业余爱好者和企业客户,哪一部分是你们最大的收入来源?你们如何平衡对企业客户和消费者客户的关注?

 

Mati Staniszewski: 这是一个比较复杂的问题。最初,我们主要专注于创作者和产销一体的 prosumer 用户。通过自助服务模式,我们获得了大量的订阅收入。但近年来,企业客户的比例正在稳步增长。

 

目前,我们的收入结构略微偏向于自助服务模式,大约 70% 的收入来自企业客户,30% 来自其他渠道。而且,企业客户的增长速度明显更快。有趣的是,我们发现很多企业用户也在积极寻找简单易用的工具,并且他们通常会先以创作者或开发者的身份注册我们的服务,在体验过我们的产品之后,才会在企业内部进行推广,认为这是一个不错的解决方案。

 

我们一直在努力保持技术的开放性,让所有希望从高质量音频技术中受益的用户都能轻松上手,无论是创作文章、为书籍配音、用另一种语言制作电影,还是创建动态角色。 我们非常重视与创作者和开发者之间的合作,因为他们能够帮助我们探索技术的各种可能性,并向世界展示技术的潜力。 同时,他们也可以向我们反馈意见,帮助我们不断改进产品。

 

与创作者和开发者之间的良好互动,也能够帮助我们更好地拓展企业客户市场。企业客户的需求与消费者客户的需求有所不同。我们需要优化协作环境,并提供更安全可靠的服务,从而满足企业用户的需求。

 

对我们来说,一个比较大的挑战在于,我们需要仔细评估每一个产品方向,从而决定将资源投入到哪些领域。我们需要根据技术成熟度、长期价值以及市场需求等因素,来做出明智的决策。

 

Tom Mackenzie(主持人): Bryan,鉴于你之前在 Snapchat 工作的经历,你是否会更关注消费者市场?你如何看待企业客户和消费者客户之间的关系?

 

Bryan Kim: 实际上,这个问题可以从两个不同的角度来分析。首先,我们需要认识到, 在 AI 时代,消费者客户、企业客户和中小企业客户之间的界限正在变得越来越模糊。 在 SaaS 时代,企业客户和消费者客户之间的区别非常明显。如果你想发展企业客户,你需要主动与企业联系。但如果你想吸引消费者客户,你只需要让他们使用你的产品即可。但在 AI 时代,这种区别已经变得不那么重要了。企业内部的员工可能会将你的产品用于工作目的。我们在实际使用数据中也经常能够观察到这一点。我们可能会发现,某些使用个人邮箱的用户,实际上是企业员工。这些用户并不是普通的消费者,而是具有一定专业背景的从业者。因此,我认为,在当前时代, 无论你的目标客户是消费者、企业还是中小企业,你都需要首先关注个人用户的需求,让他们喜欢上你的产品。 如果你的产品足够出色,用户自然会主动地向他人推荐,从而为你带来更多的客户。

 

其次,Mati 在描述 ElevenLabs 的发展历程时非常谦虚。他只是说他们最初专注于消费者市场,而现在企业客户的增长速度正在加快。但实际上,我很少看到有创业团队能够像 ElevenLabs 这样,快速地学习并掌握企业客户的营销策略。 Mati 是为数不多的能够从消费者市场起家,并成功打入企业市场,最终开发出满足企业客户实际需求的产品创始人之一。 这非常难得。

 

总而言之,我认为我们不应该过分强调到底是应该专注于消费者市场,还是应该专注于企业市场。最重要的是,你需要开发出一款足够优秀的产品,并且让用户喜欢上它。只有这样,你的产品才能真正地在市场上站稳脚跟。当然,创业团队也需要具备相应的意愿和能力,才能更好地服务于企业客户。而 ElevenLabs 恰恰就具备这些条件。

不做「大而全」,只做深耕音频领域的专家

Tom Mackenzie(主持人): Mati,你们目前面临的主要竞争威胁是什么?OpenAI 会不会对你们以及其他公司构成威胁?

 

Mati Staniszewski: 这是一个很有意思的问题。我们的业务同时涵盖了技术研究和产品开发。

 

从竞争格局来看,OpenAI 肯定是我们需要重点关注的对象之一。我们非常敬佩 OpenAI,他们在技术研究方面做得非常出色,并且拥有一支实力雄厚的研发团队。他们正在不断地推动技术的发展。当然,市场上还有 Anthropic 和 Google 的 Gemini 等公司,它们也在积极地进行技术研发。

 

但我们认为, 未来的发展趋势是专注于特定的领域。 ElevenLabs 专注于音频领域。我们的研发团队专注于如何更好地创建和部署音频模型。我们不仅关注语音,还关注如何将技术扩展到音频领域的其他方面。而且,我们正在积极地围绕我们的技术构建各种产品。 我认为,大多数大型公司并不会选择这样做。它们可能会专注于模型本身的研究,但不会深入研究如何构建生态系统和产品。

 

除了产品之外,我们还非常希望能够将我们的技术打造成一个协作平台。 我们的目标是走向全球,创造一种能够捕捉到任何地区的声音细微差别的技术。 我们希望能够与世界各地的公司合作,从而更好地满足不同地区用户的需求。例如,在西班牙,有卡斯蒂利亚西班牙语、欧洲西班牙语和拉丁美洲西班牙语等多种不同的方言。我们希望确保我们的技术能够支持所有这些方言。

 

因此,我们推出了语音库和语音市场,让每个人都可以创建和分享自己的声音,并且在自己的声音被使用时获得收益。这是其他公司没有做的事情。它不仅让用户可以使用我们的技术,还可以让用户更好地控制自己声音的细微差别。

 

Tom Mackenzie(主持人): 也就是说,你们正在围绕特定的模式构建护城河。Bryan,你认为这是一种正确的策略吗?你是否担心会出现一个统治所有模型的单一模型?

 

Bryan Kim: 说实话,我也不知道。在我们的投资备忘录中,明确提到了单一模型风险。但是,在过去的一两年里,我们发现情况似乎并非如此。

 

正如 Mati 刚才所说,他们专注于音频领域。 但实际上,音频并不是一个单一的概念。 它包括我们现在进行的对话、周围的环境噪音,甚至是背景音乐。语调、语速也很重要。实时音频和非实时音频之间也存在很大的差异。 音频是一个比人们想象的更大、更深刻和更微妙的领域。简单地将音频理解为语音合成是远远不够的。 ElevenLabs 致力于探索音频领域的各种可能性。

 

如果巴别塔真的倒塌了,那将会是一个非常庞大的市场。这让我对 ElevenLabs 的未来充满信心。而且,正是因为这种专注,他们不仅在思考如何创造音频,还在深入研究如何应用音频技术,以及如何让企业和个人更好地使用它。 他们正在积极探索如何将音频技术融入到用户的工作流程中。 这正是他们在构建的强大竞争优势。

积极应对监管,持续推进技术创新

Tom Mackenzie(主持人): Mati,在监管方面,你是否担心相关部门会出台新的监管政策?你认为这会对 ElevenLabs 产生影响吗?你们对此又将如何应对?

 

Mati Staniszewski: 总的来说,在我们目前的阶段,我们并不太担心监管方面的问题。我们非常欢迎相关部门出台明确的法律法规,从而为所有公司创造一个公平的竞争环境。我们也愿意积极配合监管部门,共同制定出合理的行业规范。我认为,随着技术的发展,必然会出现一些新的问题,需要我们共同努力来解决。

 

Tom Mackenzie(主持人): 最后,请 Mati 透露一下 ElevenLabs 接下来有什么计划?

 

Mati Staniszewski:Bryan 刚才提到,技术研究是我们面临的最大风险。因此,我们将继续加大在技术研发方面的投入。 我们正在开发新一代模型,它将结合大量的音频技术,并通过更广泛的 LLM 技术来增强音频的表达能力,从而为用户带来更沉浸式的体验。 例如,在未来,你将可以通过不同的角色来收听有声读物,并且在收听的过程中,你还可以听到各种逼真的环境音效,例如雷声、雨声等等。这将极大地增强有声读物的感染力。此外,我们还将继续优化我们的配音技术,并与更多的创作者展开合作。

 

Tom Mackenzie(主持人): 感谢两位今天的分享。

 


 

🧑‍💻课代表留言:最初以为 ElevenLabs 是家技术公司,现在看更像产品公司。话说大家还有其他 TTS 服务商推荐吗?

 

原文:https://www.youtube.com/watch?v=0MIjuYcYpDo

编译:桃浪十三、鲍勃

 

 

更多 Voice Agent 学习笔记:

 

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

 

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/900550.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式服务幂等性问题如何解决

在分布式系统中解决幂等性问题是保证系统健壮性的关键挑战之一。以下从原理到实践的完整解决方案,涵盖7种核心模式及落地实现细节:一、幂等性问题本质 核心定义:相同请求多次执行对系统状态的影响 = 执行一次的结果 产生场景:网络抖动导致客户端重复提交 服务端超时后重试机…

一图看懂|2025年经济社会发展10大主要任务

一图看懂|2025年经济社会发展10大主要任务

新朋友:线段树

目录认识线段树和他的梦想 实现梦想之有个小身板 实现梦想之一点一点查 实现梦想之一点一点变 实现梦想之一坨一坨查 实现梦想之一坨一坨变 实现梦想之…不,没能力帮你了1. 认识线段树和他的梦想 差分想必大家都认识,它是可以进行区间加与区间减,但是要查询某个区间的和。他…

攻防世界 get_shell WriteUp

WriteUp 题目信息 来源:攻防世界 名称:get_shell 分类:Pwn 描述:运行就能拿到shell呢,真的题目链接: https://adworld.xctf.org.cn/challenges/list解题思路 首先使用DIE对文件进行查壳,发现这是一个64位ELF文件,所以选择使用64位IDA对文件进行反汇编。发现可以直接运行…

分享一个我遇到过的“量子力学”级别的BUG。

你好呀,我是歪歪。 前几天在网上冲浪的时候,看到知乎上的这个话题:一瞬间,一次历史悠久但是记忆深刻的代码调试经历,“刷”的一下,就在我的脑海中蹦出来了。 虽然最终定位到的原因令人无语,对于日常编码也没啥帮助,但是真的是:情景再现 我记得当时我是学习 Concurren…

day:23 python模块——时间,random,string

一、模块的介绍 (1)python模块,是一个python文件,以一个.py文件,包含了python对象定义和pyhton语句(2)python对象定义和python语句 (3)模块让你能够有逻辑地组织你的python代码段。 (4)把相关的代码分配到一个模块里能让你的代码更好用,更易懂 (5)模块能定义函数…

实验一:Tableau数据可视化入门

实验目的:1.熟悉TableauDesktop使用方法。2.通过Tableau软件来实现Excel中数据的基本可视化。 实验原理: Tableau是新一代商业智能工具软件,它将数据连接、运算、分析与图表结合在 一起,通过拖放方式创建各种图表。 Tableau产品包括TableauDesktop、Tableauserver、Tableau…

实验二:D3数据可视化基础

实验目的:熟悉 D3 数据可视化的使用方法。 实验原理:D3 的全称是(Data-Driven Documents),是一个被数据驱动的文档,其实就是 一个 JavaScript 的函数库,使用它主要是用来做数据可视化的。本次实践主要介绍D3一些最基本的使用方法,以及生成一些比较简单的图表。D3 是一个…

PCB的通孔、盲孔、埋孔|元器件的符号和封装

他们的本质都是用来切换的层的通孔:从顶层到底层,可以看到头 盲孔:看不到头的,如图从第一层切换到了第二层 埋孔:顾名思义就是埋进去了,无论从正面还是反面都是看不到的,它是处于内层的原理图就是一个表示符号,封装是元器件具体实物大小,具体形状

在IDEA编辑器中,如何在.gitignore 的文件中,把 .ides 的文件忽略,提交git的时候不提交 .idea文件夹

方法 1:直接编辑 .gitignore 文件创建或编辑 .gitignore 文件在项目根目录(与 .git 文件夹同级)右键点击 → New → File,输入文件名 .gitignore。如果已存在 .gitignore,直接双击打开。添加忽略规则在 .gitignore 文件中添加以下内容:# 忽略所有 .idea 目录及其内容 .id…

揭秘EtherCAT转profinet玻璃制造厂的复杂生产环境与智能设备运用

玻璃制造厂的生产环境都比较复杂,需要严格的操作规程,及安全规范。玻璃制造厂的生产环境通常具有以下特点:高温环境:玻璃的熔化过程需要在高温下进行,熔炉的温度通常达到1400℃以上。因此,厂房内的设备和材料必须能够耐高温,并具备良好的隔热性能。 粉尘和化学物质:在玻…

20242943 2024-2025-2 《网络攻防实践》实验三

一.实验内容(1)动手实践了tcpdump等嗅探工具。通过嗅探工具,可以分析进入某一网站时,浏览器访问了多少个web服务器以及它们的IP地址都是什么。(2)动手实践Wireshark等抓包工具。通过使用Wireshark开源软件对在本机上以TELNET方式登录BBS进行嗅探与协议分析,得出了所登录…