从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

news/2024/12/2 17:40:28/文章来源:https://www.cnblogs.com/Agora/p/18582353

 

 

 

Retell.ai 的 5 位联创。(图:maginative.com)

 

Retell AI 提供一个平台,用于构建和部署可进行自然、类人对话的 AI voice agent,赋能呼叫中心,替代或辅助人工座席。

 

Retell AI 起初为构建 voice agent 产品的开发者提供 API,现已将重点转向为中型企业提供完整的 AI 呼叫中心解决方案。

 

Retell AI 的联合创始人兼 CEO Bing Wu 曾在字节跳动(TikTok 母公司)工作三年,领导开发了触达数十亿用户的 B2B 和消费者产品。大学期间,他创立了两家获得投资的初创公司,并创造了六位数的收入。

 

近期,Bing Wu 作为嘉宾参与了播客 Voice AI Newsletter 的录制。在这次对话中,他分享了创立 Retell AI 的过程,以及转型 AI 呼叫中心服务后的心得,我们摘录了部分精彩内容,希望能给大家提供这一领域的一些新视角。

 

 

AI 能否取代 BPOs?

Can AI Replace BPOs? | Bing Wu (CEO & Co-Founder at Retell AI)

主播: Davit Baghdasaryan,Krisp 联合创始人兼 CEO嘉宾: Bing Wu, Retell AI 联合创始人兼 CEO

 

注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。

 

 

 

预测话轮转换:理解人类对话的语义和语气

 

Davit Baghdasaryan: 欢迎收听语音 AI 播客!今天的嘉宾是 Retell AI 的联合创始人兼 CEO Bing Wu。

 

我在 Hacker News 上看到 Retell 发布的消息就一直关注你们了。根据我从 ChatGPT 收集的信息,Retell AI 提供了一个平台,用于构建和部署能够进行自然、类人对话的 AI 语音智能体。这些智能体可以处理预约安排、客户服务和线索鉴定等任务。该平台提供低延迟响应、流畅的话轮转换,并与各种电话服务集成。我的理解准确吗?

 

Bing Wu: 非常准确。

 

Davit Baghdasaryan: 太棒了。语音 AI 智能体是一个充满挑战的领域,而你们正走在前沿。能跟我们聊聊你的创业故事吗?为什么选择专注于这个领域?你们二月份发布产品后又发生了什么?目前技术进展如何?

 

Bing Wu: 一切始于去年十一月。我们最初在开发直播配音软件,目标用户是希望触及英语受众的国际主播,特别是中文主播。他们当时主要使用手写标语和简单的英语进行产品销售,但由于直播的兴起,销售额依然很高。我们开发了这款软件,但它有七秒的延迟,严重影响了用户体验。

 

后来,我们收到了用户关于 AI 语音生成的反馈。这促使我们转向直接研发语音 AI。集成大规模语言模型 (LLM)、文本转语音 (TTS) 和语音转文本 (STT) 技术极具挑战性,尤其是话轮转换和延迟方面。我们在二月份推出的第一个产品是一个 API,让 LLM 能够「开口说话」。 我们解决了延迟问题,并开发了一个专有的话轮转换模型,可以预测用户话语的结束,从而实现近乎实时的响应。

 

Davit Baghdasaryan: 我记得 Retell 在话轮转换方面有一种先进的方法。你能解释一下为什么检测话轮转换如此困难吗?

 

Bing Wu: 传统的唤醒词(例如「嘿,Alexa」)或按键说话等方法并不自然。人类是通过理解语义和对话语气来预测话轮转换的。我们复制了这种机制,使用语义和音频信号在 100-200 毫秒内准确预测轮转结束。

 

Davit Baghdasaryan: 如果话轮转换处理不好会发生什么?

 

Bing Wu: AI 要么会不断打断用户,要么反应迟钝。两种情况都不理想。 人们在思考过程中会有停顿,AI 需要识别这些停顿。 即使是 GPT 的实时 API 也难以解决这个问题,经常在用户说到一半时打断他们。

 

Davit Baghdasaryan: 现在很多演示都展示了令人印象深刻的语音转文本、LLM 和 TTS 流水线。有些回应速度快得有些不自然。这些演示的真实性如何?话轮转换问题真的解决了吗?

 

Bing Wu: 基本解决了,而且还在不断改进。 真正的语音到语音模型可能会将话轮转换直接集成到 LLM 中。 然而,即使是部分功能的演示也可能具有误导性。

 

从开发者工具到企业呼叫中心解决方案

 

Davit Baghdasaryan: 你们现在的主要用例是什么?自二月份以来,这些用例是如何演变的?

 

Bing Wu: 最初,我们的 API 主要面向构建语音 AI 产品的开发者。在我们的 YC 孵化批次中,有七家公司用它来开发 AI 治疗师、语言学习教练等等。从那以后,我们认识到语音到语音模型的巨大潜力,于是转向为中端市场企业构建 AI 电话呼叫中心平台。我们正在帮助拥有 100-500 名座席的公司大幅减少人员配置并提高效率。像热转接这样的关键功能,即在座席交接过程中传递上下文,至关重要。

 

Davit Baghdasaryan: 所以,你们现在的重点是呼叫中心?

 

Bing Wu: 是的,作为对现有人工呼叫中心的替代或补充。

 

Davit Baghdasaryan: 你们提供完整的呼叫中心解决方案,还是与现有解决方案集成?

 

Bing Wu: 我们的愿景是提供一个端到端的解决方案,类似于与业务流程外包 (BPO) 服务商的接口。 用户提供培训材料、常见问题解答、公司信息、CRM 访问权限和知识库。AI 智能体学习并迭代,并提供绩效报告。您可以把它想象成一个 AI BPO。

 

Davit Baghdasaryan: 电话集成方面呢?

 

Bing Wu: 虽然针对座席监控和评估的 AI 原生解决方案正在兴起,但与现有电话系统的集成仍然至关重要。 我们提供 SIP 中继以兼容现有的 VoIP 系统,从而实现 AI 和人工座席之间的无缝协作。

 

Davit Baghdasaryan: 与客户环境的深度集成至关重要。这与 CRM 和其他后台应用程序是如何工作的?

 

Bing Wu: CRM 集成非常关键。 我们的目标是与 Salesforce 等流行 CRM 进行本地集成。 我们使用动态变量根据 CRM 数据个性化对话。呼叫结束后,我们从对话记录中提取结构化数据以更新 CRM,尽管这个过程还需要进一步简化。

 

Davit Baghdasaryan: 那么与自定义后台应用程序集成呢?这需要自定义代码吗?

 

Bing Wu: 这取决于具体的用例。对于需要实时数据检索的客户支持场景,目前需要一些自定义代码。但是,像公司知识库这样的静态信息可以轻松上传。

 

Davit Baghdasaryan: 你们的座席如何处理需要与内部工具和流程进行更深入集成的更复杂请求?

 

Bing Wu: 我们正在构建高级对话管理工具,例如多管齐下的对话树,以减少 AI 幻觉并处理复杂性。这些工具允许为每个步骤定义操作和短语,并根据结果进行分支。我们也在不断改进知识库集成。

 

Davit Baghdasaryan: 这已经部署了吗?

 

Bing Wu: 是的,我们已经有 100 个客户正在使用,但我们仍在努力实现我们的完整愿景。

 

短期重点是可靠地处理一级/二级复杂度的请求

 

Davit Baghdasaryan: 在接下来的两到三年里,你认为语音 AI 的未来会是什么样子?基础模型将如何影响你们的能力?你们未来能够处理更复杂层级的请求吗?

 

Bing Wu: 短期内,重点是可靠地处理一级和二级复杂度的请求,解决 LLM 幻觉问题,保持适当的语气,并维护品牌形象。 仅此一项就可以极大地颠覆离岸 BPO 行业,提供更高的可靠性和一致性。转向更复杂的请求取决于基础模型的进步。

 

Davit Baghdasaryan: 你们的定价模式是什么?

 

Bing Wu: 目前,我们是按分钟计费的,基于实际使用量。这使客户可以轻松地将成本与现有的每小时座席费用进行比较。 基于结果的定价可能适用于一些单点解决方案,但我们的目标是满足呼叫中心的更广泛的运营需求。

 

Davit Baghdasaryan: OpenAI 的 Voice Mode API 大约是每小时 15 美元。这算贵吗?

 

Bing Wu: 与级联模型相比,它比较贵, 级联模型每分钟的成本约为 0.10-0.12 美元。然而, 语音到语音模型的定价可能会迅速下降。

 

Davit Baghdasaryan: 所以,你们在接下来的三年里将专注于可靠地处理一级/二级复杂度的请求,而更进一步的进展取决于基础模型的改进?

 

Bing Wu: 是的,可靠性至关重要,尤其是在 银行业和医疗保健等领域,严格遵守行业规范和指南至关重要。

 

Davit Baghdasaryan: Bing,非常感谢你分享这些精彩的见解。

 

Bing Wu: 谢谢你,Davit。

 

原文:https://voice-ai-newsletter.krisp.ai/p/can-ai-replace-bpos-bing-wu-ceo-and编译:施苏娜、傅丰元社区技术顾问:付则宇

 

 

 

更多 Voice Agent 学习笔记:

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?https://mp.weixin.qq.com/s/txGrV9-uqVnmNvxxrOEMFA

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记https://mp.weixin.qq.com/s/P8qmj4Ha2zbM_5cqLmhDDQ

 

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服https://mp.weixin.qq.com/s/1Z8TuyqFDkuUMGNbNSiAPw

 

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场https://mp.weixin.qq.com/s/fPcCw7aIUppbLNkR-0PJCQ

 

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》https://mp.weixin.qq.com/s/LNUj3YaOkPXFW10WriRwCA

 

Voice-first,闭关做一款语音产品的思考|社区来稿https://mp.weixin.qq.com/s/MArV5cbJ2wKu15YcH3-5hA

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/845526.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实验5文档部分代码

实验一找到输入数据中的最大值和最小值 指向x[0]输出最大数 可以 实验二80 s1的内存大小和字符串长度 能 s1存储的内容是字符串"Learning makes me happy",而sizeof(s1)返回的是整个指针类型的大小\ 不能 在原始代码中,通过赋值的方式为s1分配内存空间,并初始化其…

IC Compiler II(ICC II)后端设计流程——超详细

Preface 本文中英文结合(学习一些专有名词),主要介绍ICC II软件进行后端设计的主要流程,在阅读之前需要对数字IC设计流程有一定的了解。 逻辑综合相关知识请查看:Synopsys逻辑综合及DesignCompiler的使用(想了解逻辑综合的可以看看这个,但内容较多) 数字IC设计整体流程…

迁移工具简介

迁移工具能有序、安全、便捷、轻松地将数字资产、服务、IT 资源及应用程序部分或完全迁移到天翼云,同时保证云上业务的可用性、安全性以及连续性。支持 x86、 ARM 同构服务器间迁移,覆盖多种主流操作系统、支持信创适配。本文分享自天翼云开发者社区《迁移工具简介》,作者:…

智慧园区算法视频分析服务器如何确保视频监控系统在极端天气下也能稳定运行?

在面对极端天气条件时,确保智慧园区算法视频分析服务器的稳定运行对于维持关键监控系统的连续性和数据安全性至关重要。以下是一系列措施,旨在保障视频监控系统在诸如暴雨、高温、暴雪等恶劣天气条件下的可靠性和有效性。通过实施这些策略,我们可以最大程度地减少极端天气对…

Docker常用应用之稍后阅读

1.简介 wallabag是一款开源的,可以自托管的稍后阅读工具。提供了浏览器插件和手机客户端,可以很方便的收藏文章用于稍后再看。 wallabag官网,wallabag github地址,wallabag dockerhub 2.部署 2.1.docker部署 cd /docker_data/ mkdir -p wallabag/data cd wallabag vi docke…

css 边框镶角

效果图:background: linear-gradient(to left, yellow, yellow) left top no-repeat,linear-gradient(to bottom, yellow, yellow) left top no-repeat,linear-gradient(to left, yellow, yellow) right top no-repeat,linear-gradient(to bottom, yellow, yellow) right top …

go语言常见cache库

摘自 https://zhuanlan.zhihu.com/p/624248354

带有多选和突出显示关键字的自定义下拉选择框(动态)

本文是在上一篇的基础上改造成 根据输入关键词动态筛选选项列表,然后实现多项选择并且关键词高亮。 上一篇:带有多选和突出显示关键字的自定义下拉选择框(静态) >> 带有多选和突出显示关键字的自定义下拉选择框: Custom Dropdown Select Box with Multiple Selectio…

2024.11.26(周二)

旅游的出行方式有乘坐飞机旅行、乘火车旅行和自行车游,不同的旅游方式有不同的实现过程,客户可以根据自己的需要选择一种合适的旅行方式。 实验要求: 1. 画出对应的类图; 2. 提交源代码; 3. 注意编程规范。1、类图2、源代码 #include<iostream> using namespace …

多人编辑的终极指南,版本冲突不是问题!

在局域网环境下实现高效文档协同编辑,一直是企业和科研团队关注的焦点。版本冲突是这一过程中的核心技术挑战之一,它不仅关系到协作效率,还直接影响最终成果的质量。 在传统的文档协同中,多个用户同时编辑同一文档可能导致内容覆盖、丢失或逻辑混乱。这种问题常见于无版本控…

摄像机实时接入分析平台视频分析网关机动车结构化识别算法:“智眼识车”的技术革新

随着智能交通系统的发展,视频分析技术在机动车识别和监控中的应用越来越广泛。视频分析网关作为这一技术的核心组件,利用先进的算法对机动车进行结构化识别,以提升交通管理的效率和准确性。本文将探讨摄像机实时接入分析平台视频分析网关中机动车结构化识别算法的原理和应用…

HCIP-14 BGP基础

本文介绍了BGP基础知识,涵盖了:BGP产生的背景、AS的概念、BGP的特征等。 本文中我们详细地学习了BGP的对等体关系建立过程以及BGP状态机,学习时将对等体关系建立过程与状态机的转换相结合有助于理解记忆。不同于IGP路由协议,BGP不能自己发现、计算路由条目,其路由条目由IG…