11Labs 推出 Conversational AI,可定制交互式语音智能体;Recall.ai:视频会议智能体通用 API

news/2024/12/4 18:10:52/文章来源:https://www.cnblogs.com/Agora/p/18586903

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、腾讯发布混元视频生成大模型:130 亿参数全面开源

 

腾讯正式推出其最新视频生成大模型——混元视频生成模型,并全面开源。这款模型拥有 130 亿参数,目前被誉为最大的开源视频生成模型。

 

腾讯混元视频生成模型展现出四大核心优势:

 

首先是超写实质感,能生成高清、真实的视频内容,适用于广告和创意视频等商业场景;

 

其次是高语义遵循能力,可根据用户需求精准刻画主体细节和人物概念;

 

第三是运动画面的流畅性,生成的运动镜头符合物理规律,变形风险低;

 

最后是原生镜头转换功能,能自动生成多视角的同主体镜头切换,显著提升画面的叙事张力,使视频内容更加生动丰富。

 

值得一提的是,混元视频模型在近期的千题盲测中脱颖而出,斩获第一名,充分证明了其在视频生成领域的卓越性能。

 

用户可通过多种渠道体验和使用这一创新技术。个人用户可在腾讯元宝 APP 的 AI 应用-AI 视频栏目中申请试用,而企业客户则可通过腾讯云的服务接口进行对接。此外,模型已在 Hugging Face 和 GitHub 平台发布,为企业和个人开发者提供免费使用和生态插件开发的机会。(@AIbase 基地)

 

2、Luma 推出 Luma Photon 和 Photon Flash 基于全新架构的图像生成模型

 

Luma Labs 推出两款全新图像生成模型:Luma Photon 和 Photon Flash。这两款模型基于全新架构,生成高质量图像的速度比市场上其他模型快 10 倍,而且成本更低,每张 1080p 图片的生成成本分别仅为 1.5 美分和 0.2 美分。

 

Luma Photon 在多项双盲测试中脱颖而出,其生成质量获得了用户广泛的青睐。它能够生成具有超高细节、复杂纹理和逼真效果的图像,涵盖电影级视觉效果、艺术风格画作、产品设计模型等多个领域。无论是抽象画、立体派还是自然风格等多种艺术表现形式,Luma Photon 都能轻松驾驭。它还能生成高真实感的场景和物体,适用于广告、影视等行业。

 

Luma Photon 支持自然语言多轮迭代设计,用户可以通过多轮语言指令逐步完善生成内容。例如,用户可以输入「加些橙色」和「优化细节」等指令,系统会根据指令不断优化输出。系统还能保留之前的指令,持续优化输出,适合复杂创意任务。

 

Luma Photon 还提供从单张图像生成一致角色的能力,支持故事创作和营销活动。它还可以支持多图片提示,将灵感或现有设计快速融入新作品。

 

Luma Photon 还具备一些特殊功能,例如多角色与场景生成和视觉参考系统。它可以通过单张图片生成一致角色,将其放入多个不同场景中,支持创作故事或广告系列。它还允许用户上传参考图像,将设计灵感快速应用到生成结果中,无需细致提示。

 

Luma Labs 还为开发者提供了开放 API 和二次开发支持。开发者可以通过 Luma API 将 Photon 模型集成到自己的应用中。(@AIbase 基地)

 

3、Voice Agent Demo 分享:股票图表语音交互

 

https://x.com/BenjaminKlieger/status/1863617107566748151

 

这个语音人工智能助手能够在几秒钟内聆听、回应,并根据实时股票数据生成交互式图表。

 

  • 多模态编排:8090 Solutions

  • 推理加速:GroqInc

 

(@ BenjaminKlieger@X)

02 有亮点的产品

1、Output Media API by Recall.ai:用于构建能在视频会议中互动的 AI 代理的 API

 

 

 

Output Media API by Recall.ai 旨在为开发者提供创建智能会议代理的能力。该 API 针对需要在 Zoom、Meet、Teams 和 Webex 等主流视频会议平台上开发 AI 应用的开发者和企业。它提供了一个统一的接口,使 AI 代理能够加入视频会议,输出音频和视频,倾听并像真实参与者一样做出响应。这个解决方案简化了跨平台 AI 会议代理的开发过程,使开发者能够快速构建具有语音交互能力的 AI 应用。通过利用 Recall.ai 的基础设施,开发者可以专注于 AI 功能的实现,而无需处理复杂的视频会议集成细节。该产品的目标是成为会议 AI 代理开发的首选工具,为未来的智能会议体验铺平道路。(@ Z potentials)

 

2、Vocera:一个帮助 AI 开发者更快构建生产就绪语音代理的平台

 

 

 

Vocera 旨在加速语音 AI 代理的开发和部署过程。它针对 AI 开发者和语音技术团队,提供了一个综合平台,用于生成对抗性场景、模拟真实通话,并为语音代理提供可操作的洞察。

 

Vocera 的目标是将语音代理的开发速度提高 10 倍,同时确保其生产环境的可靠性。通过利用先进的模拟和监控技术,Vocera 不仅简化了语音 AI 的测试和优化过程,还为用户提供了生产环境中的实时监控能力。

 

该平台的设计考虑到了现代语音 AI 开发的复杂需求,旨在成为语音代理开发和部署领域的领先工具,帮助开发者快速构建高质量、可靠的语音 AI 系统。(@ Z potentials)

 

3、AgentAuth:一款安全的 AI 代理连接工具

 

 

 

Composio AgentAuth 是一个面向 AI 应用开发者的认证集成平台,其核心价值在于提供简单且安全的方式让 AI 代理访问第三方应用。

 

产品支持一行代码接入 250+ 工具,涵盖 CRM、HRM 等多个领域,主要服务于需要构建自动化工作流的技术团队。通过简化认证流程、确保安全性,有效解决了 AI 应用集成过程中的效率和安全痛点。

 

在功能设计上,产品突出了快速集成、安全认证和多平台支持三大特点,通过开发者友好的接口和完善的文档,为用户提供流畅的开发体验。(@AIbase 基地)

 

4、ElevenLabs 推出 Conversational AI,构建可定制、交互式语音智能体

 

今天,ElevenLabs 推出了 Conversational AI,这是一个用于构建可定制、交互式语音智能体的一体化平台。借助 Conversational AI,用户可以创建外拨销售拨号器、调度智能体、交互式游戏角色、导师和客户支持智能体等。

 

由于服务器调用次数减少,该平台设计为低延迟。对话式人工智能使用实时模型来预测发言者何时结束,从而优雅地处理轮流发言和打断。此外,技术设置得到了简化,使用户可以专注于自定义智能体。

 

对话式人工智能将生动的文本转语音、语音转文本(用户选择的 LLM)与自定义的轮流和中断逻辑相结合,使对话感觉自然。用户可以专注于以下几个方面:

 

  • 建立知识库

  • 制作系统提示词

  • 通过 function calling 连接应用程序

  • 从库中选择喜欢的声音或克隆自己的声音

  • 寻找使用对话式人工智能的方法,以令人难以置信的体验满足客户

 

对话式人工智能还包含高级功能,帮助用户构建更具交互性的智能体,其中包括:

 

  • 集成 Twilio 用于处理电话呼叫

  • 服务器端和客户端工具调用以增加灵活性

  • 定制动态提示词以创建个性化对话

 

(@ElevenLabs)

03有态度的观点

1、flomo 刘少楠:AI 是一个提效工具

 

在与「Founder Park」的访谈中,刘少楠在分享了他对产品开发、AI 技术应用、商业模式和创业心态的深刻见解。

 

他强调了 flomo 作为备忘录工具的定位,即服务于普通人,提供比普通备忘录稍好一些的功能,并且不追求短期的热点,而是注重长期为用户提供价值。

 

刘少楠认为产品经理应该忘记过去的成功,适应 AI 时代的变化,理解用户需求、场景和商业价值。在 AI 技术的应用上,他表现出对 AI 的恐慌,但同时不急于行动,而是通过不断讨论和思辨来消除不确定性。

 

他指出,AI 应该是一个提效工具,而不是偷懒工具,应该促进用户的思考,而不是减少思考。在商业模式上,他坚持不卖广告、不卖永久会员、不融资的原则,追求的是产品的长期存在而非短期的爆发。此外,他还提到了退出策略的重要性,认为退出是一种理性选择,是决策的一部分。(@ APPSO)

 

 

 

更多 Voice Agent 学习笔记:

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

 

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

 

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

 

Voice-first,闭关做一款语音产品的思考|社区来稿

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/846766.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hive 数据倾斜问题定位排查及解决

多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段…

LeetCode 509[斐波那契数]

LeetCode 509[斐波那契数]题目 链接 LeetCode 509[斐波那契数] 详情实例提示题解 思路 递归求值,但是吧,如果是用递归的话有可能会造成内存超出限制的错误,当然我不能确定会不会报此错误,因为我没有试过 此处我是用循环代替递归的 n为0时,fn为0 n为1时,fn为1 n为2时,fn为…

从零开始利用coze智能体API提取抖音视频文本内容

作用:可以将抖音视频说话的内容转成文本。 本文从零开始搭建coze智能体到添加解析插件、到开通API、再创建请求密钥全流程讲解。 完全从零开始一步步操作,直至达到最终目的。 扣子的API能力个人免费使用【注上免费请求说明】 免费版和专业版的对比: 文档链接:https://www.c…

H5-26 文档流

1、文档流是文档中可显示对象在排列时所占用的位置/空间例如:块元素自上而下摆放,内联元素,从左到右摆放标准六里面的限制非常多,导致很多页面效果无法实现①高矮不齐,底边对齐②空白折叠现象(1)无论多少个空格、换行、tab,都会折叠为一个空格(2)如果我们想让img标签…

HTML打包EXE2.0.0版本新增免费内核介绍 - 永久使用不过期, 无广告

近期我们接到一些用户反馈, 希望可以给学生用户, 公益教育事业的用户提供免费的内核, 方便他们打包一些简易的网页程序. 针对上述的用户反馈, 我们技术人员经过调研, 决定单独开发一个独立的免费内核供所有用户使用, 后续免费内核也会随着软件的更新一起更新维护.HTML打包EXE包…

智慧楼盘新突破:数字孪生如何改变传统房地产?

随着智慧城市的不断发展,数字孪生技术逐渐成为实现智慧楼盘管理和运营的核心技术之一。通过创建与现实楼盘一一对应的虚拟模型,数字孪生不仅能够提供更加全面、动态的楼盘信息展示,还能为楼盘的建设、管理和用户体验优化提供精准的数据支持和智能化解决方案。 一、全周期楼盘…

北斗系统:构建天地一体化的高精度定位服务

随着北斗卫星导航系统的全面建成,中国在全球卫星导航领域迈出了坚实的一步。北斗系统不仅提供了全天候、全天时的全球覆盖服务能力,更通过天地一体化的高精度增强服务系统技术,将民用定位精度提升到了新的高度。 北斗系统的高精度服务北斗系统的高精度服务能力,是通过其空间…

JDK1.8使用IDEA创建spring项目

1配置Server URL为https://start.aliyun.com2继续配置以下内容 3配置springboot的版本,勾选启动依赖 4配置maven仓库后刷新依赖 5启动项目,我本地自动生成了以下三个文件爆红,可以放在下图的位置就不爆红了

Docker:Docker搭建Jenkins并共用宿主机Docker部署服务(五)跨服务器远程部署后端微服务多模块

前言 继续完成跨服务器远程部署微服务多模块,Jenkins的搭建与插件安装可以观看上一篇文章:https://www.cnblogs.com/nhdlb/p/18561435 配置SSH远程服务器连接 这里需要安装 SSH 连接的插件,可以观看上一篇文章进行安装。开始配置SSH连接保存!! 新建视图 方便将整个项目的前…

回锅肉做法

‌家常回锅肉是一道经典的四川家常菜,以其色泽黄亮、干香微辣、肥而不腻的特点而广受欢迎。‌制作家常回锅肉的主要材料包括五花肉、蒜苗、姜、蒜、干辣椒、花椒等。五花肉需要先煮熟,然后切成薄片,蒜苗切成段备用。炒制时,先爆香姜蒜片和调料,再加入五花肉片翻炒至出油,…

20222407 2024-2025-1 《网络与系统攻防技术》实验八实验报告

1.学习内容 1.Web前端:负责开发用户所看到的内容。 前端语言:HTML、JavaScript(JS):与Java没有关系,与JSP两回事,CSS。 Web前端框架:Vue.js(中国人尤雨溪)、Bootstrap(Twitter)、Layui(极简单)、Element-UI(基于Vue.js2.0,饿了么)、Angular(Google)…… 2.W…