11Labs 推出 Conversational AI，可定制交互式语音智能体；Recall.ai：视频会议智能体通用 API-编程知识

11Labs 推出 Conversational AI，可定制交互式语音智能体；Recall.ai：视频会议智能体通用 API

news/2025/3/10 19:10:30/文章来源:https://www.cnblogs.com/Agora/p/18586903

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、腾讯发布混元视频生成大模型：130 亿参数全面开源

腾讯正式推出其最新视频生成大模型——混元视频生成模型，并全面开源。这款模型拥有 130 亿参数，目前被誉为最大的开源视频生成模型。

腾讯混元视频生成模型展现出四大核心优势：

首先是超写实质感，能生成高清、真实的视频内容，适用于广告和创意视频等商业场景；

其次是高语义遵循能力，可根据用户需求精准刻画主体细节和人物概念；

第三是运动画面的流畅性，生成的运动镜头符合物理规律，变形风险低；

最后是原生镜头转换功能，能自动生成多视角的同主体镜头切换，显著提升画面的叙事张力，使视频内容更加生动丰富。

值得一提的是，混元视频模型在近期的千题盲测中脱颖而出，斩获第一名，充分证明了其在视频生成领域的卓越性能。

用户可通过多种渠道体验和使用这一创新技术。个人用户可在腾讯元宝 APP 的 AI 应用-AI 视频栏目中申请试用，而企业客户则可通过腾讯云的服务接口进行对接。此外，模型已在 Hugging Face 和 GitHub 平台发布，为企业和个人开发者提供免费使用和生态插件开发的机会。（@AIbase 基地）

2、Luma 推出 Luma Photon 和 Photon Flash 基于全新架构的图像生成模型

Luma Labs 推出两款全新图像生成模型：Luma Photon 和 Photon Flash。这两款模型基于全新架构，生成高质量图像的速度比市场上其他模型快 10 倍，而且成本更低，每张 1080p 图片的生成成本分别仅为 1.5 美分和 0.2 美分。

Luma Photon 在多项双盲测试中脱颖而出，其生成质量获得了用户广泛的青睐。它能够生成具有超高细节、复杂纹理和逼真效果的图像，涵盖电影级视觉效果、艺术风格画作、产品设计模型等多个领域。无论是抽象画、立体派还是自然风格等多种艺术表现形式，Luma Photon 都能轻松驾驭。它还能生成高真实感的场景和物体，适用于广告、影视等行业。

Luma Photon 支持自然语言多轮迭代设计，用户可以通过多轮语言指令逐步完善生成内容。例如，用户可以输入「加些橙色」和「优化细节」等指令，系统会根据指令不断优化输出。系统还能保留之前的指令，持续优化输出，适合复杂创意任务。

Luma Photon 还提供从单张图像生成一致角色的能力，支持故事创作和营销活动。它还可以支持多图片提示，将灵感或现有设计快速融入新作品。

Luma Photon 还具备一些特殊功能，例如多角色与场景生成和视觉参考系统。它可以通过单张图片生成一致角色，将其放入多个不同场景中，支持创作故事或广告系列。它还允许用户上传参考图像，将设计灵感快速应用到生成结果中，无需细致提示。

Luma Labs 还为开发者提供了开放 API 和二次开发支持。开发者可以通过 Luma API 将 Photon 模型集成到自己的应用中。（@AIbase 基地）

3、Voice Agent Demo 分享：股票图表语音交互

https://x.com/BenjaminKlieger/status/1863617107566748151

这个语音人工智能助手能够在几秒钟内聆听、回应，并根据实时股票数据生成交互式图表。

多模态编排：8090 Solutions
推理加速：GroqInc

(@ BenjaminKlieger@X)

02 有亮点的产品

1、Output Media API by Recall.ai：用于构建能在视频会议中互动的 AI 代理的 API

Output Media API by Recall.ai 旨在为开发者提供创建智能会议代理的能力。该 API 针对需要在 Zoom、Meet、Teams 和 Webex 等主流视频会议平台上开发 AI 应用的开发者和企业。它提供了一个统一的接口，使 AI 代理能够加入视频会议，输出音频和视频，倾听并像真实参与者一样做出响应。这个解决方案简化了跨平台 AI 会议代理的开发过程，使开发者能够快速构建具有语音交互能力的 AI 应用。通过利用 Recall.ai 的基础设施，开发者可以专注于 AI 功能的实现，而无需处理复杂的视频会议集成细节。该产品的目标是成为会议 AI 代理开发的首选工具，为未来的智能会议体验铺平道路。(@ Z potentials)

2、Vocera：一个帮助 AI 开发者更快构建生产就绪语音代理的平台