开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、腾讯发布混元视频生成大模型:130 亿参数全面开源
腾讯正式推出其最新视频生成大模型——混元视频生成模型,并全面开源。这款模型拥有 130 亿参数,目前被誉为最大的开源视频生成模型。
腾讯混元视频生成模型展现出四大核心优势:
首先是超写实质感,能生成高清、真实的视频内容,适用于广告和创意视频等商业场景;
其次是高语义遵循能力,可根据用户需求精准刻画主体细节和人物概念;
第三是运动画面的流畅性,生成的运动镜头符合物理规律,变形风险低;
最后是原生镜头转换功能,能自动生成多视角的同主体镜头切换,显著提升画面的叙事张力,使视频内容更加生动丰富。
值得一提的是,混元视频模型在近期的千题盲测中脱颖而出,斩获第一名,充分证明了其在视频生成领域的卓越性能。
用户可通过多种渠道体验和使用这一创新技术。个人用户可在腾讯元宝 APP 的 AI 应用-AI 视频栏目中申请试用,而企业客户则可通过腾讯云的服务接口进行对接。此外,模型已在 Hugging Face 和 GitHub 平台发布,为企业和个人开发者提供免费使用和生态插件开发的机会。(@AIbase 基地)
2、Luma 推出 Luma Photon 和 Photon Flash 基于全新架构的图像生成模型
Luma Labs 推出两款全新图像生成模型:Luma Photon 和 Photon Flash。这两款模型基于全新架构,生成高质量图像的速度比市场上其他模型快 10 倍,而且成本更低,每张 1080p 图片的生成成本分别仅为 1.5 美分和 0.2 美分。
Luma Photon 在多项双盲测试中脱颖而出,其生成质量获得了用户广泛的青睐。它能够生成具有超高细节、复杂纹理和逼真效果的图像,涵盖电影级视觉效果、艺术风格画作、产品设计模型等多个领域。无论是抽象画、立体派还是自然风格等多种艺术表现形式,Luma Photon 都能轻松驾驭。它还能生成高真实感的场景和物体,适用于广告、影视等行业。
Luma Photon 支持自然语言多轮迭代设计,用户可以通过多轮语言指令逐步完善生成内容。例如,用户可以输入「加些橙色」和「优化细节」等指令,系统会根据指令不断优化输出。系统还能保留之前的指令,持续优化输出,适合复杂创意任务。
Luma Photon 还提供从单张图像生成一致角色的能力,支持故事创作和营销活动。它还可以支持多图片提示,将灵感或现有设计快速融入新作品。
Luma Photon 还具备一些特殊功能,例如多角色与场景生成和视觉参考系统。它可以通过单张图片生成一致角色,将其放入多个不同场景中,支持创作故事或广告系列。它还允许用户上传参考图像,将设计灵感快速应用到生成结果中,无需细致提示。
Luma Labs 还为开发者提供了开放 API 和二次开发支持。开发者可以通过 Luma API 将 Photon 模型集成到自己的应用中。(@AIbase 基地)
3、Voice Agent Demo 分享:股票图表语音交互
https://x.com/BenjaminKlieger/status/1863617107566748151
这个语音人工智能助手能够在几秒钟内聆听、回应,并根据实时股票数据生成交互式图表。
-
多模态编排:8090 Solutions
-
推理加速:GroqInc
(@ BenjaminKlieger@X)
02 有亮点的产品
1、Output Media API by Recall.ai:用于构建能在视频会议中互动的 AI 代理的 API
Output Media API by Recall.ai 旨在为开发者提供创建智能会议代理的能力。该 API 针对需要在 Zoom、Meet、Teams 和 Webex 等主流视频会议平台上开发 AI 应用的开发者和企业。它提供了一个统一的接口,使 AI 代理能够加入视频会议,输出音频和视频,倾听并像真实参与者一样做出响应。这个解决方案简化了跨平台 AI 会议代理的开发过程,使开发者能够快速构建具有语音交互能力的 AI 应用。通过利用 Recall.ai 的基础设施,开发者可以专注于 AI 功能的实现,而无需处理复杂的视频会议集成细节。该产品的目标是成为会议 AI 代理开发的首选工具,为未来的智能会议体验铺平道路。(@ Z potentials)
2、Vocera:一个帮助 AI 开发者更快构建生产就绪语音代理的平台
Vocera 旨在加速语音 AI 代理的开发和部署过程。它针对 AI 开发者和语音技术团队,提供了一个综合平台,用于生成对抗性场景、模拟真实通话,并为语音代理提供可操作的洞察。
Vocera 的目标是将语音代理的开发速度提高 10 倍,同时确保其生产环境的可靠性。通过利用先进的模拟和监控技术,Vocera 不仅简化了语音 AI 的测试和优化过程,还为用户提供了生产环境中的实时监控能力。
该平台的设计考虑到了现代语音 AI 开发的复杂需求,旨在成为语音代理开发和部署领域的领先工具,帮助开发者快速构建高质量、可靠的语音 AI 系统。(@ Z potentials)
3、AgentAuth:一款安全的 AI 代理连接工具
Composio AgentAuth 是一个面向 AI 应用开发者的认证集成平台,其核心价值在于提供简单且安全的方式让 AI 代理访问第三方应用。
产品支持一行代码接入 250+ 工具,涵盖 CRM、HRM 等多个领域,主要服务于需要构建自动化工作流的技术团队。通过简化认证流程、确保安全性,有效解决了 AI 应用集成过程中的效率和安全痛点。
在功能设计上,产品突出了快速集成、安全认证和多平台支持三大特点,通过开发者友好的接口和完善的文档,为用户提供流畅的开发体验。(@AIbase 基地)
4、ElevenLabs 推出 Conversational AI,构建可定制、交互式语音智能体
今天,ElevenLabs 推出了 Conversational AI,这是一个用于构建可定制、交互式语音智能体的一体化平台。借助 Conversational AI,用户可以创建外拨销售拨号器、调度智能体、交互式游戏角色、导师和客户支持智能体等。
由于服务器调用次数减少,该平台设计为低延迟。对话式人工智能使用实时模型来预测发言者何时结束,从而优雅地处理轮流发言和打断。此外,技术设置得到了简化,使用户可以专注于自定义智能体。
对话式人工智能将生动的文本转语音、语音转文本(用户选择的 LLM)与自定义的轮流和中断逻辑相结合,使对话感觉自然。用户可以专注于以下几个方面:
-
建立知识库
-
制作系统提示词
-
通过 function calling 连接应用程序
-
从库中选择喜欢的声音或克隆自己的声音
-
寻找使用对话式人工智能的方法,以令人难以置信的体验满足客户
对话式人工智能还包含高级功能,帮助用户构建更具交互性的智能体,其中包括:
-
集成 Twilio 用于处理电话呼叫
-
服务器端和客户端工具调用以增加灵活性
-
定制动态提示词以创建个性化对话
(@ElevenLabs)
03有态度的观点
1、flomo 刘少楠:AI 是一个提效工具
在与「Founder Park」的访谈中,刘少楠在分享了他对产品开发、AI 技术应用、商业模式和创业心态的深刻见解。
他强调了 flomo 作为备忘录工具的定位,即服务于普通人,提供比普通备忘录稍好一些的功能,并且不追求短期的热点,而是注重长期为用户提供价值。
刘少楠认为产品经理应该忘记过去的成功,适应 AI 时代的变化,理解用户需求、场景和商业价值。在 AI 技术的应用上,他表现出对 AI 的恐慌,但同时不急于行动,而是通过不断讨论和思辨来消除不确定性。
他指出,AI 应该是一个提效工具,而不是偷懒工具,应该促进用户的思考,而不是减少思考。在商业模式上,他坚持不卖广告、不卖永久会员、不融资的原则,追求的是产品的长期存在而非短期的爆发。此外,他还提到了退出策略的重要性,认为退出是一种理性选择,是决策的一部分。(@ APPSO)
更多 Voice Agent 学习笔记:
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场
下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》
Voice-first,闭关做一款语音产品的思考|社区来稿
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新