WebRTC 作者加入 OpenAI 主导实时 AI 项目;TTS 小模型 OuteTTS v0.2 发布:声音克隆+多语言

news/2024/11/28 21:23:04/文章来源:https://www.cnblogs.com/Agora/p/18570781

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、Runway 推图像生成模型 Frames 专注特定美学,重构创意边界

 

Runway 的最新图像生成模型 Frames,正以前所未有的方式颠覆着视觉创作的边界。这不仅仅是一个 AI 工具,更是一个能够帮助用户构建完整视觉世界的创意引擎。

 

与传统的通用图像生成模型不同,Frames 最大的魅力在于其对风格和美学的极致控制。这款模型的核心能力,在其「世界构建」的独特技术。用户可以细粒度地控制图像的「外观、感觉和氛围」。它不再是简单地生成图片,而是帮你编织一个完整的艺术世界。无论是电影概念、游戏设计,还是个人艺术项目,Frames 都能帮你构建一个统一、强大的视觉叙事。每一张图像都仿佛出自同一位艺术大师之手,又充满无限可能性。

 

在保持风格统一的同时,Frames 还能激发创意的多样性。它为创作者提供了一个前所未有的平台:你可以探索各种风格变化,同时确保每一帧都完美契合你的整体视觉语言。(@AIbase 基地)

 

2、Anthropic 发布开源 MCP 协议 推动 AI 系统与数据源的双向连接

 

人工智能公司 Anthropic 宣布推出一项新的开源标准——模型上下文协议(MCP),旨在通过将 AI 助手与业务工具和软件等数据源连接,提升模型对查询的响应质量和相关性。MCP 的发布意味着 AI 助手在处理任务时,能够直接从不同的数据源中提取信息,避免了「信息孤岛」的问题。

 

在一篇博客文章中,Anthropic 表示,尽管 AI 助手在推理和质量方面已取得快速进展,但目前大多数模型仍受限于与数据的隔离,无法直接访问存储的数据。这使得每个数据源都需要单独的定制实现,从而导致互联系统难以扩展。MCP 旨在通过协议解决这一问题,允许开发者在 AI 驱动的应用程序(如聊天机器人)与数据源之间建立双向连接。

 

MCP 协议允许开发者通过「MCP 服务器」共享数据,构建「MCP 客户端」(如应用程序和工作流),并通过命令访问这些数据源。Anthropic 称,开发者可以利用这一标准协议进行构建,而不必为每个数据源单独维护连接器,从而使生态系统更加互联。

 

目前,包括 Block 和 Apollo 在内的公司已将 MCP 集成到其系统中,Replit、Codeium 和 Sourcegraph 等开发工具公司也正在向其平台添加 MCP 支持。Anthropic 还表示,Claude Enterprise 计划的订阅者可以通过 MCP 服务器将 Claude 聊天机器人连接到其内部系统。此外,Anthropic 已分享了针对 Google Drive、Slack 和 GitHub 等企业系统的预构建 MCP 服务器,并计划推出工具包,帮助企业部署适用于整个组织的生产 MCP 服务器。(@AIbase 基地)

 

3、英伟达发布 Edify 3D 生成模型 2 分钟即可生成高质量 3D 资产

 

NVIDIA 最新推出的 Edify3D 技术在 3D 资产生成领域取得重大突破。这项创新技术能在短短两分钟内,基于文本描述或参考图像生成包含完整 UV 贴图、4K 纹理和 PBR 材质的高品质 3D 模型,为游戏设计、影视制作和扩展现实等行业带来革命性解决方案。

 

dify3D 采用了独特的技术架构,将多视角扩散模型与基于 Transformer 的重建技术相结合。其核心管线包含三个关键步骤:

 

  • 多视角扩散模型根据输入生成多个视角的 RGB 图像;

  • 多视角 ControlNet 合成对应的表面法线;

  • 重建模型将这些信息整合成神经 3D表示,通过等值面提取和网格后处理生成最终的几何体。

 

特别值得一提的是,Edify3D 还可用于生成复杂的 3D 场景。通过与大语言模型(LLM)结合,系统能够根据文本提示定义场景布局、物体位置和尺寸,创建连贯且真实的 3D 场景组合。这一功能为艺术设计、3D 建模和 AI 模拟等应用提供了强大支持。

 

在技术扩展性方面,Edify3D 表现出色。随着训练视角数量的增加,模型生成的图像质量和一致性不断提升。重建模型的性能也会随着输入视角数量的增加而改善,同时还能根据计算资源灵活调整三平面令牌大小。(@AIbase 基地)

 

4、小型 TTS 模型 OuteTTS v0.2 发布,支持多语言并具备语音克隆功能

 

OuteTTS-0.2-500M 是 v0.1 版本的改进版。该模型保持了使用音频提示的相同方法,而没有对基础模型本身进行架构修改。该版本以 Qwen-2.5-0.5B 为基础,在更大、更多样化的数据集上进行了训练,从而在性能的各个方面都有了显著的提高。

 

主要改进:

 

  • 增强的准确性:与前一版本相比,显著提高了提示跟踪和输出一致性

  • 自然语音:生成更自然流畅的语音合成

  • 扩展词汇:在超过 50亿个音频提示标记上进行训练

  • 语音克隆:改进的语音克隆功能具有更高的多样性和准确性

  • 多语言支持:新增对中文、日文和韩文的实验性支持(@HuggingFace)

 

5、WebRTC 作者加入 OpenAI,主导实时 AI 项目

 

 

 

WebRTC 作者之一,开源语音模型 Ultravox 的创始人兼 CTO Justin Uberti 今日在 X 上宣布加入 OpenAI,并将主导实时 AI(Real Time AI) 相关工作。

 

他说:「在 WebRTC 的开发过程中,我们深刻地体会到语音和视频对人类沟通的巨大影响。那时,我就在思考:未来,我们是否也能以同样的方式与 AI 交流?如今,这个未来已初具雏形,我很高兴地宣布,我已加入 OpenAI,将主导实时 AI 项目!」

 

Justin Uberti 还曾是 Google 的 Stadia、Duo 和 Hangouts Video 团队负责人。早些时间,开源 WebRTC 项目 Pion 的创始人 Sean DuBois 也加入了 OpenAI。(@juberti@X)

02 有亮点的产品

1、Luma 推全新 Dream Machine 支持创意融图、角色参考等

 

Luma AI 发布了全新的 Dream Machine 平台,该平台旨在让任何人都可以轻松创作高质量的图像和视频,无论技术水平如何。

 

Dream Machine 基于 Luma 最新的图像基础模型 Photon,该模型使用先进的通用变换架构,可以根据文本提示生成高质量的静止图像,并且能够可靠地嵌入文本,这是许多其他图像生成模型难以做到的。

 

Dream Machine 平台的一大亮点是其直观的交互设计。用户可以用自然语言描述他们的想法,或者上传参考图像来指导平台的输出,而无需像传统工具那样进行复杂的提示工程。

 

Dream Machine 还提供了一系列强大的工具和功能,帮助用户将创意变为现实。例如,「角色参考」功能可以将单一图片转化为动态角色,并在多种场景中使用,甚至可以将一张照片与另一张照片融合,创造出一个独特的角色。此外,平台还提供了「镜头运动」、「起始与结束帧」和循环功能,让用户可以轻松导演和定制视频效果。

 

对于那些缺乏灵感的用户,Dream Machine 的「头脑风暴」功能可以提供各种创意点子,帮助他们找到创作方向。(@AIbase 基地)

 

2、PicMenu:利用 AI 可视化你的菜单 你只需拍一下菜单 即可将你的菜名生成对应的图片

 

PicMenu 是一个利用 AI 快速将餐厅菜单可视化的工具。通过拍摄菜单图片,PicMenu 可以为每道菜生成详细的图像和描述,提供更直观的餐饮信息。

 

主要功能

 

1、菜单解析与生成:

 

  • 拍摄餐厅菜单的照片后,使用 AI 提取菜单项,生成每道菜的高质量图像。

 

2、AI 支持的详细信息:

 

  • 提取并显示菜品的附加信息(未来可能包括成分、来源、卡路里和口味)。

 

3、多语言与标签支持(开发中):

 

  • 计划支持多语言菜单解析,并添加标签(如辣味、素食、纯素等),提供基于标签的过滤功能。(@小互 AI)

03 有态度的观点

1、Perplexity 增长负责人:创始人的最大错误是假设用户痛点

 

近日,播客 20VC 采访了 Perplexity 的增长负责人 Raman Malik。

 

Raman Malik 在采访时提到:「创始人的最大错误:假设用户痛点,而实际上这些痛点并不存在。」

 

Raman 强调,必须通过数据和用户反馈来验证假设,而不是简单的凭空猜测用户需求。产品增长的过程中,避免陷入这种误区是非常重要的。

 

另外,Raman 在采访中表示,在 AI 公司与那些对 AI 不感兴趣的新观众进行定位时,他们需要你抽象掉整个 AI 搜索引擎的概念,直接传达价值:立刻获得答案,并附有可靠来源。(@APPSO)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/841764.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于mac安装ENSP的一点个人看法

如何在mac上安装ensp呢 目前主流的教程都是教大家在PD上面安装ENSP,但是这样就不可避免的会有两个问题,第一内存够用?第二CPU是什么型号的? 大多数教程中都忽略了这两个问题,就算有,也只是泛泛而言,并没有真正的安装ENSP并且测试。首先MAC电脑要安装ENSP,必须要满足一个…

[Avalonia] 练习一:搭建Avalonia+Prism+Material项目

这是个练手项目,初次接触Avalonia,决定搭建一个架构由Prism实现,UI基于Material的演示基本控件、自定义控件、遮罩、弹窗、标签页等UI基础的桌面项目,实现这些UI基础,基于WPF转Avalonia应该就没太大的问题了。 一、新建项目。新建空白解决方案AvaloniaApps。 新建项目,选…

【cesium】修改底图颜色为蓝色科技范儿

cesium中,默认的底图颜色往往难以满足个性化需求,而【蓝色科技】风格常常备受青睐,本文从实操角度介绍实现方法。 简单来说,我们所用的方法叫做【反色滤镜】,总的分为2个步骤,反色,过滤。具体做法如下: 首先要获取目标影像图层,这里不能直接对div进行操作,因为会将地…

51单片机入门:独立按键(02)

标题: ​ 51单片机入门:独立按键(02) 一、独立按键的基本结构和功能二、独立按键在单片机的位置三、初次使用独立按键 设计第1个程序,使用按键K1控制D1的亮灭 #include<regx52.h>void main() {while(1){if(P3_1 == 0) // 按下按钮相当于接地 P3_1 == 0; {P2_0 = 0…

【cesium】打造科技感建筑泛光效果

一些智慧城市项目经常需要加载建筑白膜数据(3dtiles),并制作炫酷的炫光效果,在cesium中可以使用自定义着色器修改白膜建筑的外观。 1.首先,加载3Dtiles格式的建筑白膜数据,这里我们使用一个免费的数据链接: data.mars3d.cn/3dtiles/jzw… 这是mars3D提供的一个链接,发送…

k8s容器中的Java进程经常自动被杀

故事背景 主角:低代码项目agile-bpm 时间:2023-08-29 背景:项目通过jenkins部署k8s容器到虚拟机,在一次部署之后,服务发生无限重启的现象,springboot项目起来后没多久(甚至有几次还没启动)就会被杀掉进程,服务宕机了一个晚上。 排查过程 查看日志 通过 kubelet logs 命…

从零开始:苹果手机免越狱群控系统的快速入门指南

对于初次接触苹果手机免越狱群控系统的用户来说,可能会感到有些困惑和不知所措。本章将提供一个详细的快速入门指南,帮助你从零开始,轻松掌握如何设置和使用这项强大的技术。免越狱群控系统概述 苹果手机免越狱群控系统是一种通过合法合规的技术手段,在不破坏iOS系统安全性…

网站模板文字内容修改,如何在网站后台或代码编辑器中修改模板文字内容

修改模板文字内容可以提升网站的信息传达效果。以下是具体步骤:登录网站后台:打开浏览器,输入网站的后台地址,例如 http://yourdomain.com/admin。 输入管理员账号和密码,点击“登录”。进入模板管理:登录后,点击顶部菜单栏中的“模板”或“主题”。 选择“模板管理”或…

网站模板文字内容修改,如何在网站后台或代码编辑器中准确修改模板文字内容

修改模板文字内容可以提升网站的信息传达效果。以下是如何准确在网站后台或代码编辑器中修改模板文字内容的步骤:登录网站后台:打开浏览器,输入网站的后台地址,例如 http://yourdomain.com/admin。 输入管理员账号和密码,点击“登录”。进入模板管理:登录后,点击顶部菜单…

本地git分支如何关联远程分支

背景 本文记录一下本地的git仓库如何与远程仓库同步,参考了网友的办法和官方的文档 如果对某些命令有疑惑,可以在命令行输入 git {command} --help 查看git的文档,例如 git remote --help ,会打开本地的帮助文件 操作步骤 首先切到本地仓库所在路径,如果git还没有初始化,…

多校A层冲刺NOIP2024模拟赛26

多校A层冲刺NOIP2024模拟赛26\(T1\) A. 随机游走 \(100pts/100pts\)在树上做临项交换即可。点击查看代码 struct node {ll nxt,to,w; }e[500010]; ll head[500010],v[500010],siz[500010],sum[500010],cnt=0,ans=0,tim=0; struct quality {ll sumt,siz,to,w; }; vector<qual…

支持4种类型的jQuery轮播图插件EasySlides

EasySlides是一款支持4种类型的jQuery轮播图插件。该jquery轮播图采用响应式设计,支持移动设备,内置有大图轮播,多图轮播,封面轮播和圆形轮播四种轮播图模式可供选择。在线演示 下载使用方法 在页面中引入jquery和jquery.easy_slides.js文件,以及样式文件jquery.easy_sl…