a16z:小模型 + 边缘 AI 将定义 2025;音效模型 TangoFlux:3 秒钟生成 30 秒音频丨RTE 开发者日报

news/2025/1/9 10:51:43/文章来源:https://www.cnblogs.com/Agora/p/18650713

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、微软论文曝光 GPT 机密内容

 

 

近日,微软发布的一篇医学相关的论文中,曝光了 OpenAI 旗下模型的参数。

 

根据论文披露,OpenAI 的 o1-preview 模型约有 300B 参数,GPT-4o 约 200B,而 GPT-4o-mini 仅有 8B 参数。有消息指出,英伟达此前公布的 GPT-4 采用 1.8T MoE 架构,而此次微软公布的为 1.76T。同时,论文还透露了 Claude3.5Sonnet 的参数规模约为 175B。

 

据了解,这并非微软第一次「泄露」模型参数信息。此前微软曾在一篇论文中披露 GPT-3.5-Turbo 的 20B 参数信息,但随后又在更新版本中删除了这一信息。此外,此篇论文的主要目的是介绍一个名为 MEDEC 的医疗领域基准测试。研究团队分析了来自三家美国医院的 488 份临床笔记,评估了各大模型在识别和纠正医疗文档错误方面的能力。(@APPSO)

 

2、Meta AI 推出 LIGER 混合检索 AI 模型,计算效率与推荐精度兼得

 

 

Meta AI 公司联合威斯康星大学麦迪逊分校、ELLIS Unit、LIT AI Lab、机器学习研究所、JKU Linz 等机构,混合密集检索和生成检索,推出了 LIGER(LeveragIng dense retrieval for GEnerative Retrieval)模型。

 

该模型混合了生成检索的计算效率和密集检索的精度,利用生成检索生成候选集、语义 ID 和文本属性的项目表示,再通过密集检索技术进行精练,平衡了效率和准确性。

 

LIGER 采用双向 Transformer 编码器和生成解码器。密集检索部分整合了项目文本表示、语义 ID 和位置嵌入,并使用余弦相似度损失进行优化。生成部分使用波束搜索根据用户交互历史预测后续项目的语义 ID。

 

通过这种混合推理过程,LIGER 降低了计算需求,同时保持了推荐质量。LIGER 还能很好地泛化到未见过的项目,解决了先前生成模型的关键限制。

 

在 Amazon Beauty、Sports、Toys 和 Steam 等基准数据集上的评估显示,LIGER 的性能持续优于 TIGER 和 UniSRec 等现有最先进模型。(@IT 之家)

 

3、超快音效生成模型 TangoFlux:仅需 3 秒钟就能生成 30 秒长音频

 

新加坡科技设计大学(SUTD)和NVIDIA联合发布了一种高效的文本到音频生成模型 (TTA)——TangoFlux 。

 

TANGOFLUX 是一种高效的文本到音频生成模型,拥有 515 百万个参数,能够在短短 3.7 秒内生成最长可达 30 秒的 44.1kHz 音频,这一速度让其在单个 A40GPU 上的表现非常出色。

 

TANGOFLUX 主要是特色是可以生成各种音效,例如鸟叫、口哨、爆炸等声音,另外也支持生成音乐不过效果就不那么理想了。

 

文本音频生成模型的一个主要挑战在于如何创建偏好配对。与大型语言模型(LLMs)不同,文本音频生成模型缺乏可验证的奖励机制或金标准答案。为了解决这个问题,研究团队提出了一种名为 CLAP-Ranked Preference Optimization(CRPO)的新框架。该框架通过迭代生成和优化偏好数据,以提升文本音频生成模型的对齐性能。研究表明,使用 CRPO 生成的音频偏好数据在性能上优于现有的替代方案。

 

通过这一框架,TANGOFLUX 在多项客观和主观基准测试中都取得了领先的表现。此外,研究团队还决定将所有代码和模型开源,以支持更多人对文本音频生成的研究。

 

在实际效果方面,TANGOFLUX 在音频生成质量上优于其他模型,展现出更清晰的事件声音、更好的事件顺序再现以及更高的音频质量。通过对多个示例的比较,用户可以直观地感受到 TANGOFLUX 在音频生成中的优势。(@AIbase 基地)

02 有亮点的产品

1、VocAdapt:一款语言学习工具

 

VocAdapt 是一款新推出的 Chrome 浏览器扩展,专注于提供创新的语言学习解决方案。它的核心特点是将日常网页浏览和 YouTube 视频观看转化为语言学习机会,通过自动调整内容难度来适应用户的语言水平。

 

用户无需额外安排学习时间,只需在日常上网时使用这个工具,就能实现自然的语言学习。它特别适合那些想通过真实内容学习语言、时间有限或偏好沉浸式学习方法的人。使用方式简单,安装后选择目标语言,即可开始在日常浏览中学习。(@Z potentials)

 

2、SEObot:全球首个 AI 驱动的博客 SEO 代理

 

 

SEObot 是一款革命性的 AI 驱动博客 SEO 工具,旨在为内容创作者和营销人员提供全面的 SEO 优化和内容生成服务。其核心价值在于通过先进的 AI 技术,实现高质量、非垃圾内容的自动化生成,同时优化 SEO 策略,提高网站的搜索引擎排名。产品的主要功能包括 AI 生成博客内容、自动内部链接、关键词研究、视频嵌入、图片生成、反幻觉机制、事实核查和引用来源等。

 

SEObot 的独特优势在于其全面性和自动化程度,能够满足从内容创作到 SEO 优化的全流程需求。目标用户主要包括博客作者、内容营销团队和希望提升网站 SEO 表现的企业。通过提供可选的人工审核和与大多数 CMS 系统的自动同步功能,SEObot 大大简化了内容创作和 SEO 优化的工作流程,为用户节省时间和资源,同时确保内容质量和搜索引擎友好性。(@Z potentials)

03 有态度的观点

1、a16z 华裔合伙人 Jennifer Li 最新洞察:小模型 + 边缘 AI 将定义 2025

 

a16z 合伙人 Jennifer Li 最近分享了她对生成式 AI 的最新见解,特别提到了设备端运行的小型模型在未来的重要性。

 

去年 4 月,Jennifer 升任为 a16z 第 27 位普通合伙人,并在 a16z 新成立的 12.5 亿美元 AI 基础设施基金扮演关键角色。

 

Jennifer 表示,生成图像、语音和视频的生成式模型将在基础设施和设备计算能力方面变得更加普及,这为小型模型的崛起提供了绝佳条件,而在设备端运行的小型生成式 AI 模型将在 2025 年更加流行。

 

许多日常使用的应用程序,比如 Uber、Instacart、Lyft 或 Airbnb,已经在设备端运行了大量机器学习模型。然而,她特别想强调的是生成式模型,它们正在逐渐实现类似传统机器学习模型的设备端运行。

 

Jennifer 表示,如今的智能手机计算能力相当于 10~20 年前的电脑,加上摩尔定律的作用,像 20 亿或 80 亿参数的小型模型,已经足够在设备端高效运行,并提供强大的功能,这一变化得益于设备计算能力的提升和模型优化技术的进步 。

 

此外,她还提到蒸馏技术发展也是一大关键。这项技术可以将一个功能强大的大型模型压缩成较小的模型,同时保留大部分能力,这种技术结合设备计算能力的提升,为小型模型的广泛应用奠定了基础。

 

相比云端运行,设备端运行生成式模型有许多显著优势。首先是实时性。用户希望与聊天机器人互动时能够立即收到响应,或者在社交媒体中添加滤镜时无需等待几秒钟加载。设备端运行能够显著减少延迟,为用户提供更加流畅和直观的体验。

 

然后是隐私保护。如果数据处理可以完全在本地完成,比如会议记录功能,大多数用户会更加愿意使用这些应用,而不用担心隐私数据被上传到服务器进行处理。

 

经济性和效率也是重要因素。虽然云端推理的成本正在下降,但设备端运行可以进一步优化开发者的效率,加快迭代速度,并降低一部分基础设施的依赖。

 

某些计算密集型任务可能仍需要云端支持,但许多日常应用场景完全可以通过本地模型实现,从而减少对网络和服务器的依赖。

 

她还提到,设备端模型的潜力正在释放,在未来我们可能会看到以下应用场景的广泛普及:

 

- 实时语音助手与对话 AI: 这些助手能够流畅地处理与用户的互动,例如个性化的 AI 教练或客户服务支持。

 

- 增强现实(AR)体验: 通过摄像头和生成式 AI 的结合,用户可以实时重新设计空间,例如更改墙纸、家具摆放等。

 

- 混合现实与创意表达: 生成 3D 模型和视频的新技术将改变我们与现实世界的互动方式,使得虚拟体验更加生动有趣。

 

- 可穿戴设备创新: 智能手表和其他可穿戴设备将通过小型化生成模型解锁更多个性化功能。

 

虽然设备端模型带来了诸多可能性,但仍面临一些挑战。例如,设备端模型需要随着硬件和应用的更新而同步迭代,开发和部署成本也可能有所增加。

 

另外,云端和设备端结合的经济模式需要重新设计,这将对整个供应链产生深远影响。(@有新 Newin)

 

 

更多 Voice Agent 学习笔记:

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/863501.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mqtt应用问题

1、mqtt程序主动断开后,无法再次收到消息 解决办法:方法一、在emqx服务端中主动踢除客户端方法二、代码里 面将session设置为true,每次断开会清除会话2、正在进行过多的发布(32202)解决办法:方法一、默认支持一次新发送10条消息,最大是1000,可以设置//options.setMaxInfl…

打靶记录24——Presidential

靶机: https://www.vulnhub.com/entry/presidential-1,500/ 下载(镜像):https://download.vulnhub.com/presidential/Presidential.ova 难度:中目标:获得 Root 权限 + 2 Flag攻击方法:主机发现 端口扫描 信息收集 备份文件 子域名爆破 phpmyadmin 密码爆破 本地文件包含…

继续聊一聊sqlsugar的一个机制问题

几个月前换了新工作,从技术负责人的岗位上下来,继续回归码农写代码,在新公司中,我不是技术负责人,没太多的话语权。 公司这边项目统一都是使用了SqlSguar这个orm,我也跟着使用了几个月,期间碰见了不少奇奇怪怪的问题,甚至之前特意写文章“骂”过,但是今天要聊的这个问…

高性能MySQL(第4版)PDF、EPUB免费下载

领域经典十年后全版更新||全面拥抱8.0||重磅剖析现代云数据库与大规模运维实践||中国首批DBA精琢翻译5大头部国产数据库创始人联合力荐适读人群 :不但适合数据库管理员(DBA)阅读,也适合开发人员参考学习。不管是数据库新手还是专家,相信都能从本书有所收获 领域经典十年后…

【校长系列】2022版高中信息技术课程标准详细解读(PPT课件)

【校长系列】2022版高中信息技术课程标准详细解读(PPT课件)新课标解读

采集DNP3 转 profinet IO项目案例

VFBOX协议转换网关支持PLC,modbus,EthernetIP,Profinet,CCLink,EtherCAT,IEC61850,IEC104,bacnet,DLT645,HJ212,opc ua,opc da,DNP3。目录 1 案例说明 1 2 VFBOX网关工作原理 1 3 准备工作 2 4 配置网关采集DNP3协议数据 2 5 用PROFINET IO协议转发数据 4 6 案例总…

PPT保存报错:某些字体无法与演示文稿一起保存.241127

WPS做的PPT,用的会员,高级的那种,很高大上很好看,但是用微软的PowerPoint编辑保存,报错:某些字体无法与演示文稿一起保存。 解决方案:移除嵌入的字体 打开演示文稿文件。 在“文件”菜单上选择“选项”。 选择对话框左侧的“保存”选项卡。 在“共享此演示文稿时保持保真…

API开发与管理规范v1.0_.20241127

1. 协议规范 为了确保不同业务系统之间以及前后端的的数据交互的快捷性,通讯协议统一约定如下:对内调用的API接口统一使用 HTTP协议 对外互联网发布的API建议使用HTTPS协议也可以使用HTTP 新的API接口必须使用标准的HTTP报文并使用JSON作为统一的数据传送标准 如无特殊情况禁…

Node开发规范v1.0_.20241127

一、空格与格式 (一)缩进 采用2个空格缩进,而不是tab缩进。 空格在编辑器中与字符是等宽的,而tab可能因编辑器的设置不同。2个空格会让代码看起来更紧凑、明快。 变量声明 永远用var声明变量,不加var时会将其变成全局变量,这样可能会意外污染上下文,或是被意外污染。 在EC…

ABAP开发规范V1.0_.20241127

1. 概要 1.1目的 该文档定义了在开发与维护ABAP程序过程中必须遵守的规范与标准。该文档应当被视为一个动态的文档,该文档会根据需要进行增补和修订。 开发规范的重要作用在于保持整个开发团队的开发风格一致,提高程序质量,降低维护压力。 1.2适用范围 所有ABAP开发及系统配…

浙江单考单招政策解读!(内含浙江单招院校名单)

浙江单考单招政策解读!(内含浙江单招院校名单) 浙江单考单招: 浙江单招,即浙江省普通高校招生单独考试,浙江单招的考试科目通常包括文化课和职业技能测试(分为理论课和操作两部分),很多考生对浙江单招政策还有很多疑问,小编整理了浙江单招政策常见的一些政策问题及单…

如何评估员工是否以客户为中心

达到或超过期望值他能够与客户的反对意见打交道,应对它们,并使客户相信他的观点的优点。 他能为任何客户找到正确的方法,即使是最关键的客户。 他对客户总是很有礼貌和友好。他在谈话中从不打断他们。 他不能让客户失望。如果他承诺过要做什么,他就会履行承诺。 他总是关心…