王慧文回归带队美团探索 AI 应用;对话音频开源模型 Hertz-dev:120 毫秒超低延迟丨 RTE 开发者日报

news/2024/11/7 12:40:33/文章来源:https://www.cnblogs.com/Agora/p/18531906

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、黑神话悟空也能用 AI 生成了?GameGen-X 颠覆游戏开发

 

香港科技大学、中国科学技术大学等机构的研究人员近日发布了 GameGen-X 模型,这是一个专为生成和互动控制开放世界游戏视频而设计的扩散变换器模型。

 

GameGen-X 能自己生成开放世界游戏视频,可以模拟各种游戏引擎功能,包括生成创新角色、动态环境、复杂动作和多样化事件,还能跟你互动,让你体验一把当游戏策划的快感。

 

为了训练 GameGen-X,研究人员还构建了第一个大型开放世界游戏视频数据集 OGameData。该数据集包含超过 100 万个来自 150 多款游戏的不同游戏视频片段,并利用 GPT-4o 为其生成了 informative 的文本描述。

 

GameGen-X 的训练过程分为两个阶段:基础模型预训练和指令微调。在第一阶段,模型通过文本到视频生成和视频延续任务进行预训练,使其能够生成高质量、长序列的开放域游戏视频。

 

在第二阶段,为了实现互动可控性,研究人员设计了 InstructNet 模块,该模块集成了与游戏相关的多模态控制信号专家。

 

InstructNet 允许模型根据用户输入调整潜在表示,从而首次在视频生成中统一了角色互动和场景内容控制。在指令微调过程中,只有 InstructNet 被更新,而预训练的基础模型被冻结,这使得模型能够在不损失生成视频内容多样性和质量的情况下集成互动可控性。

 

实验结果表明,GameGen-X 在生成高质量游戏内容方面表现出色,并提供了对环境和角色的出色控制能力,优于其他开源和商业模型。(@AIbase 基地)

 

2、首个会话音频开源模型 Hertz-dev 120 毫秒超低延迟惊艳全网

 

一个革命性的开源音频模型——Hertz-dev 横空出世,凭借其惊人的性能指标,让全球开发者为之震撼。这款拥有 85 亿参数的 AI 语音巨兽,通过 2000 万小时高质量音频数据的训练,成功实现了人类梦寐以求的全双工实时对话。

 

最令人惊叹的是其 120 毫秒的超低延迟表现,较现有公开模型足足提升了一倍,让人机对话体验提升到了一个全新境界。想象一下,当你在和 AI 对话时,不必再等待对方说完就能自然插话,就像真实的人类对话一样流畅自然。

 

Hertz-dev 的核心突破包括:

 

  • 突破性全双工技术: 彻底颠覆传统轮流发言模式,实现真正的双向实时交流

 

- 卓越音频压缩: 在保证高音质的同时,大幅降低带宽占用

 

- 超长对话能力: 轻松理解和生成持续性对话内容

 

- 革命性低延迟: 120 毫秒的响应速度,开创实时互动新纪元

 

作为一个专注音频的 Transformer 基础模型,Hertz-dev 在训练过程中充分利用了真实世界的对话数据,成功捕捉了人类语音中的细微特征,包括自然的停顿节奏和丰富的情感语调变化。

 

对开发者而言,这是一个极具价值的开源宝藏。他们可以自由下载模型,根据具体应用场景进行微调,打造各类创新语音应用。这意味着,从客服机器人到语音助手,从教育辅导到娱乐互动,都将迎来质的飞跃。(@AIbase 基地)

 

3、字节推出单图视频驱动模型 X-Portrait 2:一键生成相同表情神态,简化创作流程

 

 

 

单图视频驱动技术,即只需一张静态照片和一段驱动视频,即可生成高质量、「电影级」的视频。

 

字节跳动智能创作团队推出最新单图视频驱动技术 X-Portrait 2,该模型不仅能保留原图的 ID,还能捕捉并迁移从细微到夸张的表情和情绪,简化了现有动作捕捉、角色动画和内容创作流程。

 

不同于以往依赖人脸关键点检测的单图驱动方法,X-Portrait 2 构建了一个表情编码器模型,通过一种端到端自监督训练框架,能够从大量人像视频中自学习 ID 无关的运动隐式表征。

 

进一步将这个编码器与强大的生成式扩散模型相结合,即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练,X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。(@IT 之家)

 

4、苹果 Siri AI 进化:将支持读取屏幕、摘要内容、回答相关问题

 

科技媒体 AppleInsider 昨日(11 月 6 日)发布博文,报道称苹果公司本周一发布新的支持文档,帮助开发者更好地利用 Siri 和 Apple Intelligence 功能,用于查看和处理屏幕内容。

 

根据新的开发者文档链接,Siri 可以更深入地理解上下文,用户将能够直接询问 Siri,提出关于当前查看的网页或指定照片中特定对象的问题。

 

Siri 还将能够在请求时总结文档和电子邮件,并通过添加更多内容来完成文本。这些功能的实现,将大大提升 Siri 的实用性和交互性。

 

在最新的 iOS 18.2 开发者测试版中,Siri 已经开始支持 ChatGPT 集成。用户可以在获得许可的情况下,将 PDF、文本文件或图像转发给 ChatGPT 进行处理。

 

新的 API 表明,苹果希望进一步简化此过程,用户可以直接提问,而不必通过 Siri 转发文档。

 

苹果的这项开发者 API 仅是为即将推出的新 Siri 功能做准备,预计这些功能将在 2025 年与 iOS 18.4 更新一同推出。(@IT 之家)

 

5、原美团联合创始人回归,将探索 AI 应用

 

据报道,原美团联合创始人、光年之外创始人王慧文已经回归,在美团带队探索 AI 应用。

 

报道指出,王慧文所在的美团 AI 团队被称为 GN06。目前,GN06 的主要业务方向包括情感陪伴、聊天机器人等,团队为候选人提供「没有边界的 AI 尝试机会」。

 

产品和运营角色,则由王慧文面试把关。

 

有接近美团的人士表示,GN06 由王慧文直管,并不归属任何一个事业群。

 

GN06 在美团中的状态相对独立,专注于探索主营业务之外的方向,和美团已有的大模型团队、各业务条线中的 AI 团队也是相互独立的。(@APPSO)

02有态度的观点

1、前 OpenAI 研究员:需要保护那些脆弱但极具价值的想法

 

在腾讯读书举办的一场对谈上,,腾讯研究院资深专家袁晓辉与前 OpenAI 研究员 Kenneth Stanley 和 Joel Lehman 围绕 10 个问题,进行了两个小时的沟通。

 

当被问及关于共识的问题时,Kenneth Stanley 表示,「有时候你确实需要共识,但有时候你需要的是分歧。创新的组织本身是复杂的。」

 

不过,他也补充道,「你需要保护那些脆弱但极具价值的想法,尤其是当这些想法来自你聘请的顶尖人才时。」

 

他认为创新是一个循环的过程,有阶段性分歧,也有阶段性聚合,因为有些项目的确需要多人协作才能完成。即使有时候团队需要达成共识,也并不是非要在目标上达成一致。

 

而关于 OpenAI 的成功,Kenneth Stanley 表示,这是与领导层的兴趣和勇气有关,他们愿意真的把所有的赌注放在一个看起来风险很大的事情上。

 

Joel Lehman 也给出了差不多的看法,并且他还表示,OpenAI 有非常聪明的人,还有探索的意愿。从一开始,他们就做出了这种反常规的赌注,并且一次次地将所有筹码都押上,这确实需要很大的勇气。所以,当人们试图模仿 OpenAI 时,有时需要做出一个没人愿意做的大赌注,但并没有任何保证它一定会成功。( @APPSO)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/828259.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

思通数科纸质档案扫描与识别与档案馆应用场景介绍

在传统档案馆中,纸质文件的处理和管理是一个重要且繁琐的环节,特别是面对庞大的历史资料库。思通数科的AI能力平台提供了一种高效的数字化解决方案,利用OCR技术将纸质档案中的信息自动提取并转化为数字文本,具体过程包括以下几个步骤: 1.扫描与图像预处理 首先,系统将纸质…

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

文章信息 标题 CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion 会议及时间 CVPR2023 主要内容 为了解决建模跨模态特征和分解期望模态特有和模态共有特征的挑战,本文提出了一种用于多模态图像融合的双分支Transformer-CNN架…

Jetbrains全家桶激活方法

亲测有效,此处以phpstrom为例,按理其他产品也可以用相同的方式激活。 原理是我们通过代码搜索其他授权服务器进行永久激活。 方式一 通过censys https://search.censys.io/用到的代码: services.http.response.headers.location: account.jetbrains.com/fls-auth 我们将上…

文件夹加密小工具:保护你的隐私安全

在数字化时代,个人数据的隐私和安全性变得尤为重要。无论是存储重要文件、敏感信息还是私人照片,我们都希望这些数据能够得到妥善保护。文件夹加密小工具正是为了满足这一需求而设计的,它采用C#语言编写,基于.NET 4.7框架,并引用了miniExcel库来加载和保存用户设置的文件夹…

制作并量化GGUF模型上传到HuggingFace和ModelScope

使用 llama.cpp 制作并量化 GGUF 模型,并将模型上传到 HuggingFace 和 ModelScope 模型仓库llama.cpp 是 Ollama、LMStudio 和其他很多热门项目的底层实现,也是 GPUStack 所支持的推理引擎之一,它提供了 GGUF 模型文件格式。GGUF (General Gaussian U-Net Format) 是一种用于…

cmd格式化U盘,并用UltraISO做系统盘

背景 要给一台服务器重做系统,需要先做个u盘系统盘 格式化U盘 C:\Users\海>diskpartMicrosoft DiskPart 版本 10.0.19041.3636Copyright (C) Microsoft Corporation. 在计算机上: DESKTOP-07439DEDISKPART> list disk磁盘 ### 状态 大小 可用 Dyn G…

AI 搜索来势汹汹,互联网将被颠覆还是进化?

最近,美国新闻集团起诉了知名 AI 搜索引擎 Perplexity AI。也许你会想,这不就是又一起“AI 惹官司”吗?其实,这次情况不太一样,甚至可能会改变我们未来上网的方式! 争议的焦点是什么?是未来的 AI 搜索——即那些能从全网总结信息的“AI 答题王”。这些 AI 不只是简单的聊…

CSS3实现放大镜效果

市面上基本上所有的购物平台、商城上的商品详情页,对于商品的图片都是有放大功能。那么这个功能主要是怎么实现的呢?CSS3实现放大镜效果主要依赖于CSS的一些高级特性,如transform、transition和::before伪元素等 其实代码并没有多少,这里用了6款静态资源图片作为示例,但是…

应届生必看!23 个高质量 C++ 项目推荐,校招简历秒加分

应届生必看!23 个高质量 C++ 项目推荐,校招简历秒加分大家好,我是小康。 最近,不少同学私信我,临近毕业忙着找工作,想问有没有推荐的 C++ 项目,既能练手又能让简历更出彩。我也想起自己当年毕业时同样的焦虑,知道作为 C++ 后端开发的求职者,有几个实际且吸引人的项目,…

Avalonia封装实现指定组件允许拖动的工具类

创建Avalonia的MVVM项目,命名DragDemo,然后将项目的Nuget包更新到预览版 1 2 3 4 5 6 7 8<ItemGroup><PackageReference Include="Avalonia" Version="11.0.0-preview5" /><PackageReference Include="Avalonia.Desktop" Versi…