语音生成模型 PlayDialog:可生成对话播客、旁白;小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

news/2024/11/14 16:39:11/文章来源:https://www.cnblogs.com/Agora/p/18546305

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、对标谷歌 NotebookLM!语音生成模型 PlayDialog:可生成对话播客、旁白

 

近日,Play AI 正式推出其最具雄心的产品 ——PlayDialog beta 版本,能生成对话式的播客音频。

 

这款端到端的 AI 语音模型,利用对话的历史上下文,能够调控语调、情感和语速,以实现更自然的语音合成,标志着人机对话的新高度。PlayDialog 特别适合于制作真实的对话体验,例如旁白、语音配音、合成播客等,也能在商业环境中提供沉浸式的一对一语音交流体验,效果类似谷歌的 NotebookLM。

 

与此同时,Play AI 还推出了 PlayNote,这是一款可以将多种媒体文件(如 PDF、文本、视频等)转化为对话体验的工具。用户可以在几分钟内生成播客、简报、旁白,甚至是儿童故事,并享受到 PlayDialog 所带来的流畅、自然的语音效果。PlayNote 的独特之处在于,它也提供 API 接口,使得用户可以不依赖用户界面,轻松实现音频内容的程序化生成。

 

PlayDialog beta 经过数亿次真实对话的训练,模型规模约为 Play AI3.0mini 的十倍,能够在语调(如语音的抑扬顿挫、语速)上与人类的语音表现相匹配。在盲测中,PlayDialog beta 的表现比市场上领先的竞争模型高出两倍,特别是在表达力方面得分最高。

 

不同于以往的语音模型,PlayDialog beta 可以理解整段对话的上下文,进而影响语音生成的效果。Play AI 构建了一种被称为 「自适应语音上下文化器」(ASC)的新架构,使得模型能够利用完整的对话历史进行回应,从而让每一句话都不是孤立的输出,而是丰富的具备合适的语调、情感和语气,使得合成的播客仿佛让听众感受到演讲者在同一空间内进行交流。

 

无论是充满活力的讨论,还是需要同理心的敏感话题,PlayDialog 都能无缝适应,让互动显得更加自然和人性化。

 

用户可以通过 PlayNote 体验这一切,使用它制作强有力、自然的旁白、播客、简报等,只需几分钟就能完成。PlayNote 也可以通过 API 接口使用,允许开发者以大规模程序化方式生成引人入胜的内容。(@小夏聊 AIGC)

 

2、生数科技 Vidu 大模型迎来 1.5 新版本

 

 

 

(图源:Vidu)

 

昨日,生数科技官方公众号宣布,Vidu 大模型迎来 1.5 版本。官方表示,Vidu 的技术突破主要在以下三个方面:

 

复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,Vidu 都能保证其在多个不同视角下的一致性。

 

人物面部特征和动态表情的自然一致:在人物特写镜头中,Vidu 能够自然且流畅地保持人物面部特征和表情的连贯性,避免了面部僵硬或失真的现象。

 

多主体一致性:Vidu 允许用户上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。

 

官方表示,Vidu 1.5 的推出,揭示了一个重要现象:视觉模型与语言模型一样,经过充分的训练,模型能够展现出对上下文的深刻理解、记忆等能力。(@ APPSO)

 

3、AI 试衣技术 Fashion-VDM 颠覆传统 网购衣服再也不怕踩雷了!

 

Google Research 团队最新研发的 Fashion-VDM 技术,让人足不出户就能体验试穿各种漂亮衣服的快感。

 

Fashion-VDM 是一个视频扩散模型,只要你提供一件衣服的照片和一段你自己的视频,它就能生成一段你穿着这件衣服的视频,而且效果超级逼真!

 

市面上的虚拟试衣软件大多是基于图像的,只能生成静态图片,而且效果经常惨不忍睹,衣服穿在你身上就像贴纸一样,毫无真实感可言。Fashion-VDM 则完全不同,它生成的是动态视频,不仅能展示衣服在不同角度的穿着效果,还能模拟衣服的动态变化,比如褶皱、摆动等等,简直和真人试穿一模一样。

 

Fashion-VDM 的秘诀在于它采用了分离式无分类器引导技术(split-CFG),这项技术可以更精确地控制人物和服装的信息,确保生成的视频既保留了你本人的特征,又完美地展现了衣服的细节。

 

为了让视频更加流畅自然,Fashion-VDM 还采用了一种渐进式时间训练策略,先用大量的图片数据训练模型,然后再逐步增加视频数据的训练时长,最终生成长达 64 帧的超长视频,彻底告别画面卡顿和闪烁!

 

更厉害的是,Fashion-VDM 还结合了图像和视频数据进行联合训练,这意味着它不仅能从图片中学习服装的细节,还能从视频中学习人物的动作和服装的动态变化,最终生成更加真实、更具说服力的试衣视频。

 

当然,Fashion-VDM 目前还有一些局限性,比如在处理遮挡的服装区域时,细节可能不够准确,人物体型也可能出现轻微变形。(@AIbase 基地)

 

4、报道称小米 AI 眼镜将于明年 Q2 发布

 

据「智能涌现」独家报道,小米正计划推出新一代 AI 眼镜,数月前已与歌尔合作,该产品预计于 2025 年 Q2 发布。

 

有知情人士表示,小米 AI 眼镜将「全面对标 Meta Ray-ban」,搭载 AI 功能、音频耳机模块、摄像头模块,并将以小米自有品牌形式发布。

 

据称对于这款产品的出货量,雷军的预期「在三十万台往上」。

 

报道还指出,OPPO、vivo、华为、腾讯、字节近期也都在评估 AI 眼镜项目;苹果也被外媒曝光已组织团队重点评估 AI 眼镜市场。

 

财联社记者以投资者身份致电歌尔股份,相关人士回应称,公司对具体客户信息及项目内容不予透露。公司 AI 眼镜业务现阶段尚未量产,主要产品可应用于 AI 眼镜等终端产品。(@ APPSO)

 

5、传苹果将推出 AI 智能家居中控屏

 

据彭博社的 Mark Gurman 报道,苹果公司正在开发一款新的智能家居产品——一款壁挂式显示屏,拥有控制家电、与 Siri 互动和视频会议等功能。

 

显示屏看起来像一个方形的 iPad,拥有大约 6 英寸的屏幕,顶部配有摄像头,内置扬声器和可充电电池。其已开发三年,可能会在明年 3 月正式宣布。

 

这款设备在功能上与 Google Home Hub 和亚马逊的 Echo Show 相似,但苹果的智能家居控制中心的独特之处可能是苹果 AI,包括 10 月下旬开始向用户推出的 Apple Intelligence 以及即将到来的 App Intents 系统,该系统可使用 AI 控制软件程序。

 

此外,苹果还在开发一款带有机械臂的版本,能够移动平板设备。这表明苹果可能不仅仅是在开发一个智能设备控制面板,而是在寻求更先进的智能家居解决方案。(@ APPSO)

02有态度的观点

1、Glean 创始人:AI 创业者应从用户出发

 

在红杉资本的深度访谈中,Glean 的创始人 Arvind Jain 分享了企业搜索和 AI 应用在企业内部落地的挑战与机遇。

 

他强调,为了构建有效的 AI 应用,必须先建立强大的数据基础设施,包括深入集成企业系统、健全的安全和权限框架,以及理解人与内容、上下文之间关系的复杂知识图谱。

 

Jain 表示企业搜索的难点在于数据的私有性、基于权限的访问和深刻的上下文依赖性,因此,理解组织结构、用户角色和访问权限至关重要。

 

Jain 还指出,AI 创业者应从用户出发,先通过关键功能为用户提供清晰的价值,再扩展到更多的 AI 功能,这有助于建立企业信任并为高级功能提供所需的数据基础。

 

他预见 AI 助手将在未来主动帮助用户完成工作,改变工作方式,使得每个人都能拥有强大的 AI 助手来提升工作效率。

 

此外,Jain 建议创业者应专注于解决业务问题,而不是单纯追求 AI 技术,因为 AI 只是解决问题的工具之一。(@ APPSO)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/833473.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Assignment pg walkthrough Easy 通配符提权变种

nmap 扫描 ┌──(root㉿kali)-[~] └─# nmap -p- -A 192.168.157.224 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-11-14 04:18 UTC Stats: 0:00:53 elapsed; 0 hosts completed (1 up), 1 undergoing Service Scan Service scan Timing: About 66.67% done; ETC: 0…

变量的存储方式和生存期

变量的存储方式和生存期变量的存储方式和生存期 动态存储方式与静态存储方式 从变量的作用域(即从空间)的角度来观察,变量可以分为全局变量和局部变量 从变量存在的时间(即生存期)来观察:有的变量在程序运行的整个过程都是存在的,而有的变量则是在调用其所在的函数时才临…

Whalestudio助力西南某商业银行数据中台建设 | 实践探索

在数字化转型的浪潮下,银行业对数据的依赖日益加深。为提升数据管理和应用水平,西南某城商行于2022年启动了数据中台建设,采用创新技术手段优化其数据服务体系。 本文将深入探讨该行如何借助Whalestudio平台构建数据中台,以及在实际应用中取得的显著成效。 从需求到选择:数…

详解漏斗模型及如何通过行为设计提升转化率

详解漏斗模型及如何通过行为设计提升转化率 | 人人都是产品经理 https://www.woshipm.com/pd/1695380.html 详解漏斗模型及如何通过行为设计提升转化率2018-12-05 3 评论63515 浏览267 收藏12 分钟 漏斗模型,是一种数据分析方式,是一个线性流程,更是一种普遍适用的方法论,或…

【FMC155A】基于VITA57.1标准的2路500MSPS/1GSPS/1.25GSPS 14位AD采集FMC子卡模块(交流耦合)

​板卡概述 FMC155A是一款基于VITA57.1标准的,实现2路14-bit、500MSPS/1GSPS/1.25GSPS 采样率交流耦合ADC同步采集FMC子卡模块。该模块遵循VITA57.1规范,可直接与FPGA载卡配合使用,板卡ADC器件采用ADI的AD9680芯片,该芯片具有两个模拟输入通道和两个JESD204B输出数据通道对…

在华为开发者空间,简单几步带你实现AI风格化编程

通过调用ModelArts上的动漫头像制作应用,将头像图片转化为动漫风格的头像图片。本文分享自华为云社区《【开发者空间实践指导】基于FunctionGraph的AI风格化编程》,作者:开发者空间小蜜蜂。 一、 案例介绍 本实验基于FunctionGraph和ModelArts的智能头像动漫化处理应用。通过…

皮带跑偏识别智慧矿山一体机皮带运行状态识别如何与EasyCVR平台搭建煤矿矿井安全监控系统?

在煤矿行业,安全始终是最为关键的议题。随着智能化技术的发展,智慧矿山一体机与EasyCVR平台的结合为煤矿矿井安全监控系统提供了一种全新的解决方案。这种集成化的系统不仅能够实现对煤矿生产过程的实时监控和管理,还能提高矿山的安全性和生产效率,同时降低人工巡检的成本和…

vmstat的使用

1.用法 vmstat [-a] [-n] [-S unit] [delay [ count]] vmstat [-s] [-n] [-S unit] vmstat [-m] [-n] [delay [ count]] vmstat [-d] [-n] [delay [ count]] vmstat [-p disk partition] [-n] [delay [ count]] vmstat [-f] vmstat [-V] -a:显示活跃和非活跃内存 -f:显示从系…

PNP和NPN三极管区别

主要区别是电流流向和电压不同:1. PNP管子是发射极流入后从基极和集电极流出,NPN管子是基极和集电极流入从发射极流出。 2. PNP管子工作在放大区时电压是,Ue>Ub>Uc,NPN管子工作在放大区时电压时Uc>Ub>Ue。 3. PNP是共阴极,即两个PN结的N结相连做为基极,…

关于伺服电子齿轮比

一、首先是术语解释: 1.编码器分辨率:多少个脉冲每转。如分辨率为18位,代表需要发262144个脉冲转一圈。2.脉冲当量:发一个脉冲,电机能走多少距离,也就是电机的最小精度。 3.丝杆螺距:表示丝杆转一圈多少毫米。 4.减速比:A(从轮):B(主轮) 5.电子齿轮比:分子是电机编码器…

ubuntu destop修改终端字体大小(Terminal)

背景 初始字体太大,窗口小,看不了几行 调整效果舒服多了 可根据自己的需要做调整

CBT

设置扬声器阵列,预先设置扬声器阵列的覆盖角 根据扬声器阵列的覆盖角得到截止频率F 将音频信号小于截止频率F的频段采用空间重采样法进行恒定束宽控制;将音频信号大于或等于截止频率F的频段采用CBT阵列理论进行恒定束宽控制;基本流程图如下:step1: 首先,确定系统参数. 根据…