DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据

Google DeepMind日前悄然宣布了其人工智能研究的重大进展,推出了一款名为“Mirasol3B”的新型自回归模型,旨在提升对长视频输入的理解能力。该新模型展示了一种颠覆性的多模态学习方法,以更综合和高效的方式处理音频、视频和文本数据。

Google Research的软件工程师Isaac Noble和Google DeepMind的研究科学家Anelia Angelova共同撰写的博客文章中指出,构建多模态模型的挑战在于模态的异构性。他们解释说:“一些模态可能在时间上同步(例如音频、视频),但与文本不对齐。此外,视频和音频信号中的大量数据远远大于文本,因此在将它们结合在多模态模型中时,视频和音频通常无法完全消耗,需要进行不成比例的压缩。对于更长的视频输入,这一问题变得更加严重。”

多模态学习的新方法

为了解决这一复杂性,Google的Mirasol3B模型将多模态建模解耦为分开的自回归模型,根据模态的特性处理输入。“我们的模型包括一个用于时间同步模态(音频和视频)的自回归组件,以及一个用于不一定时间对齐但仍然是序列的模态(例如标题或描述)的单独的自回归组件,”Noble和Angelova解释道。

Google可能会探索在YouTube等领域应用该模型的可能性。作为全球最大的在线视频平台之一,YouTube是公司的主要收入来源之一。该模型理论上可以用于提升用户体验和参与度,例如生成视频的字幕和摘要,回答问题并提供反馈,创建个性化推荐和广告,以及让用户使用多模态输入和输出创建和编辑自己的视频。

例如,该模型可以基于视觉和音频内容生成视频的字幕和摘要,并允许用户通过关键词、主题或情感搜索和过滤视频。这有望提高视频的可访问性和可发现性,帮助用户更轻松快速地找到他们想要的内容。

该消息在人工智能社区引起了浓厚的兴趣和激动,同时也有一些怀疑和批评。一些专家赞扬了该模型的多功能性和可扩展性,并对其在各个领域的潜在应用寄予厚望。但也有人质疑为何没有提供代码、模型权重、训练数据甚至API。这引发了关于该技术在实际应用中的可行性的讨论。

这一宣布标志着人工智能和机器学习领域的重要里程碑,展示了Google在开发前沿技术方面的雄心和领导地位。然而,这也为AI的研究人员、开发者、监管机构和用户提供了一项挑战和机会,需要确保该模型及其应用符合社会的道德、社会和环境价值观和标准。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/185933.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据加解密系统(揭秘数据解密的关键技术)

数据加解密系统是一种用于保护数据安全的系统,它可以将数据加密以防止未经授权的访问和数据泄露,同时也可以将已加密的数据解密以供授权用户使用。 随着网络技术和电子商务的不断发展,数据安全问题越来越受到人们的关注。数据加解密系统被广泛…

【数学】距离函数(未完)

文章目录 一、声明二、无符号距离函数 (Unsigned Distance Function, UDF)Wasserstein Distance / Earth Movers Distance ☆欧氏距离 (Euclidean Distance)马氏距离 (Mahalanobis Distance)带权重的最近邻距离(Weighted Nearest Neighbor Distance)Cham…

智慧党建小程序源码系统+在线考试+缴费+学习 功能强大 带完整的前后端搭建教程

“智慧党建”是现代社会党建工作的一种新理念。它是运用互联网、大数据等新一代信息技术,实现党建信息资源融合共享,稳步提升新时代党建科学化水平。促使党的建设多维度全覆盖、党建措施智慧生成的实现,从而提升党的执政能力和治理能力。下面…

PY32F002B从压缩包到实现串口printf输出

最近学习使用芯领的PY32F002B开发板,记录学习历程供有同样需求的人参考。 本文主要讲述利用开发板实现printf语句串口输出。 开发环境的初步搭建 官方提供了一个压缩文件,文件名py32f002B_231026.zip, 链接:https://pan.baidu.c…

JPA整合Sqlite解决Dialect报错问题, 最新版Hibernate6

前言 我个人项目中,不想使用太重的数据库,而内嵌数据库中SQLite又是最受欢迎的, 因此决定采用这个数据库。 可是JPA并不支持Sqlite,这篇文章就是记录如何解决这个问题的。 原因 JPA屏蔽了底层的各个数据库差异, 但是…

μC/OS-II---消息邮箱管理2(os_mbox.c)

目录 消息邮箱发送(扩展)从消息邮箱获取/无等待消息邮箱状态查询消息邮箱中断等待用邮箱作为二值信号量(无)用邮箱实现延时(无) 消息邮箱发送(扩展) #if OS_MBOX_POST_OPT_EN > …

苹果手机怎么转移通讯录?简单操作方法来了!

通讯录是手机中存储联系人信息的应用程序,它可以帮助用户方便快捷地进行通讯和信息交流。通讯录记录了我们的亲朋好友、同事等重要人物的联系方式。 如果因更换手机而丢失通讯录,可能会对我们的日常生活和社交带来不便。苹果手机怎么转移通讯录&#xf…

基于PyTorch搭建你的生成对抗性网络

前言 你听说过GANs吗?还是你才刚刚开始学?GANs是2014年由蒙特利尔大学的学生 Ian Goodfellow 博士首次提出的。GANs最常见的例子是生成图像。有一个网站包含了不存在的人的面孔,便是一个常见的GANs应用示例。也是我们将要在本文中进行分享的…

《Linux从练气到飞升》No.29 生产者消费者模型

🕺作者: 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux菜鸟刷题集 😘欢迎关注:👍点赞🙌收藏✍️留言 🏇码字不易,你的👍点赞🙌收藏❤️关注对我真的…

如何用AB测试完善产品激励体系

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 用户激励体系,也称用户激励机制,是为了让用户持续使用产品,而设计的一套对应规则。在用户激励体系建立过程中,产品可…

目前比较好用的护眼台灯?小白入门最适合的护眼台灯推荐

随着人们对家庭环境艺术的重视,台灯因其摆设在桌案台几上的特殊地位,也要进求特有的装饰效果。家居用台灯开始逐新分流为工艺台灯和书写台灯两类。前者追求外观效果,将发展思路放在材质的创新、造型的求异上,以配合风格多样的家居…

新品|CASAIM-IS(2ND)自动化智能检测系统正式上市,打造更高效、更智能、更安全新体验!

全新第二代中科广电CASAIM-IS自动化智能检测系统正式上市,集合CASAIM最新的“智能控制、智能成像、智能检测”三智技术,为中小型精密复杂工件测量及检测提供一站式高效全自动化智能检测解决方案