LLM(五)| Gemini:谷歌发布碾压GPT-4最强原生多模态,语言理解能力首次超过人类

图片

      2023年12月6日,Google重磅发布了原生多模态大模型Gemini,碾压GPT-4,语言理解能力首次超过人类。

一、Gemini介绍

      以下内容来自谷歌DeepMind首席执行官兼联合创始人Demis Hassabis代表Gemini团队:

       人工智能一直是我一生工作的重点,就像我的许多研究同事一样。从十几岁时为电脑游戏编程人工智能开始,在我作为神经科学研究人员试图了解大脑工作的这些年里,我一直相信,如果我们能制造出更智能的机器,我们就能利用它们以不可思议的方式造福人类。

      这个由人工智能负责任地赋予世界权力的承诺继续推动着我们在谷歌DeepMind的工作。很长一段时间以来,我们一直想建立新一代的人工智能模型,灵感来自人们理解世界和与世界互动的方式。人工智能感觉不像是一个智能软件,更像是一个有用和直观的东西:一个专家助手或助手。

      今天,我们向这一愿景又迈进了一步,我们将介绍Gemini(https://deepmind.google/technologies/gemini),这是我们有史以来建立的最有能力、最通用的模型。

       Gemini是谷歌团队大规模合作的结果,包括我们在谷歌研究的同事。它是从头开始构建的多模态,这意味着它可以概括和无缝理解、跨不同类型的信息进行操作和组合,包括文本、代码、音频、图像和视频。

       Gemini也是我们迄今为止最灵活的模型——能够在从数据中心到移动设备的所有设备上高效运行。其最先进的能力将显著增强开发人员和企业客户利用人工智能构建和扩展的方式。

我们针对三种不同的尺寸优化了Gemini 1.0,即我们的第一个版本:

Gemini Ultra——是谷歌迄今为止创建的最强大LLM最大,能够完成高度复杂的任务,主要面向数据中心和企业级应用。

Gemini Pro--是性能最好的模型,用于广泛的任务。它会为许多谷歌的AI服务提供动力,并且从今天起,成为Bard的支柱。

Gemini Nano——是最高效的模型,用于设备端任务,可以在安卓设备上本地和离线运行,Pixel 8 Pro的用户就能马上体验到。其中,Nano-1的参数为1.8B,Nano-2为3.25B。

图片

二、SOTA性能

      我们一直在严格测试我们的Gemini模型,并评估它们在各种任务中的性能。从自然图像、音频和视频理解到数学推理,Gemini Ultra在大型语言模型(LLM)研究和开发中广泛使用的32个学术基准中的30个方面的性能超过了当前最先进的结果。

       Gemini Ultra的得分为90.0%,是第一个在MMLU(大规模多任务语言理解)方面优于人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理等57门科目来测试世界知识和解决问题的能力。

图片

      我们对MMLU的新基准方法使Gemini能够在回答难题之前使用其推理能力进行更仔细的思考,从而比仅仅使用其第一印象有了显著的改进。

图片

      Gemini Ultra在新的MMMU(https://arxiv.org/abs/2311.16502)基准测试中也获得了59.4%的最先进分数,该基准测试由跨越不同领域的多模式任务组成,需要深思熟虑的推理。

       通过我们测试的图像基准,Gemini Ultra的性能优于以前的最先进的模型,而无需物体字符识别(OCR)系统的帮助,该系统可以从图像中提取文本进行进一步处理。这些基准突出了Gemini天生的多模态,并表明了Gemini更复杂推理能力的早期迹象。

PS:更多详细信息,请参阅我们的Gemini技术报告(https://goo.gle/GeminiPaper)

图片

三、下一代功能

      到目前为止,创建多模态模型的标准方法包括为不同的模式训练单独的组件,然后将它们缝合在一起,大致模拟其中的一些功能。这些模型有时擅长执行某些任务,如描述图像,但难以进行更概念化和复杂的推理。

       我们将Gemini设计成天生的多模态,从一开始就对不同的模态进行预训练。然后,我们用额外的多模态数据对其进行了微调,以进一步提高其有效性。这有助于Gemini从一开始就无缝地理解和推理各种输入,远远好于现有的多模态模型,而且它的能力几乎在每个领域都是最先进的。

PS:想了解更多信息,请查阅:https://deepmind.google/technologies/gemini

四、复杂的推理

      Gemini 1.0复杂的多模态推理能力可以帮助理解复杂的书面和视觉信息。这使得它在揭示大量数据中难以辨别的知识方面具有独特的技能。

       它通过阅读、过滤和理解信息从数十万份文件中提取见解的非凡能力,将有助于在从科学到金融的许多领域以数字速度实现新的突破。

图片

五、理解文本、图像、音频等

       Gemini 1.0经过训练,能够同时识别和理解文本、图像、音频等,因此它能够更好地理解细微的信息,并能够回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂科目的推理。

图片

六、高级编码

      我们的第一个Gemini版本可以用世界上最流行的编程语言,如Python、Java、C++和Go,理解、解释和生成高质量的代码。它能够跨语言工作,并对复杂信息进行推理,这使它成为世界上领先的编码基础模型之一。

      Gemini Ultra在几个编码基准方面表现出色,包括用于评估编码任务性能的重要行业标准HumanEval(https://arxiv.org/abs/2107.03374),以及我们的内部数据集Natural2Code,该数据集使用作者生成的源代码,而不是基于网络的信息。

      Gemini还可以用作更先进的编码系统的引擎。两年前,我们推出了AlphaCode(https://deepmind.google/discover/blog/competitive-programming-with-alphacode/),这是第一个在编程比赛中达到竞争水平的人工智能代码生成系统。

     使用Gemini的专业版本,我们创建了一个更先进的代码生成系统AlphaCode 2(https://goo.gle/AlphaCode2),它擅长解决竞争性编程问题,这些问题超越了编码,涉及复杂的数学和理论计算机科学。

       当在与原始AlphaCode相同的平台上进行评估时,AlphaCode 2显示出巨大的改进,解决的问题几乎是原来的两倍,我们估计它的表现优于85%的参赛者,高于AlphaCode的近50%。当程序员通过定义要遵循的代码示例的某些属性来与AlphaCode2合作时,它的性能会更好。

图片

       我们很高兴程序员能够越来越多地使用功能强大的人工智能模型作为协作工具,帮助他们思考问题,提出代码设计并协助实现——这样他们就可以更快地发布应用程序并设计更好的服务。

PS:关于AlphaCode 2的更多详细信息,请参考技术报告(https://goo.gle/AlphaCode2)

七、更可靠、更可扩展、更高效

       我们使用谷歌内部设计的Tensor处理单元(TPU)v4和v5e,在人工智能优化的基础设施上大规模训练Gemini 1.0。我们将其设计为我们最可靠、最可扩展的训练模式,也是我们最高效的服务模式。

       在TPU上,Gemini的运行速度明显快于早期、更小、功能较差的型号。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心,这些产品为数十亿用户提供服务,如搜索、YouTube、Gmail、谷歌地图、谷歌播放和安卓。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。

      今天,我们宣布了迄今为止最强大、最高效、最可扩展的TPU系统Cloud TPU v5p,专为训练尖端人工智能模型而设计。下一代TPU将加速Gemini的开发,帮助开发人员和企业客户更快地训练大规模生成人工智能模型,使新产品和功能更快地到达客户手中。

图片

八、以责任和安全为核心

       在谷歌,我们致力于在我们所做的一切中推进大胆而负责任的人工智能。在谷歌的人工智能原则(https://ai.google/responsibility/principles/)和我们产品的稳健安全政策的基础上,我们正在为Gemini的多模态能力添加新的保护措施。在开发的每个阶段,我们都在考虑潜在的风险,并努力测试和缓解这些风险。

       Gemini拥有迄今为止谷歌人工智能模型中最全面的安全性评估,包括偏见和毒性。我们对网络攻击、说服和自主等潜在风险领域进行了新的研究(https://deepmind.google/discover/blog/an-early-warning-system-for-novel-ai-risks/),并应用了谷歌研究公司同类最佳的对抗性测试技术(https://blog.research.google/2023/11/responsible-ai-at-google-research_16.html),以帮助在部署Gemini之前识别关键的安全问题。

       为了找出我们内部评估方法中的盲点,我们正在与一组不同的外部专家和合作伙伴合作,在一系列问题上对我们的模型进行压力测试。

       为了诊断Gemini训练阶段的内容安全问题,并确保其输出符合我们的政策,我们正在使用基准,如真实毒性提示(https://allenai.org/data/real-toxicity-prompts),这是一组由艾伦人工智能研究所的专家从网络上提取的具有不同程度毒性的100000个提示。有关这项工作的更多细节即将公布。

       例如,为了限制伤害,我们建立了专门的安全分类器来识别、标记和分类涉及暴力或负面刻板印象的内容。结合强大的过滤器,这种分层方法旨在使Gemini对每个人都更安全、更包容。此外,我们正在继续解决模型的已知挑战,如真实性、基础、归因和确证。

       责任和安全始终是我们模型开发和部署的核心。这是一项需要合作建设的长期承诺,因此我们正在与行业和更广泛的生态系统合作,通过MLCommons(https://mlcommons.org/)、前沿模型论坛(https://blog.google/outreach-initiatives/public-policy/google-microsoft-openai-anthropic-frontier-model-forum/)及其人工智能安全基金(https://blog.google/outreach-initiatives/public-policy/google-microsoft-anthropic-open-ai-frontier-model-forum-executive-director/)和我们的安全人工智能框架(SAIF)(https://blog.google/technology/safety-security/introducing-googles-secure-ai-framework/)等组织来定义最佳实践并设定安全和安保基准,旨在帮助减轻公共和私营部门人工智能系统特有的安全风险。在开发Gemini的过程中,我们将继续与世界各地的研究人员、政府和民间社会团体合作。

九、让Gemini走向世界

Gemini 1.0目前正在一系列产品和平台上推出:

谷歌产品中的Gemini Pro

我们通过谷歌产品将Gemini带给数十亿人。

      从今天开始,Bard将使用经过微调的Gemini Pro版本(https://blog.google/products/bard/google-bard-try-gemini-ai)进行更高级的推理、规划、理解等。这是Bard推出以来最大的一次升级。它将在170多个国家和地区提供英文版本,我们计划在不久的将来扩展到不同的模式,并支持新的语言和地点。

       我们还将Gemini带到Pixel(https://blog.google/products/pixel/pixel-feature-drop-december-2023/)。Pixel 8 Pro是第一款运行Gemini Nano的智能手机,它正在为记录器应用程序中的汇总等新功能提供动力,并从WhatsApp开始在Gboard中的智能回复中推出,明年还会推出更多的消息应用程序。

      在接下来的几个月里,Gemini将出现在我们的更多产品和服务中,如搜索、广告、Chrome和Duet AI。

       我们已经开始在搜索中试用Gemini,它为用户提供了更快的搜索生成体验(SGE)(https://labs.google/sge/),在美国,英语延迟减少了40%,同时质量也有所提高。

十、与Gemini一起建造

      从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI(https://cloud.google.com/vertex-ai)中的Gemini API访问Gemini Pro。

       谷歌人工智能工作室是一个免费的基于网络的开发工具,可以使用API键快速原型和启动应用程序。当需要一个完全管理的人工智能平台时,Vertex AI允许定制Gemini,并提供完全的数据控制,并受益于谷歌云的额外功能,以实现企业安全、安全、隐私以及数据治理和合规。

       安卓开发者还可以通过AICore构建Gemini Nano,这是我们最高效的设备上任务模型,AICore是安卓14中的一种新系统功能,从Pixel 8 Pro设备开始。注册AICore的早期预览(https://android-developers.googleblog.com/2023/12/a-new-foundation-for-ai-on-android.html)。

十一、Gemini Ultra即将推出

       对于Gemini Ultra,我们目前正在完成广泛的信任和安全检查,包括由受信任的外部各方组成红队,并在广泛使用之前,使用微调和从人类反馈中强化学习(RLHF)来进一步完善模型。

       作为这一过程的一部分,我们将向选定的客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra,以便在明年初向开发人员和企业客户推出之前进行早期实验和反馈。

       明年初,我们还将推出Bard Advanced(https://blog.google/products/bard/google-bard-try-gemini-ai),这是一种新的尖端人工智能体验,让您可以使用我们最好的型号和功能,从Gemini Ultra开始。

十二、Gemini时代:创造创新的未来

       这是人工智能发展的一个重要里程碑,也是我们谷歌继续快速创新和负责任地提高模型能力的新时代的开始。

       到目前为止,我们在Gemini上取得了巨大进展,我们正在努力进一步扩展其未来版本的功能,包括计划和记忆方面的进步,并增加处理更多信息的上下文窗口,以提供更好的响应。

       我们对一个由人工智能负责任地赋予权力的世界的惊人可能性感到兴奋——一个创新的未来,它将增强创造力,扩展知识,推进科学,并改变世界各地数十亿人的生活和工作方式

参考文献:

[1] https://blog.google/technology/ai/google-gemini-ai/#sundar-note

[2] https://deepmind.google/technologies/gemini/#capabilities

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/256412.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

畅游分布式劳动力世界...

不断变化的软件开发环境继续为开发人员和雇用开发人员的企业带来新的机遇和挑战。无论是量子计算方面的突破、推动游戏行业增长的扩展现实开发,还是监管环境日益复杂的情况,DevOps 社区在来年都有很多事情要做。对于旨在确保未来盈利的企业来说&#xff…

边缘计算与人工智能的融合

随着物联网技术的迅猛发展,大量设备和传感器开始连接至互联网,产生了海量的数据。传统的云计算模式往往无法满足对数据实时性和隐私保护的需求,而边缘计算技术的兴起为解决这一难题提供了新的思路。边缘计算将数据处理和分析的功能下沉至数据…

从Centos-7升级到Centos-Stream-8

如果在正式环境升级,请做好数据备份以及重要配置备份!因为升级会造一部分应用被卸载。 注意:升级前请备份好数据,升级可能会导致ssh的root用户无法登陆、网卡名称发生改变、引导丢失无法开机等问题。 1.安装epel源 yum -y install…

架构师-2.数据权限

数据权限,实现指定用户可以操作指定范围的数据。例如说,针对员工信息的数据权限: 上述的这个示例,使用硬编码是可以实现的,并且也非常简单。但是,在业务快速迭代的过程中,类似这种数据需求会越来越多,如果全部采用硬编码的方式,无疑会给我们带来非常大的开发与维护成…

【Java数据结构 -- List和ArrayList与顺序表】

List和ArrayList与顺序表 一. List1.1 List介绍2.1 常见接口介绍3.1 List的使用 二. ArrayList与顺序表1.线性表2.顺序表2.1 接口的实现 3.ArrayList简介4. ArrayList使用4.1 ArrayList的构造 4.2 ArrayList常见操作4.3 ArrayList的遍历4.4 ArrayList的扩容机制5. ArrayList的具…

Http协议与Tomcat

HTTP协议 HTTP协议(HyperText Transfer Protocol)即超文本传输协议 ,是TCP/IC网络体系结构应用层的一个客户端-服务端协议,是所有客户端,服务端数据传输的基石(数据传输规则) 特点 ⭐基于TCP协…

验证码的多种生成策略

&#x1f60a; 作者&#xff1a; 瓶盖子io &#x1f496; 主页&#xff1a; 瓶盖子io-CSDN博客 第一种 a.导入依赖 <dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.10</ver…

冷却液泵现场案例:施耐德EOCR-FMZ2在冷却液泵设备上的使用

热水泵和冷却液泵是现代工业及建筑设施中不可或缺的部件。它们分别在热能传递和冷却系统中扮演着重要角色。本文将探讨施耐德EOCR-FMZ2在冷却液泵设备上的应用案例&#xff0c;展示其如何提高系统效率和安全性。 冷却液泵通常用于工业生产中&#xff0c;用来维持机械设备在适宜…

关于最长上升子序列的动态规划问题的优化算法(二分搜索)

最长递增子序列 暴力解法&#xff1a; 思路&#xff1a;使用动态规划的思想&#xff0c;判断当前元素之前的所有元素&#xff0c;如果比当前元素小&#xff0c;则修改当前元素的最长递增子序列&#xff08;需判断是否需要修改&#xff09;。 时间复杂度&#xff1a;O(n^2) im…

“分割“安卓用户,对标iOS,鸿蒙崛起~

近期关于**“华为于明年推出不兼容安卓的鸿蒙版本”**的消息传出&#xff0c;引起了业界的热议关注。自从2019年8月&#xff0c;美国制裁下&#xff0c;华为不再能够获得谷歌安卓操作系统相关付费服务&#xff0c;如此情况下&#xff0c;华为“备胎”鸿蒙操作系统一夜转正。 华…

虚拟化之指令的Trap和仿真

有时,虚拟机监控程序需要在虚拟机(VM)中模拟操作。例如,VM内的软件可能尝试配置与功耗管理或缓存一致性相关的低级处理器控件。通常,您不希望将VM直接访问这些控件,因为它们可能被用于突破隔离,或影响系统中的其他VM。 trap在执行给定操作(例如读取寄存器)时引发异常…

UEC++ 探索虚幻5笔记 day11

虚幻5.2.1探索 项目目录探索 C工程一定不能是中文路径&#xff0c;中文项目名&#xff0c;最好全部不要用中文&#xff0c;蓝图项目可以是中文浅浅创建一个空项目&#xff0c;讲解一下之前UE4没有讲解的项目目录文件的分布组成 .vs&#xff1a;文件夹一般是项目编译缓存文件夹…