2023年03月09日_谷歌视觉语言模型PaLM-E的介绍

自从最近微软凭借OpenAI

和ChatGPT火了一把之后呢

老对手Google就总想着扳回一局

之前发布了硬刚ChatGPT的Bard

但是没想到翻车了

弄巧成拙


所以呢Google这一周又发了个大招

发布了史上最大的视觉语言模型PaLM-E

这个模型有多夸张呢

参数量高达5,620亿

ChatGTP-3的三倍

这个模型结合了5,400亿参数的PaML模型

以及220亿参数的ViT模型


不仅可以理解图像

还能理解和生成语言

执行各种复杂的机器人指令

而且重点是无需重新训练


PaLM-E可以直接分析

来自机器人摄像头的数据

无需对场景进行预处理

而且实验结果证明

模型的正迁移能力也相当强大


接下来我们看几个PaLM-E的demo视频

相信你一定会有通用AI

很快就要到来的感觉


第一个demo

基于机器人摄像头的视觉反馈

任务是从抽屉里把薯片拿给我

注意这个过程中还加入了对抗性干扰

即便实验人员多次移动薯片

机器人仍然能够重新抓取

而且最后还把抽屉给合上了

并且把薯片交给实验人员

注意这个视频是4倍速播放的

所以实际的速度应该并不快


第二个demo

让机器人把绿色的星星拿过来

这个绿色的星星

机器人之前没有直接接触过的物体


第三个demo

让机器人按照不同的颜色

将积木块放到不同的

角落


可以看到

机器人可以很好的规划

和执行长期任务

并且详细分解说明了

机器人的每个步骤是如何规划的


这个demo是让机器人将剩余的积木块

移到已有的积木组中

PaLM-E会将它分解成多个低级的策略

比如将黄色六边形移动到绿色心形旁

把蓝色三角形移动到积木组中

而下一个demo

是让机器人

将海洋色的积木块放到一起

可以看到

机器人也可以准确识别出

蓝色的积木块


最后

实验人员还演示了两个泛化的示例

一个是将红色积木块推到咖啡杯中

这个数据集

只包含了3个带有咖啡杯的演示数据

并且没有一个含有红色的积木块


另一个示例

是让机器人将绿色的积木块推给乌龟

即使机器人以前从来没有见过乌龟

它也能够成功的执行任务


零样本推理方面

PaLM-E可以在给定图像的情况下

讲一个笑话

并展示了包括感知

基于视觉的对话规划在内的能力

对于多张图的关系

PaLM-E也整的很明白

比如图1中的哪个物品在图2中没有


PaLM-E还可以

在给定带有手写数字的图像后

执行数学运算

比如对于这张餐馆手写的菜单

PaLM-E可以直接算出

两张披萨需要多少钱


谷歌的研究人员计划未来将探索PaLM-E

在现实世界中的更多应用

例如家庭自动化或者工业机器人

也希望PaLM-E

能够激发更多关于多模态AI的应用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/310353.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(学习打卡1)重学Java设计模式之设计模式介绍

前言:听说有本很牛的关于Java设计模式的书——重学Java设计模式,然后买了(*^▽^*) 开始跟着小傅哥学Java设计模式吧,本文主要记录笔者的学习笔记和心得。 打卡!打卡! 设计模式介绍 一、设计模式是什么? …

Springer build pdf乱码

在textstudio中编辑时没有错误,在editor manager生成pdf时报错。 首先不要改源文件,着重看你的上传顺序: 将.tex文件,.bst文件,.cls文件,.bib文件, .bbl文件的类型,在editor manager中是Item。…

微服务实战系列之Dubbo(下)

前言 眼看着2023即将走远,心里想着似乎还有啥,需要再跟各位盆友叨叨。这不说曹操,曹操就来了。趁着上一篇Dubbo博文的余温尚在,博主兴匆匆地“赶制”了Dubbo的下集,以飨读者。 上一篇博主依然从Dubbo的内核出发&#…

C++:stack、queue、priority_queue增删查改模拟实现、deque底层原理

C:stack、queue、priority_queue增删查改模拟实现 前言一、Cstack的介绍和使用1.1 引言1.2 satck模拟实现 二、Cqueue的介绍和使用2.1 引言2.2 queue增删查改模拟实现 三、STL标准库中stack和queue的底层结构:deque3.1 deque的简单介绍(了解)3.2 deque的缺陷3.3 为什么选择dequ…

项目中使用Java中List.subList()的注意事项

使用介绍 在Java中&#xff0c;subList是List接口的一个方法&#xff0c;用于获取原始列表的子列表 方法的声明如下 List<E> subList(int fromIndex, int toIndex);fromIndex&#xff1a;起始索引&#xff08;包括&#xff09;toIndex&#xff1a;结束索引&#xff08…

【数据结构】八、查找

一、基本概念 静态查找&#xff1a;只查找&#xff0c;不改变集合内数据元素 动态查找&#xff1a;有则输出元素&#xff0c;无则添加元素 二、静态查找表 2.1顺序查找 在线性表、链表、树中依次查找 2.2折半查找&#xff08;二分查找&#xff09; 在有序的线性表中&…

模式识别与机器学习-集成学习

集成学习 集成学习思想过拟合与欠拟合判断方法 K折交叉验证BootstrapBagging随机森林的特点和工作原理&#xff1a; BoostingAdaBoost工作原理&#xff1a;AdaBoost的特点和优点&#xff1a;AdaBoost的缺点&#xff1a; Gradient Boosting工作原理&#xff1a;Gradient Boostin…

【已解决】 ubuntu apt-get update连不上dl.google.com

在终端使用apt-get update时&#xff0c;连接dl.google.com超时&#xff0c;一直卡在0%&#xff0c;原因是当前ip无法ping到google&#xff08;墙&#xff09;。 解决方法&#xff1a; dl.google.com国内可用IP 选一个&#xff0c;然后按以下命令操作&#xff1a; cd ~ vim …

通信原理课设(gec6818) 007:语音识别

目录 1、去科大讯飞官网下载对应的sdk 2、科大讯飞文件夹的意思 3、配置ARM的录音环境 4、编程实现语音识别 我们的需求是将一个语音文件从客户端传到服务器&#xff0c;因此我们最好是选用tcp 现在市面上面常用的语音识别解决方案为&#xff1a;科大讯飞c和百度c 离…

【BERT】深入BERT模型2——模型中的重点内容,两个任务

前言 BERT出自论文&#xff1a;《BERT&#xff1a;Pre-training of Deep Bidirectional Transformers for Language Understanding》 2019年 近年来&#xff0c;在自然语言处理领域&#xff0c;BERT模型受到了极为广泛的关注&#xff0c;很多模型中都用到了BERT-base或者是BE…

数据库中的锁

锁 锁冲突是针对事务的&#xff0c;另一个事务能不能申请上锁&#xff0c;是和其他事务竞争。 一个事务内部可以加很多锁&#xff0c;互相并不会冲突。 级联回滚调度 多个事务有依赖关系&#xff0c;如果一个事务回滚&#xff0c;那么所有事务也需要回滚。 冲突的数据加锁安…

计算机毕业设计------SSM游戏点评网站

项目介绍 本项目分为前后台&#xff0c;前台为普通用户登录&#xff0c;后台为管理员登录&#xff1b; 管理员角色包含以下功能&#xff1a; 管理员登录,管理员管理,网站用户管理,游戏资讯管理,游戏类型管理,城市信息管理,竞技场管理,游戏信息管理,游戏评价信息管理等功能。…