新火种AI|GPT-4诞生1年,OpenAI把它放到了机器人上

作者:一号

编辑:美美

ChatGPT拥有了身体,机器人也有了灵魂。

从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力,到千行百业都在谈论AI,再到Sora引爆AI生成视频的市场。

资深机器人专家Eric Jang在不久之前还预言,“ChatGPT曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”

他或许没错,在一年后的今天,一家名为Figure的公司在X上上传了一段人形机器人的视频。

在视频中,Figure的人形机器人Figure 01,能够完全与人类流畅对话,理解人类的想法,同时根据理解进行抓取和放置的操作,并解释自己这么做的原因。而这只是OpenAI宣布和Figure共同合作推进人形机器人领域前沿的第十三天。

这段Demo迅速吸引了广大网友的眼球,有人感叹,AGI的曙光似乎就在眼前了。

没弄虚未作假,这些都是机器人自学的

视频发布之后,Figure AI的掌门人Brett Adock,在X上来了一番精彩解读。

视频中Figure展示了端到端神经网络(end-to-end neural networks)框架下与人类对话的应用。在此过程中没有任何远程操作。并且机器人的速度也有了显著的提升,开始接近人类的速度。

那具体是怎么做到的呢?

首先,Figure AI会将机器人摄像头拍摄到的图像和通过板载麦克风记录到的语言转录成文本输入到一个由OpenAI训练的大模型中,这是一个能够同时处理图像和文本信息的模型。

然后,这个模型会处理整个对话的历史记录,包括以往的图像,然后通过文本到语音的方式,生成语音进行响应,向人类回话。

这个模型还同时负责决定执行哪种已学习的闭环行为来响应给定的命令,它将特定的神经网络权重加载到GPU上,并执行相应的策略。

这样做之后,Figure 01就有了很多有趣的新功能。例如描述它周围的环境、在做决定的时候运用常识进行推理,并且会理解一些含糊的高级指令,例如当人类说“我饿了”的时候,它会将桌面上唯一的食物——苹果,递给人类,并用简单的英语说明它为什么这么做。

而关于Figure 01通过学习掌握的精细双手操作技能,这些所有的行为都是由神经网络的视觉-运动转换器策略驱动,能将像素直接映射到动作。这些网络以每秒10帧的速率接收机载图像,并以200hz的频率生成24-DOF动作,包括手腕姿势和手指关节角度。

简单来说,预训练模型会首先对图像和文本进行常识推理,然后给出动作计划;接着,机器人再基于已学习的视觉-动作执行策略,做出快速的反应行动。同时通过全身控制器确保动作的安全性和稳定性,保持机器人的平衡。

Figure,众人看好的具身智能公司

人工智能的后半场,以机器人为代表的具身智能将成为新的智能增长点。

英伟达CEO黄仁勋曾说,“具身智能将引领下一波人工智能浪潮”。这样的观点正在被越来越多的公司所赞同。当前,生成式AI的竞争已经从连续对话走向长文本以及多模态,各家科技公司和机构也开始投资具身智能。

而这家名为Figure的具身智能公司,除了被OpenAI看好,还拿到了多方的投资,成为了硅谷备受关注的新星。

公开资料显示,Figure成立于2022年,成立之初就瞄准了通用人形机器人领域。在3月1日,它宣布完成了惊人的6.75亿美元B轮融资,公司估值达到了26亿美元。而它的投资方,几乎占据了硅谷的半壁江山。除了OpenAI,微软、英特尔、英伟达、亚马逊创始人贝索斯以及“木头姐”等,都是它的投资方。

而在获得融资之后,Figure也没有让人失望。在今年1月,它们的产品Figure就通过端到端神经网络,仅用10小时就掌握了制作咖啡的技能。1个月后,它又展示了把箱子搬运到传送带的新技能,而现在,它又学会了理解人类的意图。

当然,在商业化的道路上,Figure也在积极探索。目前,Figure已经和宝马制造公司签订了商业协议,Figure 01已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试。

从ChatGPT到Figure 01,OpenAI想的依旧是AGI

尽管OpenAI在2021年夏天悄悄关闭了其机器人团队,但显然,OpenAI对于机器人领域的关注并未减少。

除了Figure,OpenAI在一年之前就投资了挪威一家名为1X Technologies的机器人制造商。与此同时,OpenAI还被彭博社爆料,说它投资了一家新成立的机器人AI公司Physical Intelligence,他们的创始团队分别来自谷歌研究团队、加州大学伯克利分校以及斯坦福大学教授等。而这家公司也是研究未来能够成为通用机器人系统的人工智能。

显然,将OpenAI大模型融入Figure 01是OpenAI有意的战略布局。

对于计算机视觉、机器人等领域来说,具身智能是一个很有挑战的目标:如果AI智能体(机器人)不仅能够接收来自数据集的静态图像,还能够在三维的世界中,无论是虚拟还是真实的,四处移动并与环境进行交互,那么我们将能迎来一次重大的突破,即从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。

而当机器人能够执行类人任务后,通过数据的迭代升级,将会越来越像人。而到了那个时候,也许AGI能够取得突破,这也是OpenAI一直以来的目标。

一年之前,OpenAI发布了GPT-4,向世界证明了大模型的威力,而在一年后的今天,Figure 01的表现,也许会是机器人领域的GPT-4时刻。不过,正与OpenAI争得不可开交的马斯克,他的Optimus也是机器人领域的佼佼者,这两者之间还会有什么样的故事,我们拭目以待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/538628.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣热题100_矩阵_73_矩阵置零

文章目录 题目链接解题思路解题代码 题目链接 73.矩阵置零 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出&…

SpringCloud微服务 黑马教程 自我总结笔记

来源出处: SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1LQ4y127n4/?spm_id_from333.337.search-card.all.click 一、认识微服务 微服…

BEV系列一:BEV介绍和常用BEV算法简介

BEV系列一:BEV介绍和常用BEV算法简介 自动驾驶最全学习资料获取:链接

学生时期学习资源同步-1 第一学期结业考试题6

原创作者:田超凡(程序员田宝宝) 版权所有,引用请注明原作者,严禁复制转载

高效Go编程: encoding/csv标准库深度解析

高效Go编程: encoding/csv标准库深度解析 引言了解encoding/csv库CSV文件的基本结构encoding/csv库的核心功能应用场景 读取CSV文件基本步骤代码示例处理不同的分隔符错误处理 处理CSV数据数据解析代码示例处理不规则数据代码示例 写入CSV文件基本步骤代码示例自定义设置错误处…

群发邮件软件哪个好?8款国际流行软件推荐与评测

无论是小型企业还是大型企业,都需要一个高效、稳定且功能全面的群发邮件软件来完成营销任务。市场上的群发邮件软件琳琅满目,如Zoho Campaigns、Constant Contact、Intuit Mailchimp、Moosend、MailerLite、Systeme.io、Instantly、Saleshandy等&#xf…

Java Web程序的部署

写在前:要想将我们写好的项目让其他人可以访问,仅仅完成代码是不能直接运行的。这就需要在Linux系统上搭建Java web程序的运行环境。这里以我所做的博客系统为例,进行搭建。 1. 准备依赖 (1)JVM(JDK&#…

react04- mvc 、 mvvm

MVC与MVVM stackoverflow论坛网站 react前端框架 使用框架前: 操作dom > js获取dom元素,事件侦听,修改数据,设置样式。。。 操作dom问题: 直接操作dom,会造成大量的回流、重绘,消耗大量性能操作起来也…

Nodejs 第五十四章(net)

net模块是Node.js的核心模块之一,它提供了用于创建基于网络的应用程序的API。net模块主要用于创建TCP服务器和TCP客户端,以及处理网络通信。 TCP(Transmission Control Protocol)是一种面向连接的、可靠的传输协议,用于…

计网《二》|物理层|信道极限容量|码分复用|曼彻斯特编码

计网《二》|物理层 物理层的基本概念数据通信的基础知识数据通信模型常用术语有关信道的几个基本概念调制基带调制带通调制 常用编码方式不归零制归零编码曼彻斯特编码差分曼彻斯特编码 基本调制方法 信道的极限容量限制码元在信道上的传播速率的两个因素信道能够通过的频率范围…

学习Java的第十天

本章来讲一下什么是字符串 一、什么是字符串 在Java中,最常见的基本类型就是字符串了,哪哪都能见到,如输入语句,输出语句等!那么,什么是字符串呢,字符串就是String类,String类是Ja…

市场复盘总结 20240314

仅用于记录当天的市场情况,用于统计交易策略的适用情况,以便程序回测 短线核心:不参与任何级别的调整,采用龙空龙模式 一支股票 10%的时候可以操作, 90%的时间适合空仓等待 二进三: 进级率中 25% 最常用的…