OK-Robot机器人实现零样本算法 可在非结构化环境下完成拾取与放置任务

纽约大学的机器人专家团队与Meta人工智能学院研发人员共同合作开发了一种新型机器人,该机器人具备在非结构化环境下的认知能力,可在陌生房间利用视觉语言模型(VLMs),进行物品的抓取与放置。在论文当中,该团队详细阐述了机器人的编程过程以及其在多个实际环境中的测试表现。

研究人员指出,视觉语言模型(VLMs)在过去几年中取得了很快的进步,在根据语言提示识别物体方面已经非常出色。此外团队成员也提到目前机器人夹具控制技术也在进步,机器人可以轻松的将物体拾起,即便是易碎或柔软材料,也不会将其弄坏。但基于VLMs与机器人结合的相关应用依旧处于待探索阶段。

在这里插入图片描述

该项研究当中,科学家们尝试运用Hello Robot公司所售的一款机器人来完成这一测试。该机器人具备轮子、杆子以及可伸缩手臂,手部设有夹具。研究团队为其配备了先前经过训练的视觉语言模型(VLMs),并将其命名为OK-Robot。
在这里插入图片描述

在这里插入图片描述

在实际落地测试方面,研究团队将OK-Robot分别带入10 个志愿者家中,用iPhone对室内场景进行扫描,使用LangSam和CLIP进行计算,并存储在语义内存中。之后给定一个必须选择的对象的语言查询,查询的语言表示与语义记忆相匹配。随后,导航和拾取基元将按顺序分步执行,移动到所需夹取的物品前进行拾取,之后在需要放置的位置,将物品放置。实际测试过程当中,OK-Robot顺利将架子上粉色的瓶子放置在垃圾桶当中。
在这里插入图片描述

OK-Robot共执行了多达170项抓取与放置测试,任务成功率为58%。然而这种成功率很大一部分受环境因素影响,比如物品太大,物品呈现半透明状态,以及物品太滑难以夹取等方面,研究团队重新整理空间之后,成功率提升至82%。

在这里插入图片描述

研究团队指出,OK-Robot所搭载的系统是零样本算法,这意味着OK-Robot没有在工作环境中接受过训练,因此所取得这样的成绩,证明搭载VLMs功能的机器人是可行的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/467962.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用word2vec+tensorflow自然语言处理NLP

目录 介绍: 搭建上下文或预测目标词来学习词向量 建模1: 建模2: 预测: 介绍: Word2Vec是一种用于将文本转换为向量表示的技术。它是由谷歌团队于2013年提出的一种神经网络模型。Word2Vec可以将单词表示为高维空间…

片上网络NoC(4)——直连拓扑

目录 一、前言 二、直连拓扑 三、总结 一、前言 本文中,我们将继续介绍片上网络中拓扑相关的内容,主要介绍直连拓扑,在此之前,我们已经介绍过了拓扑的指标,这将是继续阅读本文的基础,还没有了解相关内容…

OCP的operator——(1)概述

文章目录 概述了解Operator什么是Operator为何使用OperatorOperator FrameworkOperator成熟度模型 Operator Framework 打包格式Bundle格式Manifest注解依赖关于opm CLI 基于文件的目录RukPak Operator Framework常用术语表常见Operator Framework术语BundleBundle imageCatalo…

《Java 简易速速上手小册》第8章:Java 性能优化(2024 最新版)

文章目录 8.1 性能评估工具 - 你的性能探测仪8.1.1 基础知识8.1.2 重点案例:使用 VisualVM 监控应用性能8.1.3 拓展案例 1:使用 JProfiler 分析内存泄漏8.1.4 拓展案例 2:使用 Gatling 进行 Web 应用压力测试 8.2 JVM 调优 - 魔法引擎的调校8…

MQTT的学习与应用

文章目录 一、什么是MQTT二、MQTT协议特点三、MQTT应用领域四、安装Mosquitto五、如何学习 MQTT 一、什么是MQTT MQTT(Message Queuing Telemetry Transport)是一种轻量级的消息传输协议,设计用于在低带宽、不稳定的网络环境中进行高效的通信…

MYSQL学习笔记:MYSQL存储引擎

MYSQL学习笔记:MYSQL存储引擎 MYSQL是插件式的存储引擎 存储引擎影响数据的存储方式 存储引擎是用来干什么的,innodb和myisam的主要区别–数据存储方式----索引 mysql> show engines; ----------------------------------------------------------…

宠物空气净化器适合养猫家庭吗?除猫毛好的猫用空气净化器推荐

宠物掉毛是一个普遍存在的问题,尤其在脱毛季节,毛发似乎无处不在。这给家中的小孩和老人带来了很多麻烦,他们容易流鼻涕、过敏等不适。此外,宠物有时还会不规矩地拉扯和撒尿,这股气味实在是难以忍受。家人们对宠物的存…

耳机壳UV树脂制作私模定制耳塞需要哪些工具和材料呢?

制作私模定制耳塞需要使用到一些工具和材料,包括但不限于以下内容: UV树脂:用于制作耳塞的主体部分,具有高硬度、耐磨、耐高温、环保等优点。耳模材料:用于获取用户的耳型,通常是一些快速固化的材料&#…

编码、理解和实现LLM中的自注意力、多头注意力、交叉注意力和因果注意力

原文链接:understanding-and-coding-self-attention 2024年1月14日 自注意力是 LLM 的一大核心组件。对大模型及相关应用开发者来说,理解自注意力非常重要。近日,Ahead of AI 杂志运营者、机器学习和 AI 研究者 Sebastian Raschka 发布了一篇…

【小赛1】蓝桥杯双周赛第5场(小白)思路回顾

我的成绩:小白(5/6) 完稿时间:2024-2-13 比赛地址:https://www.lanqiao.cn/oj-contest/newbie-5/ 相关资料: 1、出题人题解:“蓝桥杯双周赛第5次强者挑战赛/小白入门赛”出题人题解 - 知乎 (zhihu.com) 2、矩阵快速幂&…

vue三种路由守卫详解

在 Vue 中,可以通过路由守卫来实现路由鉴权。Vue 提供了三种路由守卫:全局前置守卫、全局解析守卫和组件内的守卫。 全局前置守卫 通过 router.beforeEach() 方法实现,可以在路由跳转之前进行权限判断。在这个守卫中,可以根据用…

Decian 12.x基于LNMP安装phpIPAM(IP管理系统)

phpipam是一个开源Web IP地址管理应用程序(IPAM)。其目标是提供轻便,且有用的IP地址管理系统。它是基于PHP的应用程序,具有MySQL数据库后端,使用jQuery库,ajax和HTML5 / CSS3功能。 在Debian 12中&…