ChatGPT 控制机器人的基本框架

       

        过去的一年,OpenAI的chatGPT将自然语言的大型语言模型(LLM)推向了公众的视野,人工智能AI如一夜春风吹遍了巴黎,全世界都为AI而疯狂。

      OpenAI ChatGPT是一个使用人类反馈进行微调的预训练生成文本模型。不像以前的模型主要在单个提示符上操作,ChatGPT通过对话提供了特别令人印象深刻的交互技能,结合了文本生成和代码合成。这些模型正在广泛的应用中发生革命性的变化。这些模型在文本生成、机器翻译和代码合成等各种任务中取得了显著的成果。进而迅速发展到文生图,文生视频的阶段,几个月前,SORA的出现更使人们惊呼人工智能时代已经到了。

  到目前为止,chatGPT输出的文本对于人类而言,已经近乎于完美,而生成的图片和视频不乏惊艳之作。但是生产的文本依然会出现文不对题的现象,而且每次输出的文本存在区别。而图片和视频还略显幼稚。有待进一步地提升。

    基于大语言模型的各种生成系统的不确定性和错误的风险,给人们一个感觉,将LLM 应用于物理设备的控制目前仍然是不现实的。LLM 在工业领域的应用仅限于知识库,图像识别的少数领域。

     本文介绍国外论文中的一些内容,探讨ChatGPT的能力是否以及如何推广到机器人领域。如果控制物理的机器人成为可能,那么将chatGPT技术延伸到物理世界就只是时间问题了。

基本思路

        机器人系统与纯文本应用程序不同,需要对现实世界的物理、环境背景以及执行物理动作的能力有深刻的理解。生成式机器人模型需要具有强大的常识性知识和复杂的世界模型,以及与用户交互的能力,以物理上可能且在现实世界中有意义的方式解释和执行命令。这些挑战超出了语言模型的原始范围,因为它们不仅必须理解给定文本的含义,还必须将意图转化为物理动作的逻辑序列。

        鉴于机器人技术是一个多种多样的领域,存在多种平台、场景和工具,因此存在各种各样的库和api。我们没有要求LLM输出特定于平台或库的代码,这可能涉及大量的微调,而是为ChatGPT创建一个简单的高级函数库来处理,然后可以在后端链接到所选择平台的实际api。因此,我们允许ChatGPT从自然对话中解析用户意图,并将其转换为高级函数调用的逻辑链。

        从上图可见,机器人的控制依然保留了现有工程控制的方式,使用API和程序库来控制机器人的动作,这里将会使用各种数字化模型,例如OPCUA ,工业4.0 管理壳等。物理设备仍然基于已有的数学模型,物理原理和机电控制算法来控制,我们并没有打算让chatGPT 来代替传统的工程设计,而是为chatGPT构建一个连接物理世界的接口。

机器人与ChatGPT

        推动机器人控制的LLM提出了几个挑战,例如提供对问题的完整而准确的描述,识别允许的函数调用和api的正确集合,以及使用特殊参数使答案结构有偏差。为了在机器人应用程序中有效地使用ChatGPT,我们构建了一个由以下步骤组成的管线:

  1. 定义一个高级机器人函数库。此库可以特定于感兴趣的形式因素或场景,并且应该映射到机器人平台上的实际实现,同时具有足够的描述性以供ChatGPT遵循;
  2. ChatGPT构建一个提示符( prompt),它描述了目标,同时还标识了库中允许的高级函数集。提示符还可以包含有关约束的信息,或者ChatGPT应该如何构建其响应;
  3. 用户在循环中评估ChatGPT输出的代码,通过直接分析或模拟,并向ChatGPT提供关于输出代码质量和安全性的反馈;
  4. 在对chatgpt生成的实现进行迭代之后,可以将最终代码部署到机器人上。

      通过这项工作,人们希望为融合LLM和机器人技术的未来研究开辟新的机会和途径。我们相信,我们的研究结果将启发和指导这个令人兴奋的领域的进一步研究,为开发新的、创新的机器人系统铺平道路,这些系统可以以自然、直观的方式与人类互动。

机器人API库的构建和描述

        机器人技术是一个成熟的领域,已经存在大量的库,无论是黑盒还是开源,都可以用于感知和动作领域的基本功能(例如对象检测和分割,映射,运动规划,控制,抓取)。如果在提示符中适当指定,LLM能够使用这些预定义的功能进行机器人推理和执行。

        提示符设计的一个重要要求是,所有API名称必须描述整个函数行为。明确的名称对于LLM推断api之间的功能连接并为问题产生所需的结果至关重要。因此,我们可以定义高级函数,它们作为来自各自库的实际实现的包装器。例如,一个名为detect_object(object_name)的函数可以在内部链接到一个OpenCV函数或一个计算机视觉模型,而像move_to(x, y, z)这样的函数可以在内部调用一个运动规划和避障管道,以及用于无人机的适当的低级电机命令。在提示符中列出这样一组高级函数是允许ChatGPT创建行为原语的逻辑序列,以及推广到不同场景和平台的关键。

提示符中清晰地描述任务细节

        通过提供对所需机器人任务及其上下文的清晰而简洁的描述,ChatGPT可以生成更准确的响应。除了机器人的api,一个好的上下文描述应该包含:

  • 约束和需求:指定与任务相关的约束或需求。如果任务涉及移动物体,你可以指定要移动的物体的重量、大小和形状。
  • 环境:描述机器人任务发生的环境。例如,如果任务是在迷宫中穿行,你可能会描述迷宫的大小和形状,以及需要避开的障碍物或危险。
  • 当前状态:描述机器人系统的当前状态。例如,如果任务是捡起一个物体,你可能会描述机器人和物体的当前位置和方向。
  • 目标和目的:陈述任务的目标和目的。如果任务是组装一个拼图,你可以指定需要组装的碎片的数量和期望的完成时间。
    •  解决方案示例:演示如何解决类似的任务,作为指导LLM案策略的一种手段。例如,如果一个任务涉及到与用户的交互,我们可以描述一个例子,说明机器人应该如何以及何时要求用户输入。注意,启动也会引入偏差,所以我们应该提供多样化的例子,避免过度规定性的语言。  
    • 任务描述

    • 完成提示工程之后,就可以向chatGPT 提出任务了,下面是一个例子

        为机器人问题定义不同api时的良好提示实践示例。明确机器人可以执行的函数定义,明确说明任务目标 。

                即使是设计良好的提示也可能不包含解决问题所需的所有必要信息,或者在某些情况下,ChatGPT无法以零概率的方式生成正确的响应。在这些情况下,我们发现用户可以采取的一个简单而有效的策略是,以聊天格式向ChatGPT发送描述问题的附加指令,并让它自行纠正。以前依赖于GPT-3模型的方法。要求用户重新设计输入提示符并从头生成新的输出。然而,ChatGPT的对话功能是一种非常有效的行为纠正工具。

仿真的重要性

        虽然ChatGPT的功能令人印象深刻,但不应忽视实际部署的安全考虑,特别是在物理机器人部署的情况下。 我们发现在ChatGPT产生意外行为的情况下,有必要让一个人在循环中进行监视和干预。此外,在将模型部署到现实世界之前,使用模拟器对评估模型的性能特别有帮助。我们强调,ChatGPT在机器人中的应用并不是一个完全自动化的过程,而是作为一种增强人类能力的工具。

结束语

        当chatGPT后,人们最沮丧的事情也许是突然发现过去的艰辛努力获得的经验,技术突然之间被AI白嫖了,而且自己在未来的角色也显得不重要了。这就是AI代替和超越人类的终结目标。现在看来并非如此。让AI 直接从头学习和理解物理世界是不现实的。将AI作为思考,推演和交互工具,与传统的物理系统作为观测与执行机构相结合是可行之路。今天,我们在解决IT/OT 融合,在不远的将来,我们将面临AI/OT的融合。

  •     AI/OT的融合是一个有趣的话题,也是可以马上开始的探索之路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/525957.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024 年中国高校大数据挑战赛赛题 D:行业职业技术培训能力评价完整思路以及源代码分享

中国是制造业大国,产业门类齐全,每年需要培养大量的技能娴 熟的技术工人进入工厂。某行业在全国有多所不同类型(如国家级、 省级等)的职业技术培训学校,进行 5 种技能培训。学员入校时需要 进行统一的技能考核&#xf…

Pb量级超大容量光存储

近日,中国科学院上海光学精密机械研究所(以下简称“上海光机所”)与上海理工大学等科研单位合作,在超大容量三维超分辨光存储研究中取得突破性进展。研究团队利用国际首创的双光束调控聚集诱导发光超分辨光存储技术,实…

unity学习(53)——选择角色界面--分配服务器返回的信息

好久没写客户端了,一上手还不太适应 1.经过测试,成功登陆后,客户端请求list_request,成功返回,如下图: 可见此时model第三个位置的参数是1.也成功返回了所有已注册角色的信息。 2.之前已知创建的角色信息…

CentOS Linux - Primavera P6EPPM安装部署

引言 根据计划,近期我制作了多套基于ORACLE Primavera P6 最新发布的23.12版本预构建了虚拟机环境,里面包含了全套P6 最新版应用服务 此虚拟机仅用于演示、培训和测试目的。如您在生产环境中使用此虚拟机,请先与Oracle Primavera销售代表取得…

【Linux】第四十一站:线程控制

一、Linux线程VS进程 1.进程和线程 进程是资源分配的基本单位线程是调度的基本单位线程共享进程数据,但也拥有自己的一部分数据:线程ID一组寄存器(上下文)栈errno信号屏蔽字调度优先级 2.进程的多个线程共享 同一地址空间,因此Text Segment、…

vue 在什么情况下在数据发生改变的时候不会触发视图更新

在 Vue 中,通常数据发生变化时,视图会自动更新。但是,有几种情况可能导致数据变化不会触发视图更新: 1.对象属性的添加或删除: Vue 无法检测到对象属性的添加或删除。因为 Vue 在初始化实例时对属性执行了 getter/se…

怎么查看电脑是不是固态硬盘?简单几个步骤判断

随着科技的发展,固态硬盘(Solid State Drive,简称SSD)已成为现代电脑的标配。相较于传统的机械硬盘,固态硬盘在读写速度、稳定性和耐用性等方面都有显著优势。但是,对于不熟悉电脑硬件的用户来说&#xff0…

三步实现支付宝支付【go语言 支付宝沙箱】

支付宝沙箱支付使用背景: 支付宝沙箱支付是支付宝提供的一个测试环境,用于开发者在不影响真实交易的情况下进行支付接口的开发和调试。在沙箱环境中,开发者可以模拟真实的支付流程,包括支付、退款、查询等操作,以便更…

Spring Boot 自动装配的原理!!!

SpringBootApplication SpringBootConfiguration:标识启动类是一个IOC容器的配置类 EnableAutoConfiguration: AutoConfigurationPackage:扫描启动类所在包及子包中所有的组件,生…

【深度学习笔记】6_9 深度循环神经网络deep-rnn

注:本文为《动手学深度学习》开源内容,部分标注了个人理解,仅为个人学习记录,无抄袭搬运意图 6.9 深度循环神经网络 本章到目前为止介绍的循环神经网络只有一个单向的隐藏层,在深度学习应用里,我们通常会用…

【Java网络编程】TCP核心特性(下)

1. 拥塞控制 拥塞控制:是基于滑动窗口机制下的一大特性,与流量控制类似都是用来限制发送方的传送速率的 区别就在于:"流量控制"是从接收方的角度出发,根据接收方剩余接收缓冲区大小来动态调整发送窗口的;而…

实验一:华为VRP系统的基本操作

1.1实验介绍 1.1.1关于本实验 本实验通过配置华为设备,了解并熟悉华为VRP系统的基本操作 1.1.2实验目的 理解命令行视图的含义以及进入离开命令行视图的方法 掌握一些常见的命令 掌握命令行在线帮助的方法 掌握如何撤销命令 掌握如何使用命令快捷键 1.1.3实验组网 …