Science Robotics 封面论文:Google DeepMind 通过深度强化学习赋予双足机器人敏捷的足球技能

在这里插入图片描述

创造通用具身智能,即创造能够在物理世界中敏捷、灵巧和理解的智能体——就像动物或人类一样——是人工智能 (AI) 研究人员和机器人专家的长期目标之一。动物和人类不仅是自己身体的主人,能够流畅而轻松地执行和组合复杂的动作,而且还可以感知和理解他们的环境,并利用他们的身体来影响世界上的复杂结果。
近些年基于学习的方法加速了这方面研究,特别是,深度强化学习(深度RL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。高质量的四足机器人已经广泛使用,但是,致力于控制人形机器人和两足动物的工作要少得多,这在稳定性、机器人安全性、自由度数量和合适硬件的可用性方面带来了额外的挑战。现有的以学习为基础的工作比较有限,侧重于学习和转移不同的基本技能,如走路、跑步、爬楼梯和跳跃。人形控制的最新技术使用基于目标模型的预测控制,从而限制了该方法的通用性。
Google DeepMind 发表的Science Robotic 工作重点是基于学习的人形机器人的全身控制,用于长期任务。特别是使用深度RL来训练低成本的现成机器人来踢多机器人足球,远远超出这种机器人直观期望的敏捷性和流畅性水平。像足球这样的运动展示了人类感觉运动智能的许多特征,这在机器人社区中得到了认可,特别是通过RoboCup计划。 他们考虑了完整足球问题的一个子集,并训练了一个智能体在模拟中玩简化的一对一(1v1)足球,并直接将学习到的策略部署到真实的机器人上(下图)。他们专注于本体感觉和动作捕捉观察中的感觉运动全身控制。
在这里插入图片描述

在第一阶段,他们训练了两种技能:一种是从地上站起来,另一种是在面对未经训练的对手时进球。在第二阶段,他们通过提炼技能并以自我游戏的形式使用多智能体训练来训练智能体完成完整的 1v1 足球任务,其中对手是从智能体本身的部分训练副本池中抽取的。因此,在第二阶段,智能体学会了结合以前学到的技能,将它们提炼成完整的足球任务,并预测和预测对手的行为。他们使用了一小组塑形奖励、领域随机化以及随机推送和扰动来改进探索并促进安全转移到真实机器人。
在这里插入图片描述

未来工作的一个令人兴奋的方向是培训由两个或更多代理组成的团队。在这种情况下,应用他们提出的方法来训练智能体是很简单的。在他们对 2v2 足球的初步实验中,看到智能体学会了分工,这是一种简单的协作形式:如果队友离球更近,那么智能体就不会接近球。然而,它也学到了更少的敏捷行为。从先前的仿真工作中获得的见解可用于提高此设置下的性能。
未来工作的另一个重要方向是仅从机载传感器中学习,而没有来自动作捕捉系统的外部状态信息。与可以直接访问球、球门和对手位置的基于状态的智能体相比,基于视觉的智能体需要从有限的高维以自我为中心的相机观察历史中推断信息,并随着时间的推移整合部分状态信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/620016.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用这几款插件,GitHub阅读代码效率噌噌噌

** octotree:生成仓库目录 ** 这可能是我用得最多的一款插件了,大家有没有遇到过这种情况。每次点击一个文件后,整个文件列表就会被隐藏,想查看其它文件只能回退后再次进入。别提有多蛋疼了…… 而这款插件就完美解决了这个问题…

卷积神经网络结构组成与解释

卷积神经网络结构组成与解释 卷积神经网络是以卷积层为主的深度网路结构,网络结构包括有卷积层、激活层、BN层、池化层、FC层、损失层等。卷积操作是对图像和滤波矩阵做内积(元素相乘再求和)的操作。 1. 卷积层 常见的卷积操作如下&#x…

Vue指令案例

通过Vue完成表格数据的渲染展示 最终结果为&#xff1a; <!DOCTYPE html> <html lang"en"><head><script src"vue.js">//引入vue文件</script><meta charset"UTF-8"><meta name"viewport" c…

Dask库一个神奇处理大数据在python的库

Dask库一个神奇处理大数据在python的库 Dask库&#xff0c;一个神奇处理大数据的库 什么是 Dask&#xff1f; Dask 是一个灵活的并行计算库,旨在处理大规模数据集.它提供了类似于 Pandas 和 NumPy 的数据结构,但能够有效地处理比内存更大的数据集.Dask 可以在单台机器或分布式…

商业银行风险管理

商业银行风险管理 银行业风险类型概述管理信用风险管理利率风险缺口分析 持续期分析利率互换消除利率风险表外业务的风险管理 银行业风险类型概述 信用风险市场风险&#xff08;利率风险、汇率风险等市场价 格风险&#xff09;财务风险&#xff08;流动性风险&#xff09;操作…

标量子查询 scalar subquery row_number()改写

当一个子查询介于select 与from之间&#xff0c;这种子查询就叫标量子查询。 标量子查询类似于函数&#xff0c;在结果集返回的每一行增加一个函数列。 标量的意思就是对于一个具体的输入值输出的的是一个特定的值&#xff0c;不是随机的值。 ----在函数中也有这个概念。如果…

mediapipe人体姿态检测(全方位探索手部、面部识别、姿势识别与物体检测及自拍分割技术)

引言 本文将聚焦于MediaPipe对人体姿态检测的全面支持&#xff0c;包括手部、面部识别、全身姿势识别、物体检测以及自拍分割五大关键技术。通过深入了解这些功能&#xff0c;读者将能更好地运用MediaPipe在各种应用中实现精准的人体动作捕捉与分析。 一、手部关键点检测 Me…

反爬虫之代理IP封禁-协采云IP池

反爬虫之代理IP封禁-协采云IP池 1、目标网址2、IP封禁4033、协采云IP池 1、目标网址 aHR0cDovL3d3dy5jY2dwLXRpYW5qaW4uZ292LmNuLw 2、IP封禁403 这个网站对IP的要求很高&#xff0c;短时间请求十几次就会遭关进小黑屋。如下图&#xff1a; 明显是网站进行了反爬处理&…

执行npm命令一直出现sill idealTree buildDeps怎么办?

一、问题 今天在运行npm时候一直出项sill idealTree buildDeps问题 二、 解决 1、网上查了一下&#xff0c;有网友说先删除用户界面下的npmrc文件&#xff08;注意一定是用户C:\Users\{账户}\下的.npmrc文件下不是nodejs里面&#xff09;&#xff0c;进入到对应目录下&#x…

每个人都可以做一个赚钱的社群

如何创建并运营一个赚钱的社群 一、引言 大家好&#xff0c;今天&#xff0c;我想和大家分享一下如何创建并运营一个赚钱的社群。我的分享目的是希望能够持续输出有价值的内容。 二、心态建设 1. 重要性&#xff1a;创业心态与平常心 在开始社群运营之前&#xff0c;我们需…

Windows下安装GPU版Pytorch

升级Driver到最新版本 Windows搜索栏中输入设备管理器找到显示适配器一项&#xff0c;点击展开&#xff0c;你将看到你的NVIDIA显卡列在其中右键点击你的NVIDIA显卡&#xff0c;选择更新驱动软件…。在弹出的对话框中&#xff0c;选择自动搜索更新的驱动软件。之后&#xff0c…

【基于HTML5的网页设计及应用】——事件代理.

&#x1f383;个人专栏&#xff1a; &#x1f42c; 算法设计与分析&#xff1a;算法设计与分析_IT闫的博客-CSDN博客 &#x1f433;Java基础&#xff1a;Java基础_IT闫的博客-CSDN博客 &#x1f40b;c语言&#xff1a;c语言_IT闫的博客-CSDN博客 &#x1f41f;MySQL&#xff1a…