论文总结1--基于深度强化学习的四足机器人步态分析--2024.10.01

news/2024/12/24 13:43:14/文章来源:https://www.cnblogs.com/myleaf/p/18442848

四足机器人的运动控制方法研究

1.传统运动控制

- 基于模型的控制方法
目前,在四足机器人研究领域内应用最广泛的控制方法就是基于模型的控制方法,其中主要包括基于虚拟模型控制(Virtual Model Control,VMC)方法 、基于零力矩点(Zero Moment Point,ZMP) 的控制方法、弹簧负载倒立摆算法(Spring Loaded Inverted Pendulum,SLIP) 等。这些控制方法的控制流程大同小异,首先都是要建立四足机器人的动力学模型,通过复杂且繁琐的数学推导,最后得出四足机器人足端落点的期望值。这些方法均需要科研人员熟悉并精通四足机器人的运动学模型方法,而且需要研究人员手动调整参数来进行控制,其控制过程极其繁琐。
- 基于中枢模式发生器
基于中枢模式发生器(Central Pattern Generator,CPG)控制方法,其灵感来自于生物学领域 。在各类高等动物的脊髓中,都普遍存在中枢模式发生器。从生物学的意义上讲,恰恰就是脊髓里面的中枢模式发生器控制着动物的各种节律,中枢模式发生器会形成各种周期性的刺激信号,这些生物学信号控制着所对应肌肉的节律性收缩。基于此,日本的 Kimura 科研团队提出了该方法,即构造多个振荡器函数,通过这些函数来生成周期性的关节运动轨迹,进而通过运动学建模反解出关节角度等信息,最终实现四足机器人的运动控制
- 基于模型预测的控制方法
基于模型预测的控制(Model Predictive Control,MPC) 方法是一种较为传统的运动控制方法
这种控制方法通过预测未来一段时间内的动态模型,进而对当下时刻的控制方法进行优化。具体而言,该方法首先获取四足机器人机身上的各种传感器所感受到的信息,然后将这些状态信息数字化处理,然后将其转换成一个在数学上的求解最优值的问题,之后将解出来的结果反馈给四足机器人,最后在下一个时间采样点再进行上面的循环。

2.基于强化学习的运动控制方法

DRL 深度强化学习
该方法使用近端策略优化(Proximal Policy Optimization,PPO)强化学习算法训练四足仿生机器人的运动,包括基本的前行、跑步和各种高难度的杂技动作。

3.马尔科夫决策过程

(Markov Decesion Process MDP)
马尔可夫过程可以将强化学习中的策略更新学习以及与环境变量之间的交互过程用数学概率模型的方式表示出来。
MDP 由四个要素组成,分别为“S,A,R,P”。其中,符号 S 表示状态、符号 A 表示动作、符号 R 表示奖励反馈,符号 P 表示状
态转移矩阵。

4.深度强化学习

Deep reinforcement Learning (DRL)深度强化学习

5.DH参数法

6.PPO

PPO(Proximal Policy Optimization)近端策略优化算法是一种在强化学习领
域广泛使用的算法

7.LSTM

image

8.DDPG和SAC

  • DDPG(Deep Deterministic Policy Gradient)是一种结合了策略梯度和函数逼近技术的深度强化学习算法
  • SAC(Soft Actor-Critic)是一种基于 Actor-Critic 框架的深度强化学习算法,专为解决连续动作空间的问题所设计

9.URDF

采用 URDF(Unified Robot Description Format)格式文件来构建机器人模型
image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/806595.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统密码忘记

Linux系统密码忘记 1.故障背景误删除或修改/etc/passwd导致无法远程登录. 禁止root远程登录,没有添加普通用户,无法远程登录. root密码忘记,无法远程登录. linux无法启动.2.解决方法 root密码,恢复有备份的系统文件,都要重启系统,才能进入救援模式.解决方案 应用场景系统自带的…

应用中的错误处理概述

title: 应用中的错误处理概述 date: 2024/10/1 updated: 2024/10/1 author: cmdragon excerpt: 摘要:本文介绍了Nuxt中的错误处理机制,包括全局错误处理器和组件层级错误捕获,以及错误传递规则和生产环境下的处理方式 categories:前端开发tags:错误处理 Nuxt应用 全局处理…

TypeScrip在vue中的使用----defineEmits

向父元素发送消息 之前的语法: 在TS语法中,我们既要对defineEmits做类型约束,又要对emits做类型约束。 最主要是对defineEmits做一个泛型的约束。//在泛型对象中,有几个事件就写几个约束 type emitsType = {//()中有n个参数,第一个固定的是e,其他有具体参数决定。具体的写…

电影《749局》迅雷BT下载/百度云下载资源[MP4/2.12GB/5.35GB]超清版

电影《749局》:近未来的冒险与成长之旅电影《749局》是一部融合了科幻、冒险与奇幻元素的电影,由陆川编剧并执导,王俊凯、苗苗、郑恺、任敏、辛柏青领衔主演,李晨特邀主演,张钧甯、李梦、杨皓宇特别主演。该片于2024年10月1日在中国大陆上映,以其独特的科幻设定、宏大的视…

电影《749局》迅雷百度云下载资源4K分享[1.16GB/2.72GBMKV]高清加长版【1280P已完结】

电影《749局》的深度剖析与全面解读电影《749局》是一部集科幻、冒险、动作与奇幻元素于一体的力作,由陆川编剧并执导,王俊凯、苗苗、郑恺、任敏、辛柏青领衔主演,李晨特邀主演,张钧甯、李梦、杨皓宇特别主演。影片于2024年国庆档在中国大陆上映,以其独特的科幻设定、宏大…

南沙C++信奥赛陈老师解一本通题 1983:【19CSPJ普及组】公交换乘

​【题目描述】著名旅游城市 B 市为了鼓励大家采用公共交通方式出行,推出了一种地铁换乘公交车的优惠方案: 1、在搭乘一次地铁后可以获得一张优惠票,有效期为 4545 分钟,在有效期内可以消耗这张优惠票,免费搭乘一次票价不超过地铁票价的公交车。在有效期内指开始乘公交车的…

Flutter 实现骨架屏CE

什么是骨架屏 在客户端开发中,我们总是需要等待拿到服务端的响应后,再将内容呈现到页面上,那么在用户发起请求到客户端成功拿到响应的这段时间内,应该在屏幕上呈现点什么好呢? 答案是:骨架屏 那么什么是骨架屏呢,来问下 GPT:骨架屏(Skeleton Screen)是一种现代的用户…

[rCore学习笔记 028] Rust 中的动态内存分配

引言 想起我们之前在学习C的时候,总是提到malloc,总是提起,使用malloc现场申请的内存是属于堆,而直接定义的变量内存属于栈. 还记得当初学习STM32的时候CubeIDE要设置stack 和heap的大小. 但是我们要记得,这么好用的功能,实际上是操作系统在负重前行. 那么为了实现动态内存分配…

解决MacOS 13.0.1 苹果M1芯片 导入pyaudio报错的问题

【问题】 如果正常按照网上的教程,在terminal先使用brew安装portaudio(brew install portaudio),再使用pip在conda环境里安装pyaudio(pip install pyaudio),然后python直接导入pyaudio(import pyaudio)会报错如下:【分析】 可知报错来自于portaudio动态库。网上搜索解…

值班脱岗智能监测识别系统

值班脱岗智能监测识别系统通过AI视频智能分析技术,值班脱岗智能监测识别系统对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测,当超过后台规定时间没有人员在规定工作区域,无需人为干预系统立即抓拍告警提醒后台值班人员及时处理。值班脱岗智能监…

河道垃圾自动监测系统

河道垃圾自动监测系统通过AI视频智能分析技术,河道垃圾自动监测系统对湖泊河道的水面情况进行实时检测,当河道垃圾自动监测系统发现河道两岸及水面出现垃圾时,不需人为干预河道垃圾自动监测系统立即抓拍归档同步发送给后台值班人员提醒相关人员及时处理。河道垃圾自动监测系…

水位标尺智能识别系统

水位标尺智能识别系统通过AI视频分析技术,水位标尺智能识别系统对河道湖泊水库等水位进行7*24小时实时自动监测,当水位标尺智能识别系统监测到河道湖泊水库水位到达警戒线时,立即抓拍存档告警,并同步回传后台提醒后台值班人员及时处理。水位标尺智能识别系统通过智能视频分…