- Embodied AI Tutorial
- 课程内容
- Modeling and approaches for Embodied AI
- World Model
- Get a Good Policy
- Planning And Control
- Simulation technology for Embodied AI
- Rigid body simulation
- Camera simulation
- Asserts
- Modeling and approaches for Embodied AI
- 相关链接
- 资料查询
Embodied AI Tutorial
课程主页:
slides
video
讲师:https://www.fbxiang.com/
课程内容
Modeling and approaches for Embodied AI
World Model
- forward model
-- \(S\) State Space:all possible world states,agent的位置、速度等状态。状态通常不是直接能获取到的,有时需要通过Sensor的观测间接获取。
-- \(A\) Action Space: all possible control signals,通常和外力有关,比如,电机。
-- \(T\) Transition: environment dynamics - Markov Decision Process (MDP)
除了{\(S\), \(A\), \(T\)}之外,还有\(R\)用来衡量{\(S\), \(A\)}的成功程度。 - Policy
\(Pi\) Policy: takes a state and outputs an action,根据当前状态采样出Action获得Policy的手段:
-- Imitation learning模仿学习
-- Learn in an MDP(Reinforcement learning、Model-free、Model-based)
-- 人工定义规则
Get a Good Policy
- Imitation Learning:输入当前状态观测,使用专家的Action作为GT,有监督地训练Policy预测模型,例如,Tesla的E2E自动驾驶可以算是这一类。
- Learn from interaction experience.
-- Interact with environment (env.step) to collect experience.
-- Use collected experience to improve the current policy.
-- Repeat ab.
Planning And Control
- Motion Planning: generates a trajectory (position, velocity, and acceleration) of the robot.
-- input:起点、终点、可行驶区域
-- output:不同时间点的状态(位置、速度、加速度)
-- Probabilistic roadmap method (PRM):一个暴力的Planning算法的例子
在可行驶区域内随机采样位置,再使用最短路径算法将其连起来。
- Control: Control executes the trajectory.
-- 通过每个采样点的状态,使用Inverse dynamics反向推算出所需要的控制信息。
-- 通常状态与理论有些误差,使用PID算法进行修正,参考下方解释。
PID算法的基本概念
FromChatGPT(提示词:XXX) PID算法是一种广泛应用于控制工程中的反馈控制算法,主要用于调节系统的输出以达到期望的目标值。PID算法由比例(P)、积分(I)和微分(D)三个基本部分组成,通过线性组合构成控制量,对被控对象进行控制。PID算法的组成部分
比例(P):根据当前的误差(目标值与实际值的差)直接产生控制动作,快速响应误差,但不能消除稳态误差。
积分(I):根据误差的积累(误差时间积分)产生控制动作,消除稳态误差。积分作用太强会导致系统超调和振荡。
微分(D):根据误差的变化率(误差的时间导数)产生控制动作,预测未来的误差变化趋势,减少系统的超调和振荡。
PID算法的工作原理
PID算法的工作原理基于反馈控制,通过计算偏差量(e(t))的比例、积分和微分三个控制作用,产生一个控制量u(t),对被控对象进行调节。比例控制快速响应误差,积分控制消除稳态误差,微分控制减少超调和振荡。
PID算法的应用领域
PID算法广泛应用于工业自动化、电力系统、温度控制、压力控制、流量控制、位置控制等领域。例如,在工业设备中,PID控制器用于保持系统运行在设定点;在电力系统中,PID控制器用于调节发电机的功率输出、变压器的电压水平、电网频率等参数。
PID算法的优缺点
优点:原理简单、易于实现、适用面广、控制参数相互独立、参数选定简单。理论上,对于过程控制的典型对象,PID控制器是一种最优控制。
缺点:积分作用过强会导致系统超调和振荡;微分作用过强会引入高频噪声,影响系统的抗干扰性。
PID算法的参数调节
PID算法的参数调节包括比例增益(Kp)、积分增益(Ki)和微分增益(Kd)。通过调整这些参数,可以优化系统的响应速度、超调量、调节时间和稳定性。参数调节方法包括试错法、Ziegler-Nichols法等。
Simulation technology for Embodied AI
Simulators/Engine/Environment三者的概念与层级关系
- Simulators:A library (often a simple SDK) that simulates one or more physical processes.
- Engine: A software that bundles together simulators to help developers.
- Environment: Bundles of engines/simulators, assets, and tasks for studying specific embodied AI problems.
Rigid body simulation
主要关注刚体的Intetration、Collision Detection、Constraint Solving三方面
Camera simulation
主要关注相机模型、光照、材料、纹理 等信息。
Asserts
不同asserts的格式说明
相关链接
OpenAI RL:https://spinningup.openai.com/en/latest/user/introduction.html