[Embodied AI Tutorial] The Basic Frameworks and Techniques for Embodied AI (Part2)-编程知识

[Embodied AI Tutorial] The Basic Frameworks and Techniques for Embodied AI (Part2)

news/2025/2/23 7:38:44/文章来源:https://www.cnblogs.com/fariver/p/18407282

Embodied AI Tutorial
课程内容
- Modeling and approaches for Embodied AI
  - World Model
  - Get a Good Policy
  - Planning And Control
- Simulation technology for Embodied AI
  - Rigid body simulation
  - Camera simulation
  - Asserts
相关链接
资料查询

Embodied AI Tutorial

课程主页：
slides
video
讲师：https://www.fbxiang.com/

课程内容

Modeling and approaches for Embodied AI

World Model

forward model
-- \(S\) State Space：all possible world states，agent的位置、速度等状态。状态通常不是直接能获取到的，有时需要通过Sensor的观测间接获取。
-- \(A\) Action Space： all possible control signals，通常和外力有关，比如，电机。
-- \(T\) Transition： environment dynamics
Markov Decision Process (MDP)
除了{\(S\), \(A\), \(T\)}之外，还有\(R\)用来衡量{\(S\), \(A\)}的成功程度。
Policy
\(Pi\) Policy: takes a state and outputs an action，根据当前状态采样出Action获得Policy的手段：
-- Imitation learning模仿学习
-- Learn in an MDP（Reinforcement learning、Model-free、Model-based）
-- 人工定义规则

Get a Good Policy

Imitation Learning：输入当前状态观测，使用专家的Action作为GT，有监督地训练Policy预测模型，例如，Tesla的E2E自动驾驶可以算是这一类。
Learn from interaction experience.
-- Interact with environment (env.step) to collect experience.
-- Use collected experience to improve the current policy.
-- Repeat ab.

Planning And Control

Motion Planning: generates a trajectory (position, velocity, and acceleration) of the robot.
-- input：起点、终点、可行驶区域
-- output：不同时间点的状态(位置、速度、加速度)
-- Probabilistic roadmap method (PRM)：一个暴力的Planning算法的例子
在可行驶区域内随机采样位置，再使用最短路径算法将其连起来。
Control: Control executes the trajectory.
-- 通过每个采样点的状态，使用Inverse dynamics反向推算出所需要的控制信息。
-- 通常状态与理论有些误差，使用PID算法进行修正，参考下方解释。

‌‌PID算法的基本概念‌‌

FromChatGPT(提示词：XXX) PID算法是一种广泛应用于控制工程中的反馈控制算法，主要用于调节系统的输出以达到期望的目标值。PID算法由比例（P）、积分（I）和微分（D）三个基本部分组成，通过线性组合构成控制量，对被控对象进行控制。

‌PID算法的组成部分‌

‌比例（P）‌：根据当前的误差（目标值与实际值的差）直接产生控制动作，快速响应误差，但不能消除稳态误差。
‌积分（I）‌：根据误差的积累（误差时间积分）产生控制动作，消除稳态误差。积分作用太强会导致系统超调和振荡。
‌微分（D）‌：根据误差的变化率（误差的时间导数）产生控制动作，预测未来的误差变化趋势，减少系统的超调和振荡。
‌PID算法的工作原理‌

PID算法的工作原理基于反馈控制，通过计算偏差量（e(t)）的比例、积分和微分三个控制作用，产生一个控制量u(t)，对被控对象进行调节。比例控制快速响应误差，积分控制消除稳态误差，微分控制减少超调和振荡。

‌PID算法的应用领域‌

PID算法广泛应用于工业自动化、电力系统、温度控制、压力控制、流量控制、位置控制等领域。例如，在工业设备中，PID控制器用于保持系统运行在设定点；在电力系统中，PID控制器用于调节发电机的功率输出、变压器的电压水平、电网频率等参数。

‌PID算法的优缺点‌

‌优点‌：原理简单、易于实现、适用面广、控制参数相互独立、参数选定简单。理论上，对于过程控制的典型对象，PID控制器是一种最优控制。
‌缺点‌：积分作用过强会导致系统超调和振荡；微分作用过强会引入高频噪声，影响系统的抗干扰性。
‌PID算法的参数调节‌

PID算法的参数调节包括比例增益（Kp）、积分增益（Ki）和微分增益（Kd）。通过调整这些参数，可以优化系统的响应速度、超调量、调节时间和稳定性。参数调节方法包括试错法、Ziegler-Nichols法等。

Simulation technology for Embodied AI

Simulators/Engine/Environment三者的概念与层级关系

Simulators：A library (often a simple SDK) that simulates one or more physical processes.
Engine: A software that bundles together simulators to help developers.
Environment: Bundles of engines/simulators, assets, and tasks for studying specific embodied AI problems.