分类目录:《深入理解强化学习》总目录
马尔可夫过程是一组具有马尔可夫性质的随机变量序列 S 1 , S 2 , ⋯ , S t S_1, S_2, \cdots, S_t S1,S2,⋯,St,其中下一个时刻的状态 S t + 1 S_{t+1} St+1只取决于当前状态 S t S_t St 。我们设状态的历史为 h t = { S 1 , S 2 , ⋯ , S t } h_t=\{S_1, S_2, \cdots, S_t\} ht={S1,S2,⋯,St}( h t h_t ht包含了之前的所有状态),则马尔可夫过程满足条件:
p ( S t + 1 ∣ S t ) = p ( S t + 1 ∣ S 1 , S 2 , ⋯ , S t ) = p ( S t + 1 ∣ h t ) p(S_{t+1}|S_t)=p(S_{t+1}|S_1, S_2, \cdots, S_t)=p(S_{t+1}|h_t) p(St+1∣St)=p(St+1∣S1,S2,⋯,St)=p(St+1∣ht)
从当前 S t S_t St 转移到 S t + 1 S_{t+1} St+1 ,它是直接就等于它之前所有的状态转移到 S t + 1 S_{t+1} St+1 。
离散时间的马尔可夫过程也称为马尔可夫链(Markov Chain)。马尔可夫链是最简单的马尔可夫过程,其状态是有限的。例如,下图里面有4个状态,这4个状态在 s 1 , s 2 , s 3 , s 4 s_1, s_2, s_3, s_4 s1,s2,s3,s4之间互相转移。比如从 s 1 s_1 s1开始, s 1 s_1 s1有0.1的概率继续存留在 s 1 s_1 s1状态,有0.2的概率转移到 s 2 s_2 s2,有0.7的概率转移到 s 4 s_4 s4。如果 s 4 s_4 s4是我们的当前状态,它有0.3的概率转移到 s 2 s_2 s2,有0.2的概率转移到 s 3 s_3 s3,有0.5的概率留在当前状态。
我们通常用元组 ( S , P ) (S, P) (S,P)描述一个马尔可夫过程,其中是 S S S有限数量的状态集合, P P P是状态转移矩阵(State Transition Matrix)。假设一共有 n n n个状态,此时。状态转移矩阵定义了所有状态对之间的转移概率,即:
P = [ p ( s 1 ∣ s 1 ) ⋯ p ( s n ∣ s 1 ) ⋮ ⋱ ⋮ p ( s 1 ∣ s n ) ⋯ p ( s n ∣ s n ) ] P=\left[\begin{array}{c} p(s_1|s_1) & \cdots &p(s_n|s_1) \\ \vdots & \ddots & \vdots\\ p(s_1|s_n) &\cdots &p(s_n|s_n) \end{array}\right] P= p(s1∣s1)⋮p(s1∣sn)⋯⋱⋯p(sn∣s1)⋮p(sn∣sn)
矩阵 P P P中第 i i i行第 j j j列元素 p ( s i ∣ s j ) = p ( S t + 1 = s j ∣ S t = s j ) p(s_i|s_j)=p(S_{t+1}=s_j|S_t=s_j) p(si∣sj)=p(St+1=sj∣St=sj)表示从状态 s i s_i si转移到状态 s j s_j sj的概率,我们称 P ( s ′ ∣ s ) P(s'|s) P(s′∣s)为状态转移函数。从某个状态出发,到达其他状态的概率和必须为1,即状态转移矩阵的每一行的和为1。状态转移矩阵类似于条件概率(Conditional Probability),它表示当我们知道当前我们在状态 s t s_t st时,到达下面所有状态的概率。所以它的每一行描述的是从一个节点到达所有其他节点的概率。
给定一个马尔可夫过程,我们就可以从某个状态出发,根据它的状态转移矩阵生成一个状态序列(Episode),这个步骤也被叫做采样(sampling),生成这些序列的概率和状态转移矩阵有关。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022