一、蒙特卡洛方法(Monte Carlo Methods)
引入
在此之前我们讨论了基于模型的动态规划方法,现在考虑无模型的问题。
所谓无模型,其实就是状态转移概率 P s s ′ a P_{ss'}^a P s s ′ a 未知 ,这种时候基于模型的动态规划方法就不好使了。拿策略迭代来说,先进行策略评估 ,算出当前策略对应的值函数;然后根据值函数进行策略改进 。
而这里 P s s ′ a P_{ss'}^a P s s ′ a 未知时,下面式子:(贝尔曼等式)
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a v π ( s ′ ) ) (5.1) v_{\pi{}}(s)=\sum_{a\in{}A}{\pi{}(a\mid{}s)\left(R_{s}^{a}+\gamma{}\sum_{s'\in{}S}{P_{ss'}^{a}v_{\pi{}}(s')}\right)}\tag{5.1}
v π ( s ) = a ∈ A ∑ π ( a ∣ s ) ( R s a + γ s ′ ∈ S ∑ P s s ′ a v π ( s ′ ) ) ( 5 . 1 )
就不好计算,如果继续使用策略评估+策略改进 的框架,需要采用其他方式来进行策略评估 (计算值函数)。
原理简析
回到最初的值函数计算式:
v π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] (5.2) v_{\pi}(s)=E_{\pi}\left[\sum_{k=0}^{\infin}\gamma^kR_{t+k+1}\mid{}S_t=s\right]\tag{5.2}
v π ( s ) = E π [ k = 0 ∑ ∞ γ k R t + k + 1 ∣ S t = s ] ( 5 . 2 )
可知实际是计算期望值 ,而蒙特卡洛方法 (MC方法) 就是利用随机样本计算经验平均来估计期望值。
这里提到的随机样本即指利用策略产生的很多幕数据 (episode
) 。
例如采用策略 π \pi π 进行的一个 episode
中有:S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T S_0,A_0,R_1,S_1,A_1,R_2,\cdots,S_{T-1},A_{T-1},R_T S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T ,计算状态 s s s 处的折扣回报:
G t ( s ) = R t + 1 + γ R t + 2 + ⋯ + γ T − t − 1 R T (5.3) G_t(s)=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-t-1}R_{T}\tag{5.3}
G t ( s ) = R t + 1 + γ R t + 2 + ⋯ + γ T − t − 1 R T ( 5 . 3 )
注:这里和深入浅出强化学习书中的公式有出入,我参考了Sutton的书,觉得应该是上式这个样子的
然后计算所有幕的均值即可,在给定的某一幕中,每次状态 s s s 的出现被称为对 s s s 的一次访问 。而在同一幕中可能多次访问到 s s s ,此时分为两种计算回报均值的方法:首次访问 MC 方法 ,和每次访问 MC 方法 。区别也就是首次访问只算每幕中第一次访问状态 s s s 的回报,根据大数定理,这个回报均值必然会收敛至其期望值,误差标准差以 1 / n 1/\sqrt{n} 1 / n 衰减,n n n 指被平均的回报值的个数。每次访问型 MC 方法则没有那么显然,但是同样会二阶收敛。
下面是采用首次访问 MC 估计值函数 的伪代码:
[1] 输入:待评估的策略 π \pi π
[2] 初始化:
\qquad\enspace 对所有 s ∈ S s\in S s ∈ S ,任意初始化 V ( s ) ∈ R V(s)\in \R V ( s ) ∈ R
\qquad\enspace 对所有 s ∈ S s\in S s ∈ S ,R e t u r n s ( s ) ← Returns(s)\gets R e t u r n s ( s ) ← 空列表
[3] 一直循环 (对每幕):
\qquad\enspace 根据 π \pi π 生成一幕序列:S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T S_0,A_0,R_1,S_1,A_1,R_2,\cdots,S_{T-1},A_{T-1},R_T S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T
\qquad\enspace G ← 0 G\gets{0} G ← 0
\qquad\enspace 对本幕中的每一步进行循环,t = T − 1 , T − 2 … , 0 t=T-1,T-2\ldots,0 t = T − 1 , T − 2 … , 0 :
\qquad\enspace\qquad G ← γ G + R t + 1 G\gets{\gamma{G}+R_{t+1}} G ← γ G + R t + 1
\qquad\enspace\qquad 除非 S t S_t S t 在 S 0 , S 1 , … , S t − 1 S_0,S_1,\ldots,S_t-1 S 0 , S 1 , … , S t − 1 中已出现过:
\qquad\enspace\qquad\qquad 将 G G G 加入 R e t u r n s ( S t ) Returns(S_t) R e t u r n s ( S t )
\qquad\enspace\qquad\qquad V ( S t ) ← a v e r a g e ( R e t u r n s ( S t ) ) V(S_t)\gets{average(Returns(S_t))} V ( S t ) ← a v e r a g e ( R e t u r n s ( S t ) )
注意:计算回报的顺序是从 T − 1 T-1 T − 1 到 0 0 0
蒙特卡洛算法的一个重要的事实是:对于每个状态的估计是独立的。它对于一个状态的估计完全不依赖 于对其他状态的估计,这与 DP 完全不同。也即,MC 方法没有用到自举思想 。
蒙特卡洛控制 ( MCES )
在得到值函数后,进一步的问题就是提升策略,依然采用贪心的思想:
π l + 1 ( s ) ∈ arg max a q π l ( s , a ) (5.4) \pi_{l+1}(s)\in{\underset{a}{\argmax{}}q^{\pi{}_{l}}(s,a)}\tag{5.4}
π l + 1 ( s ) ∈ a a r g m a x q π l ( s , a ) ( 5 . 4 )
而在 MC 策略迭代中,逐幕交替的进行评估和改进。每一幕结束后,使用观测到的回报进行策略评估,然后在该幕序列访问到的每一个状态上进行策略的改进。这样被称作基于试探性出发 的蒙特卡洛 (蒙特卡洛 ES) ,具体算法也就是在上述评估算法中计算 S t , A t S_t,A_t S t , A t 二元组对应的 Q ( S T , A T ) Q(S_T,A_T) Q ( S T , A T ) 函数然后选最好的动作作为策略即可。
但是我们如何能够遍历所有可能的状态 - 动作呢,这里就有两种方法进行保证。
同轨策略算法 ( on - policy )
同轨策略中用于生成采样数据序列 的策略和用于实际决策的待评估和改进的策略是相同的。而又为了同时保证前文所述的遍历,那么这个策略一般采用 “软性” 的策略,即对于任意的 s ∈ S s\in S s ∈ S 以及 a ∈ A ( s ) a\in A(s) a ∈ A ( s ) 都有 π ( a ∣ s ) > 0 \pi(a\mid{}s)>0 π ( a ∣ s ) > 0 ,但它们会逐渐地逼近一个确定性的策略。(每次都更新这个软性策略,注意平分的情况!)
这样的策略叫做 ε − s o f t \varepsilon-soft ε − s o f t 策略:
π ( a ∣ s ) = { 1 − ε + ε ∣ A ( s ) ∣ i f a = arg max A Q ( a ∣ s ) ε ∣ A ( s ) ∣ i f a ≠ arg max A Q ( a ∣ s ) (5.5) \pi\left(a\mid{} s\right)=
\begin{cases}
1-\varepsilon{}+\frac{\varepsilon{}}{\mid{} A(s)\mid{}} & if\ a=\underset{A}{\argmax{}} Q\left(a\mid s\right) \\
\frac{\varepsilon{}}{\mid{} A(s)\mid{}} & if\ a\neq{} \underset{A}{\argmax{}} Q\left(a\mid{} s\right)
\end{cases}\tag{5.5}
π ( a ∣ s ) = ⎩ ⎨ ⎧ 1 − ε + ∣ A ( s ) ∣ ε ∣ A ( s ) ∣ ε i f a = A a r g m a x Q ( a ∣ s ) i f a = A a r g m a x Q ( a ∣ s ) ( 5 . 5 )
伪代码:
[1] 初始化,对所有 s ∈ S s\in S s ∈ S ,a ∈ A ( s ) a\in A(s) a ∈ A ( s )
\qquad\enspace Q ( s , a ) ∈ R Q(s,a)\in{\R} Q ( s , a ) ∈ R (任意值)
\qquad\enspace π ( s ) ← \pi(s)\gets π ( s ) ← 任意软性策略( e . g . ε − g r e e d y ) (e.g.\enspace\varepsilon-greedy) ( e . g . ε − g r e e d y )
[2] 一直循环 (对每幕):
\qquad\enspace 根据 π \pi π 生成一幕数据:S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T S_0,A_0,R_1,S_1,A_1,R_2,\cdots,S_{T-1},A_{T-1},R_T S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T
\qquad\enspace G ← 0 G\gets{0} G ← 0
\qquad\enspace 对本幕中的每一时刻进行循环,t = T − 1 , T − 2 , … , 0 t=T-1,T-2,\ldots,0 t = T − 1 , T − 2 , … , 0 :
\qquad\enspace\qquad G ← γ G + R t + 1 G\gets{\gamma{G}+R_{t+1}} G ← γ G + R t + 1
\qquad\enspace\qquad C ( S t , A t ) ← C ( S t , A t ) + 1 C(S_t,A_t)\gets C(S_t,A_t)+1 C ( S t , A t ) ← C ( S t , A t ) + 1
\qquad\enspace\qquad Q ( S t , A t ) ← Q ( S t , A t ) + 1 C ( S t , A t ) [ G − Q ( S t , A t ) ] Q(S_t,A_t)\gets Q(S_t,A_t)+\frac{1}{C(S_t,A_t)}[\,G-Q(S_t,A_t)\,] Q ( S t , A t ) ← Q ( S t , A t ) + C ( S t , A t ) 1 [ G − Q ( S t , A t ) ]
\qquad\enspace ε ← 1 T \varepsilon \gets \frac{1}{T} ε ← T 1
\qquad\enspace π ← ε − g r e e d y ( Q ) \pi \gets \varepsilon-greedy(Q) π ← ε − g r e e d y ( Q )
离轨策略算法 (off - policy)
前面提到的同轨策略实际是一种妥协,因为它所学习到的并不是最优策略的动作值,而是学习一个接近最优而且仍能够试探的策略的动作值。
所以这里可以采取另一种思路,即采用两种策略,一种用于学习并最终成为最优策略,称为目标策略 ,用 π ( a ∣ s ) \pi\,(a\mid s) π ( a ∣ s ) 表示;另一个更具有试探性,用于产生行动样本,用 b ( a ∣ s ) b\,(a\mid s) b ( a ∣ s ) 表示,称为行动策略 。且需要满足条件:对 ∀ π ( a ∣ s ) > 0 \forall\, \pi\,(a\mid s)>0 ∀ π ( a ∣ s ) > 0 ,满足 b ( a ∣ s ) > 0 b\,(a\mid s)>0 b ( a ∣ s ) > 0 ,称为覆盖 假设。
而绝大部分离轨策略方法都采用了重要度采样 ,重要度采样是一种在给定来自其它分布的样本的条件下,估计某种分布的期望值的通用方法。而这里应用的具体表现是,对回报值根据其轨迹在目标策略与行动策略中出现的相对概率进行加权,这个相对概率也被称为重要度采样比 ,具体可用如下公式表示:
ρ t : T − 1 = ∏ k = t T − 1 π ( A k ∣ S k ) p ( S k + 1 ∣ S k , A k ) ∏ k = t T − 1 b ( A k ∣ S k ) p ( S k + 1 ∣ S k , A k ) = ∏ k = t T − 1 π ( A k ∣ S k ) b ( A k ∣ S k ) (5.6) \rho_{t:T-1}=\frac{\prod_{k=t}^{T-1}\pi\,(A_k\mid S_k)p(S_k+1\mid S_k,A_k)}{\prod_{k=t}^{T-1}b\,(A_k\mid S_k)p(S_k+1\mid S_k,A_k)}=\prod_{k=t}^{T-1}\frac{\pi\,(A_k\mid S_k)}{b\,(A_k\mid S_k)}\tag{5.6}
ρ t : T − 1 = ∏ k = t T − 1 b ( A k ∣ S k ) p ( S k + 1 ∣ S k , A k ) ∏ k = t T − 1 π ( A k ∣ S k ) p ( S k + 1 ∣ S k , A k ) = k = t ∏ T − 1 b ( A k ∣ S k ) π ( A k ∣ S k ) ( 5 . 6 )
这里的 p p p 代表状态转移概率,虽然是未知的,但是由于对两种策略的 p p p 是相等的,即可约分,所以只与策略和样本序列数据有关。而使用的方法也有两种,首先我们定义,对于每次访问型方法,所有访问过状态 s s s 的时刻 (帧数) 集合为 τ ( s ) \tau(s) τ ( s ) ;对于首次访问型方法,每幕的首次访问状态 s s s 的时刻 (帧数) 集合为 τ ( s ) \tau(s) τ ( s ) 。然后用 T ( t ) T{(t)} T ( t ) 表示在时刻 t t t 后的首次终止,用 G t G_t G t 表示在 t t t 后到达 T ( t ) T{(t)} T ( t ) 时的回报值。
有:
V ( s ) = ∑ t ∈ τ ( s ) ρ t : T ( t ) − 1 G t ∣ τ ( s ) ∣ (5.7) V(s)=\frac{\sum_{t\in{\tau(s)}}\rho_{t:T(t)-1}G_t}{|\tau(s)|}\tag{5.7}
V ( s ) = ∣ τ ( s ) ∣ ∑ t ∈ τ ( s ) ρ t : T ( t ) − 1 G t ( 5 . 7 )
上式方法计算值函数被称为普通重要度采样 。
另有:
V ( s ) = ∑ t ∈ τ ( s ) ρ t : T ( t ) − 1 G t ∑ t ∈ τ ( s ) ρ t : T ( t ) − 1 (5.8) V(s)=\frac{\sum_{t\in{\tau(s)}}\rho_{t:T(t)-1}G_t}{\sum_{t\in{\tau(s)}}\rho_{t:T(t)-1}}\tag{5.8}
V ( s ) = ∑ t ∈ τ ( s ) ρ t : T ( t ) − 1 ∑ t ∈ τ ( s ) ρ t : T ( t ) − 1 G t ( 5 . 8 )
上式被称为加权重要度采样 。(如果分母为0时,该式值也定义为0)
一些比较 :在统计学意义上,采用式 ( 5.7 ) (5.7) ( 5 . 7 ) 得到的结果是无偏的,但是会出现极端的情况,也就是比例系数非常大,这将导致其方差会很大 (无界的),而在加权估计中任何回报的最大权值都是1。但是两种的方差都能收敛到0,实际应用中偏好用加权估计,因为其方差很小。
增量式实现
针对加权重要度采样的离轨策略算法,下面介绍使用增量式算法实现对回报加权平均的计算方法。
假设有一个回报序列 G 1 , G 2 , … , G n − 1 G_1,G_2,\ldots,G_{n-1} G 1 , G 2 , … , G n − 1 ,它们都从相同的状态开始,且每一个回报都对应一个随机权重 W i W_i W i (例如 W i = ρ t : T ( t ) − 1 W_i=\rho_{t:T(t)-1} W i = ρ t : T ( t ) − 1 )。那么我们可以为每一个状态维护前 n n n 个回报对应的全职的累加和 C n C_n C n 。则有:
V n + 1 = V n + W n C n [ G n − V n ] (5.9) V_{n+1}=V_n+\frac{W_n}{C_n}[\,G_n-V_n\,]\tag{5.9}
V n + 1 = V n + C n W n [ G n − V n ] ( 5 . 9 )
以及
C n + 1 = C n + W n + 1 (5.9) C_{n+1}=C_{n}+W_{n+1}\tag{5.9}
C n + 1 = C n + W n + 1 ( 5 . 9 )
这里 C 0 = 0 C_0=0 C 0 = 0
于是我们可以得到一个伪代码:
[1] 初始化,对所有 s ∈ S s\in S s ∈ S ,a ∈ A ( s ) a\in A(s) a ∈ A ( s )
\qquad\enspace Q ( s , a ) ∈ R Q(s,a)\in{\R} Q ( s , a ) ∈ R (任意值)
\qquad\enspace C ( s , a ) ← 0 C(s,a)\gets 0 C ( s , a ) ← 0
\qquad\enspace π ( s ) ← arg max a Q ( s , a ) \pi(s) \gets \argmax_a{Q(s,a)} π ( s ) ← a a r g m a x Q ( s , a )
[2] 一直循环 (对每幕):
\qquad\enspace b ← b\gets b ← 任意软性策略
\qquad\enspace 根据 b b b 生成一幕数据:S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T S_0,A_0,R_1,S_1,A_1,R_2,\cdots,S_{T-1},A_{T-1},R_T S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ , S T − 1 , A T − 1 , R T
\qquad\enspace G ← 0 G\gets{0} G ← 0
\qquad\enspace W ← 1 W\gets{1} W ← 1
\qquad\enspace 对本幕中的每一时刻进行循环,t = T − 1 , T − 2 , … , 0 t=T-1,T-2,\ldots,0 t = T − 1 , T − 2 , … , 0 :
\qquad\enspace\qquad G ← γ G + R t + 1 G\gets{\gamma{G}+R_{t+1}} G ← γ G + R t + 1
\qquad\enspace\qquad C ( S t , A t ) ← C ( S t , A t ) + W C(S_t,A_t) \gets C(S_t,A_t)+W C ( S t , A t ) ← C ( S t , A t ) + W
\qquad\enspace\qquad Q ( S t , A t ) ← Q ( S t , A t ) + W C ( S t , A t ) [ G − Q ( S t , A t ) ] Q(S_t,A_t) \gets Q(S_t,A_t)+\frac{W}{C(S_t,A_t)}[\,G-Q(S_t,A_t)\,] Q ( S t , A t ) ← Q ( S t , A t ) + C ( S t , A t ) W [ G − Q ( S t , A t ) ]
\qquad\enspace\qquad π ( S t ) ← arg max a Q ( S t , a ) \pi(S_t) \gets \argmax_a{Q(S_t,a)} π ( S t ) ← a a r g m a x Q ( S t , a ) (平分的情况选取方法应保持一致)
\qquad\enspace\qquad 如果 A t ≠ π ( S t ) A_t \neq \pi(S_t) A t = π ( S t ) 则退出内层循环
\qquad\enspace\qquad W ← W 1 b ( A t ∣ S t ) W \gets W\frac{1}{b(A_t\mid S_t)} W ← W b ( A t ∣ S t ) 1
注:这里不使用 π ( A k ∣ S k ) b ( A k ∣ S k ) \frac{\pi\,(A_k \mid S_k)}{b\,(A_k\mid S_k)} b ( A k ∣ S k ) π ( A k ∣ S k ) ,而为1是因为 π \pi π 是贪心策略,满足 π ( a ∣ s ) = 1 \pi(a\mid s)=1 π ( a ∣ s ) = 1
折扣敏感的重要度采样
这里我们考虑一种情况,即幕很长且 γ \gamma γ 较小时,那么在进行普通重要度采样时,后面时刻的比例因数虽不会改变预期的更新,但是会显著的使方差变大,(人话就是 γ \gamma γ 很小后面的重要度采样比没有卵用但是会把采样估计的方差给变大,这就是导致普通重要度采样方差很大的一个原因),为了解决这个问题,我们考虑把 γ \gamma γ 视作是幕终止 的概率,或者叫做部分终止的程度 ,可以理解为有 γ \gamma γ 的概率本幕在这个时刻终止,而从开始到这个时刻的回报和称为平价部分回报 ,用 G ‾ \overline{G} G 表示;有 1 − γ 1-\gamma 1 − γ 的概率跳转到下一状态,那么可以将总回报 G t G_t G t 看做是上述平价部分回报的总和:(可以看出来乘法原理的亚子)
G t = R t + 1 + γ R t + 2 + ⋯ + γ T − t − 1 R T = ( 1 − γ ) R t + 1 + ( 1 − γ ) γ ( R t + 1 + R t + 2 ) + ( 1 − γ ) γ 2 ( R t + 1 + R t + 2 + R t + 3 ) ⋮ + ( 1 − γ ) γ T − t − 2 ( R t + 1 + R t + 2 + ⋯ + R T − 1 ) + γ T − t − 1 ( R t + 1 + R t + 2 + ⋯ + R T ) = ( 1 − γ ) ∑ h = t + 1 T − 1 γ h − t − 1 G ‾ t : h + γ T − t − 1 G ‾ t : T (5.10) \begin{aligned}
G_t & = R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-t-1}R_T\\
& = (1-\gamma)R_{t+1}\\
& \quad+(1-\gamma)\gamma(R_{t+1}+R_{t+2})\\
& \quad+(1-\gamma)\gamma^2(R_{t+1}+R_{t+2}+R_{t+3})\\
& \quad \enspace \vdots \\
& \quad+(1-\gamma)\gamma^{T-t-2}(R_{t+1}+R_{t+2}+\cdots+R_{T-1})\\
& \quad+\gamma^{T-t-1}(R_{t+1}+R_{t+2}+\cdots+R_T)\\
& =(1-\gamma)\sum_{h=t+1}^{T-1}\gamma^{h-t-1}\overline{G}_{t:h}+\gamma^{T-t-1}\overline{G}_{t:T}\tag{5.10}
\end{aligned}
G t = R t + 1 + γ R t + 2 + ⋯ + γ T − t − 1 R T = ( 1 − γ ) R t + 1 + ( 1 − γ ) γ ( R t + 1 + R t + 2 ) + ( 1 − γ ) γ 2 ( R t + 1 + R t + 2 + R t + 3 ) ⋮ + ( 1 − γ ) γ T − t − 2 ( R t + 1 + R t + 2 + ⋯ + R T − 1 ) + γ T − t − 1 ( R t + 1 + R t + 2 + ⋯ + R T ) = ( 1 − γ ) h = t + 1 ∑ T − 1 γ h − t − 1 G t : h + γ T − t − 1 G t : T ( 5 . 1 0 )
由此我们得到一个新的普通重要度采样器,它是式 ( 5.7 ) (5.7) ( 5 . 7 ) 的推广:
V ( s ) = ∑ t ∈ τ ( s ) ( ( 1 − γ ) ∑ h = t + 1 T ( t ) − 1 γ h − t − 1 ρ t : h − 1 G ‾ t : h + γ T ( t ) − t − 1 ρ t : T ( t ) − 1 G ‾ t : T ( t ) ) ∣ τ ( s ) ∣ (5.11) \footnotesize
V(s)=\frac{\sum_{t\in{\tau(s)}}\left((1-\gamma)\sum_{h=t+1}^{T(t)-1}\gamma^{h-t-1}\rho_{t:h-1}\overline{G}_{t:h}+\gamma^{T(t)-t-1}\rho_{t:T(t)-1}\overline{G}_{t:T(t)}\right)}{|\tau(s)|}\tag{5.11}
V ( s ) = ∣ τ ( s ) ∣ ∑ t ∈ τ ( s ) ( ( 1 − γ ) ∑ h = t + 1 T ( t ) − 1 γ h − t − 1 ρ t : h − 1 G t : h + γ T ( t ) − t − 1 ρ t : T ( t ) − 1 G t : T ( t ) ) ( 5 . 1 1 )
同理有加权重要度采样的推广:
V ( s ) = ∑ t ∈ τ ( s ) ( ( 1 − γ ) ∑ h = t + 1 T ( t ) − 1 γ h − t − 1 ρ t : h − 1 G ‾ t : h + γ T ( t ) − t − 1 ρ t : T ( t ) − 1 G ‾ t : T ( t ) ) ∑ t ∈ τ ( s ) ( ( 1 − γ ) ∑ h = t + 1 T ( t ) − 1 γ h − t − 1 ρ t : h − 1 + γ T ( t ) − t − 1 ρ t : T ( t ) − 1 ) (5.12) \footnotesize
V(s)=\frac{\sum_{t\in{\tau(s)}}\left((1-\gamma)\sum_{h=t+1}^{T(t)-1}\gamma^{h-t-1}\rho_{t:h-1}\overline{G}_{t:h}+\gamma^{T(t)-t-1}\rho_{t:T(t)-1}\overline{G}_{t:T(t)}\right)}{\sum_{t\in{\tau(s)}}\left((1-\gamma)\sum_{h=t+1}^{T(t)-1}\gamma^{h-t-1}\rho_{t:h-1}+\gamma^{T(t)-t-1}\rho_{t:T(t)-1}\right)}\tag{5.12}
V ( s ) = ∑ t ∈ τ ( s ) ( ( 1 − γ ) ∑ h = t + 1 T ( t ) − 1 γ h − t − 1 ρ t : h − 1 + γ T ( t ) − t − 1 ρ t : T ( t ) − 1 ) ∑ t ∈ τ ( s ) ( ( 1 − γ ) ∑ h = t + 1 T ( t ) − 1 γ h − t − 1 ρ t : h − 1 G t : h + γ T ( t ) − t − 1 ρ t : T ( t ) − 1 G t : T ( t ) ) ( 5 . 1 2 )
总结
大概理论就是这个亚子,也找不到什么可以简化的感觉,基本就是照着书念了一遍,但是也让我有了一定的理解,还是结合代码更清楚一点,下周又有作业,希望不要搞太久,不得不说 github 真是好东西,直接搜 Reinforcement 就有大把的资料,虽然肯定是英文的就对了。。。要准备一些物理考试了,溜。
另外一提,间谍过家家好看!快给我更😍