一、基本概念简介
原理
- 强化学习讨论的问题是一个智能体(agent)通过与一个复杂不确定的环境(environment)进行不断地交互来修改自己的动作策略,以极大化它能获得的奖励(学习到完成相应任务的最优策略)。
- 从广义上讲,强化学习是序贯决策问题。但序贯决策问题包含的内容更丰富,他不仅包含马尔科夫过程的决策,而且包括非马尔科夫过程的决策。
- Agent在获得自己能力的过程中,是通过不断地试错探索。探索(exploration)和利用(exploitation)的平衡是强化学习里的一个核心。
基本框架
在离散时刻t,智能体观测到环境状态St,然后选择一个动作At;在t+1时刻,作为动作At的结果,智能体获得一个数值化的奖励Rt+1,同时智能体观测到一个新的状态St+1
与监督学习相比的特征
- 强化学习通过试错探索,它需要通过探索环境来获取对环境的理解;而监督学习会告诉正确的标签是什么;
- 强化学习从环境获得的是具有延迟的奖励信号(reward signal);
- 在强化学习中数据具有时间关联,不是独立同分布的;而在监督学习中,数据尽量是独立同分布,以便消除数据之间的相关性;
- Agent的行为会影响它随后得到的数据。
为什么要关注强化学习
强化学习得到的模型可以有超人类的表现,而监督学习的监督数据是由人来标注的,决定了其上限。
二、马尔科夫决策过程(MDP)
1、马尔科夫性
指系统的下一个状态st+1仅与当前状态st有关,与以前的状态无关。
定义:状态st是马尔科夫的,当且仅当P[st+1∣st]=P[st+1∣s1,...,st]。(可以看出当前状态st是蕴含了所有的历史信息,一旦当前状态已知,历史信息将会被抛弃)
2、马尔科夫过程
定义:马尔科夫过程是一个二元组(S,P),且满足:S是有限状态集合,P是状态转移概率。(不存在动作和奖励,状态序列称为马尔科夫链)
3、马尔科夫决策过程
定义:马尔科夫决策过程由元组(S,A,P,R,γ)描述,其中:
- S为有限的状态集
- A为有限的动作集
- P为状态转移概率(矩阵)
- R为回报函数
- γ为折扣因子,用于计算累计回报(γ∈[0,1])
与马尔科夫过程不同的是,决策过程的状态转移概率包含动作。
强化学习的目标是给定一个马尔科夫决策过程,寻找最佳策略(状态到动作的映射),策略用π表示,有:
π(a∣s)=p[At=a∣St=s]
上式含义:策略π在每个状态s指定一个动作概率。
4、一些概念
(1)、状态-值函数
当agent采取策略π时,累计回报服从一个分布,在状态s处的期望值定义为状态-值函数:
vπ(s)=Eπ[k=0∑∞γkRt+k+1∣St=s]
(2)、状态-行为值函数
类似的有:
qπ(s,a)=Eπ[k=0∑∞γkRt+k+1∣St=s,At=a]
(3)、贝尔曼方程
待补充…
三、随机策略
1、贪婪策略
π∗(a∣s)={10if a=argmaxq∗(a∣s)otherwise
贪婪策略是一个确定性策略,即只有在动作值函数q∗(a∣s)最大的动作处取概率1,其它取0。
2、ε−greedy策略
π∗(a∣s)=⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εif a=AargmaxQ(a∣s)if a=AargmaxQ(a∣s)
ε−greedy策略是强化学习最基本最常用策略。其平衡了利用与探索,选取动作值函数最大的部分为利用,其它非最优动作仍有概率探索部分。
3、高斯策略
一般高斯策略写成πθ=μθ+ε,ε∼N(0,σ2)。其中μθ为确定性部分,ε为零均值的高斯随机噪声。高斯策略在连续系统的强化学习中应用广泛。
4、玻尔兹曼分布
对于动作空间是离散的或者动作空间并不大的情况,可采用玻尔兹曼分布作为随机策略,即:
π∗(a∣s,θ)=∑bexp(h(s,b,θ))exp(Q(s,a,θ))
其中Q(s,a,θ)为动作值函数。该策略的含义是:动作值函数越大的动作被选中的概率越大。
总结
- 有关基于gym的MDP实例部分和贝尔曼方程,emmm,
有机会在看(水了)
- 对于动作空间和状态空间等,老师没有把ppt放出来,也水了
- 尚且有点云里雾里,不清楚怎样代码实现