1.1 无限长度的折扣马尔可夫决策过程
在讨论模仿学习的问题范式之前,我们需要做一些数学工作。
在强化学习的篇章中我们介绍了马尔可夫决策过程。数学上,它可以用一个五元组表示。
马尔可夫决策过程的五元组定义:M=(S,A,P,R,γ)
其中:
- S 是有限状态的集合。
- A 是有限动作的集合。
- γ 是折扣因子,满足 0≤γ<1。
- P 是状态转移概率矩阵,其中 Pss′a=P(st+1=s′∣st=s,at=a 表示在状态 s 下执行动作 a 后转移到状态 s′ 的概率。
- R 是奖励函数,R(s,a) 表示在状态 s 下执行动作 a 时可以获得的期望即时奖励,即
R(s,a)=E[Rt∣st=s,at=a]
在马尔可夫决策过程的基础上我们引入一个初始状态分布:ρ(s),表示在初始状态 s 上的概率分布。
于是有六元组:(S,A,P,R,γ,ρ),表示无限长度的折扣马尔可夫决策过程。
其累计期望回报是:
V(π)=E[t=0∑∞γr(st,at)∣s0 ρ(⋅),at π(⋅∣st),st+1 P(st+1∣st,at)]假设奖励函数有界,可以发现:
Gt=t=0∑∞γt=1−γ1定义有效决策长度为:1−γ1,当把累计回报里的“无限长度”截断到O(1−γ1)的量级时,可以很好地用有限长度来代替无限长度:
E[t=0∑Hγtr(st,at)−E[t=0∑∞γtr(st,at)]]≤ε⟹H≥1−γ1log((1−γ)ε1)对于给定的M,可以求解最优策略π∗使其累计回报最大。
对于强化学习来说,要解决的问题是不知道转移概率 P 的精确形式但可以与环境交互来获取转移 概率信息的情况下,求解最优策略。
由于马尔可夫决策的再生性质,我们可以对任意的初始状态s来定义其状态价值函数。
Vπ(s)=E[t=0∑∞γtr(st,at)s0=s,at∼π(⋅∣st),st+1∼P(st+1∣st,at)]类似地,我们可以定义状态-动作值函数(state-action value function):
Qπ(s,a)=E[t=0∑∞γtr(st,at)s0=s,a0=a,at∼π(⋅∣st),st+1∼P(st+1∣st,at)]1.2 有限长度的折扣马尔可夫决策过程
有限长度回合制马尔可夫决策过程可以用六元组M=(S,A,P,r,H,ρ)表示。其中S和A分别表示状态和动作空间。
在这里,P={P1,⋯,PH}制定了时变转移函数。Ph(sh+1∣sh,ah)表示了在时间步h和状态sh上,执行动作ah,转移到状态sh+1的概率。类似地,r={r1,...,rH}指定了马尔可夫决策过程的奖赏函数,不失一般性,我们假设rh:S×A→[0,1],∀h∈[H],此时[x]表示从1到x的整数集合。为了适应这种时变的概率转移,π={π1,⋯,πh}表示了时变的策略,其中πh:S→Δ(A),Δ(A) 表示在动作空间上的概率单纯形,πh(a∣s)表示在时间步h和状态s上,执行动作a的概率。
在M下,策略π的累积(期望)回报定义如下:
V(π):=E[h=1∑Hrh(sh,ah)∣s1∼ρ;ah∼πh(⋅∣sh),sh+1∼Ph(⋅∣sh,ah