由于行为克隆,模仿学习问题转化为监督学习问题。在监督学习中,最大似然估计是估计条件概率分布的标准方法。
最大似然估计通过最大化数据集的条件似然来估计参数 θ:
L(θ)=∏(si,ai)∈Dπ^θ(ai∣si)
取对数似然:
logL(θ)=∑(si,ai)∈Dlogπ^θ(ai∣si)
因此,最大似然估计问题为:
maxθ∑(si,ai)∈Dlogπ^θ(ai∣si)或等价地minθ−∑(si,ai)∈Dlogπ^θ(ai∣si)
我们考虑最小化专家分布与学习策略之间的KL散度。对于条件分布,我们希望在每个状态 s 上最小化 DKL(πE(⋅∣s)∥π^θ(⋅∣s))。由于我们不知道真实的 πE,我们使用经验分布近似。具体地,我们最小化经验KL散度:
minθEs∼d^[DKL(π^empE(⋅∣s)∥π^θ(⋅∣s))]
其中 d^ 是数据集中状态的分布,π^empE(a∣s)=NsNs,a 是经验条件分布。展开KL散度:
DKL(π^empE∥π^θ)=∑aπ^empE(a∣s)logπ^θ(a∣s)π^empE(a∣s)=∑aπ^empE(a∣s)logπ^empE(a∣s)−∑aπ^empE(a∣s)logπ^θ(a∣s)
第一项与 θ 无关,因此最小化KL散度等价于最大化 ∑aπ^empE(a∣s)logπ^θ(a∣s)。对状态分布取期望:
Es∼d^[∑aπ^empE(a∣s)logπ^θ(a∣s)]=N1∑sNs∑aNsNs,alogπ^θ(a∣s)=N1∑(s,a)Ns,alogπ^θ(a∣s)
忽略常数因子 1/N,这正是最大似然估计的目标。因此,最大似然估计等价于最小化经验KL散度。