4.5 交叉熵方法的理论背景_深度强化学习实践（原书第2版）-QQ阅读女生现言网

上QQ阅读APP看书，第一时间看更新

4.5　交叉熵方法的理论背景

本节是可选的，适用于对该方法的原理感兴趣的读者。如果愿意，你可以参考有关交叉熵方法的原始论文（见本节末尾）。

交叉熵方法的基础建立在重要性采样定理上，该定理为：

在RL场景下，H(x)是某种x策略获得的奖励值，而p(x)是所有可能策略的概率分布。我们不想通过搜索所有可能的策略来最大化奖励，相反，我们想找到一种通过q(x)来近似p(x)H(x)的方法，使它们之间的距离最小化。两个概率分布之间的距离由Kullback-Leibler（KL）散度计算：

KL中的第一项称为熵，它并不依赖于p2(x)，所以可以在最小化的时候省略。第二项称为交叉熵，它是深度学习中非常常见的优化目标。

将两个公式组合起来，可以得到一个迭代算法，它从q0(x)=p(x)开始，每一步都在提升。这是用p(x)H(x)近似后的一次更新：

这是一种通用的交叉熵方法，在RL场景下可以大大地简化。首先，将H(x)用一个指示函数替换，当片段的奖励大于阈值时为1，否则为0。然后，策略更新就变成了这样：

严格来说，前面的公式还少了归一化项，但实际上即使没有它也是有效的。所以这个方法十分明确：用当前的策略采样片段（从一个随机的初始策略开始），然后用成功的样本和策略来最小化负对数似然。

Dirk P. Kroese写了一本书专门介绍这个方法。该方法的简短描述参见他的论文“Cross-Entropy Method”（https://people.smp.uq.edu.au/DirkKroese/ps/eormsCE.pdf）。