如何理解看待 OpenAI 公布PPO算法？-脚本导航

如何理解看待 OpenAI 公布PPO算法？

来源：等保测评

2023-08-03 13:50:00

438

管理

回答一:

TRPO得到的结果是PPO(trustregionpolicyoptimization)类似的解决方案。TRPO规定解一个constrainedoptimization(KLdivergence低于某个值)，而PPO则直接将constraints放入objective中。

在TRPO中，这个optimization需要使用conjugategradient的近似解决方案，并且需要规定constraint的二次导向KLdivergence，所以当问题很大时，它会花费大量的资源。而且PPO只需要一次导的信息，这样就大大节省了资源，可以应用到规模较大的问题上(自然需要添加一些细节，这样结果就不会和TRPO差太多了)。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)）.

现在openai已经把PPO当作默认算法，deepmind也在最近的几篇文章中使用过，所以我认为有什么问题可以深入加强学习，那就勇敢地使用这个算法吧。

Azure OpenAI 企业API接口开通申请：https://forms.office.com/r/7Y4wFaqAxV

回答二：

事实上，PPO的本质应该是：

对于likelihood-ratiopolicygradient算法，本质上是提高“好”样本的可能性，降低“差”样本的可能性。那普通的策略梯度是怎样的呢？这是关于一种取样，如果它的return恰好很高，那么它的可能性就会迅速增加，相反，如果return是负的，那么它的可能性就会迅速降低。这实际上是不稳定的，因为策略梯度方差本来就很大。所以，PPO从更新中忽略了这种样本。仅此而已。

回答三：

PPO算法这个太专业了，我尽量简单一点。

在加强学习算法的突破中，两个指标非常重要，一个是你能得到多少关于你最终改进的对策，另一个是你的样本效率。

第一个标准很容易理解，就是看你使用的最终效果。第二个标准的原因来自一个客观事实。互动获取数据往往非常昂贵。我们应该尽可能少地使用互动来实现可用的情况。PPO算法就是解决这些问题。

回答四：

OpenAI发布的PPO算法是一种基于概率的策略优化算法，它可以升级对策参数，以满足环境的变化。

也可用于无人驾驶、机器人操作、空中制导技术等机器人领域的任务。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com