摩杜云开发者社区-摩杜云

数据库

PPO 标签描述

文章 | RL 实践（7）—— CartPole【TPRO & PPO】

本文介绍PPO这个onlineRL的经典算法，并在CartPole-V0上进行测试。由于PPO是源自TPRO的，因此也会在原理部分介绍TPRO 参考：张伟楠《动手学强化学习》、王树森《深度强化学习》完整代码下载：8_[Gym]CartPole-V0(PPO) 文章目录 1.TPRO（置信域策略优化）方法 1.1朴素策略梯度方法的问题 1.2置信域优化法 1.3TPRO公式推导 1.3.1做近似 1.3.2最大化 1.4小结 2.PPO（近端策略优化）方法 2.1PPO公式推导 2.1.1做近似 2.1.2最大化 2.2伪代码 2.3用PPO方法解决Ca...

VFpNeRYlMszB 2023年11月02日 72 0 0 PPO pytorch 强化学习最优化最优化 TPRO 强化学习 pytorch PPO TPRO