数据库
PPO 标签描述

本文介绍PPO这个onlineRL的经典算法,并在CartPole-V0上进行测试。由于PPO是源自TPRO的,因此也会在原理部分介绍TPRO 参考:张伟楠《动手学强化学习》、王树森《深度强化学习》 完整代码下载:8_[Gym]CartPole-V0(PPO) 文章目录 1.TPRO(置信域策略优化)方法 1.1朴素策略梯度方法的问题 1.2置信域优化法 1.3TPRO公式推导 1.3.1做近似 1.3.2最大化 1.4小结 2.PPO(近端策略优化)方法 2.1PPO公式推导 2.1.1做近似 2.1.2最大化 2.2伪代码 2.3用PPO方法解决Ca...