摩杜云开发者社区-摩杜云

强化学习之路一 QLearning 算法

Q-Learning算法理论 Q-Learning是一种强化学习算法，用于学习在给定状态下采取不同行动的最佳策略。其公式如下： \(Q(s,a)\leftarrow(1\alpha)\cdotQ(s,a)+\alpha\cdot(r+\gamma\cdot\max_{a'}Q(s',a'))\) 其中，\(Q(s,a)\)是在状态\(s\)下采取行动\(a\)的预期回报，\(\alpha\)是学习率，\(r\)是在状态\(s\)下采取行动\(a\)的即时回报，\(\gamma\)是折扣因子，\(s'\)是采取行动\(a\)后得到的新状态。\(\max_{a'}Q(s',a')\)是在新状态\...

kHrt3S7RB4bf 2023年11月01日 38 0 0 AI综合

关注更多

空空如也 ~ ~

粉丝更多

空空如也 ~ ~