摩杜云开发者社区-摩杜云

无模型的强化学习方法

无模型的强化学习算法学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。动态规划算法需要马尔可夫决策过程是已知的（状态转移函数、奖励函数已知），智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。现实通常并非如此，环境已知恰恰是很少见的。所以这里来看看「无模型的强化学习方法」，主要介绍：基于「时序差分」的Sarsa和Q-learning。时序差分方法时序差分结合了「蒙特卡洛方法」和「动态规划」。在「蒙特卡洛方法」中我们知道，要想估计一个状态的价值，可以以该状态出发，模拟出大量状态转移序列再求得这些序列的期望回报： \[\begin{aligned}V{(...

PfEVswrG0sbF 2024年03月09日 38 0 0 机器学习

求解MDP最优策略——动态规划（笔记）

求解MDP最优策略——动态规划学习「强化学习」（基于这本教材，强动态规划烈推荐）时的一些总结，在此记录一下。动态规划在马尔可夫决策过程环境模型已知（也就是状态转移函数P、奖励函数r已知）的情况下，我们可以通过「动态规划」求得马尔可夫决策过程的最优策略$\pi^$。 1.动态规划对于做过算法题目的同学而言，这个词应该并不陌生，比较经典的「背包问题」就是需要利用「动态规划」。动态规划的思想是：将当前问题分解为子问题，求解并记录子问题的答案，最后从中获得目标解。它通常用于求解「最优」性质的问题。而求解马尔可夫决策过程最优策略的动态规划算法主要有两种：策略迭代价值迭代 2.策略迭代...

PfEVswrG0sbF 2024年03月08日 59 0 0 机器学习

「马尔可夫决策过程」学习笔记

马尔可夫决策过程个人在学习「马尔可夫过程」时（基于这本教材，强烈推荐），做了些总结，并将遇到了一些感到困惑自我解答了，在此整理并记录一下。 1.马尔可夫性质简单的一句话：当前状态只取决于上一时刻的状态。这个视频很生动地解释了这一性质。 2.马尔可夫过程「马尔可夫过程」也叫「马尔可夫链」，可以用元组$(S,P)$来表示，也就是组成马尔可夫过程的这些东西。图中绿圈表示的$s_1,s_2,s_3……$就是状态(state)，所有的状态就组成了状态集合$S$。图中蓝色的那些数字与它所在的箭头就表示了「状态之间的转移概率」。将状态视为节点，转移概率视为单向边，看得出来它就是图结构。...

PfEVswrG0sbF 2024年03月05日 35 0 0 机器学习

A星搜索算法的更多细节

A搜索算法的更多内容 A算法，也许你会习惯称它为「A寻路算法」。许多人大概是因寻路——尤其是「网格地图」寻路认识它的，网上很多教程也是以网格地图为例讲解它的算法实现。这导致了许多人在遇到同样用了A算法的地方，例如GOAP或者基于八叉树的立体空间寻路时会一头雾水：A算法原来有这么多「变种」吗(⊙ˍ⊙)？其实A算法是没有变的，只是我们原先错误地将它与「网络地图」捆绑在了一起。A算法本身是一种搜索算法，这次我们从另一视角看看「A搜索算法」，并一起完成一个更泛用的「A搜索器」，最后再探讨一些常见的正确优化方式与错误优化方式。注意：本文并不会详细将A算法的逻辑原理，希望你至少已了解用于网格地图的A寻路...

PfEVswrG0sbF 2024年02月27日 63 0 0 游戏开发

游戏AI LOD交易员（附项目）

游戏AI的LOD控制这次我们来一同看看AILOD的一个另类控制技术，如果你对AILOD一无所知也没关系，本文会为你们做个科普。但请注意，本文着重讨论其思想，具体实现你们可以参考文末附带的项目，或者去看看原论文。 LOD的概念提到细节层次（LevelofDetails，简写LOD），大家可能首先会想到图像渲染，像游戏中大地图的3D物体会随玩家与其距离的远近而变化精度（主要是模型面数的变化，有时还会直接剔除）。Unity中的「LODGroup」组件就是做这事的。而在游戏中这种变化玩家一般是难以察觉的，毕竟远距离的东西本身就不易看清，再让它「模糊」点也不会怎么样。当然，「穿帮」的时候也不...

PfEVswrG0sbF 2024年02月19日 81 0 0 游戏开发

神经网络训练中的欠拟合、过拟合问题

神经网络训练中的问题神经网络在数据之海中打捞规律，自成模型。这个过程全权由电脑完成，也因此我们担心它是否是一种泛化的模式，在其它「海域」继续工作时，它能否也能得到正确的结果？如何发现可以泛化的模式是机器学习的根本问题。过拟合与欠拟合我们的数据通常分成3份：训练数据：用于神经网络训练的数据；测试数据：神经网络训练完后，用于评估其准确度的数据；验证数据：为了确定候选模型中的最佳模型所用的检验数据。在实际训练中，会有欠拟合和过拟合的情况。我们将神经网络用训练数据计算时的误差称为「训练误差」，用测试数据计算时的误差称为「泛化误差」。那么：当训练误差与泛化误差都很大时，称模型...

PfEVswrG0sbF 2024年01月14日 16 0 0 机器学习