无模型的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 动态规划算法需要马尔可夫决策过程是已知的(状态转移函数、奖励函数已知),智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。 现实通常并非如此,环境已知恰恰是很少见的。所以这里来看看「无模型的强化学习方法」,主要介绍:基于「时序差分」的Sarsa和Q-learning。 时序差分方法 时序差分结合了「蒙特卡洛方法」和「动态规划」。在「蒙特卡洛方法」中我们知道,要想估计一个状态的价值,可以以该状态出发,模拟出大量状态转移序列再求得这些序列的期望回报: \[\begin{aligned}V{(...

  PfEVswrG0sbF   2024年03月09日   38   0   0 机器学习

求解MDP最优策略——动态规划 学习「强化学习」(基于这本教材,强动态规划烈推荐)时的一些总结,在此记录一下。动态规划 在马尔可夫决策过程环境模型已知(也就是状态转移函数P、奖励函数r已知)的情况下,我们可以通过「动态规划」求得马尔可夫决策过程的最优策略\(\pi^\)。 1.动态规划 对于做过算法题目的同学而言,这个词应该并不陌生,比较经典的「背包问题」就是需要利用「动态规划」。动态规划的思想是:将当前问题分解为子问题,求解并记录子问题的答案,最后从中获得目标解。它通常用于求解「最优」性质的问题。 而求解马尔可夫决策过程最优策略的动态规划算法主要有两种: 策略迭代 价值迭代 2.策略迭代...

  PfEVswrG0sbF   2024年03月08日   59   0   0 机器学习

马尔可夫决策过程 个人在学习「马尔可夫过程」时(基于这本教材,强烈推荐),做了些总结,并将遇到了一些感到困惑自我解答了,在此整理并记录一下。 1.马尔可夫性质 简单的一句话:当前状态只取决于上一时刻的状态。这个视频很生动地解释了这一性质。 2.马尔可夫过程 「马尔可夫过程」也叫「马尔可夫链」,可以用元组\((S,P)\)来表示,也就是组成马尔可夫过程的这些东西。 图中绿圈表示的$s_1,s_2,s_3……$就是状态(state),所有的状态就组成了状态集合\(S\)。图中蓝色的那些数字与它所在的箭头就表示了「状态之间的转移概率」。将状态视为节点,转移概率视为单向边,看得出来它就是图结构。...

  PfEVswrG0sbF   2024年03月05日   35   0   0 机器学习

A搜索算法的更多内容 A算法,也许你会习惯称它为「A寻路算法」。许多人大概是因寻路——尤其是「网格地图」寻路认识它的,网上很多教程也是以网格地图为例讲解它的算法实现。这导致了许多人在遇到同样用了A算法的地方,例如GOAP或者基于八叉树的立体空间寻路时会一头雾水:A算法原来有这么多「变种」吗(⊙ˍ⊙)?其实A算法是没有变的,只是我们原先错误地将它与「网络地图」捆绑在了一起。A算法本身是一种搜索算法,这次我们从另一视角看看「A搜索算法」,并一起完成一个更泛用的「A搜索器」,最后再探讨一些常见的正确优化方式与错误优化方式。 注意:本文并不会详细将A算法的逻辑原理,希望你至少已了解用于网格地图的A寻路...

  PfEVswrG0sbF   2024年02月27日   63   0   0 游戏开发

游戏AI的LOD控制 这次我们来一同看看AILOD的一个另类控制技术,如果你对AILOD一无所知也没关系,本文会为你们做个科普。但请注意,本文着重讨论其思想,具体实现你们可以参考文末附带的项目,或者去看看原论文。 LOD的概念 提到细节层次(LevelofDetails,简写LOD),大家可能首先会想到图像渲染,像游戏中大地图的3D物体会随玩家与其距离的远近而变化精度(主要是模型面数的变化,有时还会直接剔除)。Unity中的「LODGroup」组件就是做这事的。 而在游戏中这种变化玩家一般是难以察觉的,毕竟远距离的东西本身就不易看清,再让它「模糊」点也不会怎么样。当然,「穿帮」的时候也不...

  PfEVswrG0sbF   2024年02月19日   81   0   0 游戏开发

神经网络训练中的问题 神经网络在数据之海中打捞规律,自成模型。这个过程全权由电脑完成,也因此我们担心它是否是一种泛化的模式,在其它「海域」继续工作时,它能否也能得到正确的结果?如何发现可以泛化的模式是机器学习的根本问题。 过拟合与欠拟合 我们的数据通常分成3份: 训练数据:用于神经网络训练的数据; 测试数据:神经网络训练完后,用于评估其准确度的数据; 验证数据:为了确定候选模型中的最佳模型所用的检验数据。 在实际训练中,会有欠拟合和过拟合的情况。我们将神经网络用训练数据计算时的误差称为「训练误差」,用测试数据计算时的误差称为「泛化误差」。那么: 当训练误差与泛化误差都很大时,称模型...

  PfEVswrG0sbF   2024年01月14日   16   0   0 机器学习
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~