机器学习
状态空间 标签描述

Q-学习(Q-Learning)是一种无模型的强化学习算法,用于学习在给定状态下采取哪种动作以最大化某种长期收益。其核心是Q-函数,用于评估在特定状态下采取特定动作的价值。 Q-学习的基本原理和步骤包括: Q-函数:Q-函数Q(s,a)代表在状态s下采取动作a所期望的未来收益。这个函数通常通过Q-表来实现,表中的每个元素代表一个状态-动作对的价值。 探索和利用:算法在学习初期倾向于探索(尝试不同的动作以了解它们的影响),随着学习的进行,逐渐转向利用(选择已知会带来高收益的动作)。 学习更新规则:Q-学习通过以下规则更新Q-表:Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)−...

✅作者简介:热爱科研的算法开发者,Python、Matlab项目可交流、沟通、学习。 🍎个人主页:算法工程师的学习日志 离散系统的基本概念 所谓离散系统,是指系统的输入与输出仅在离散的时间上取值,而且离散的时间具有相同的时间间隔。下面给出离散系统更全面的定义。 【定义】离散系统。凡是满足如下条件的系统均为离散系统: (1)系统每隔固定的时间间隔才“更新”一次,即系统的输入与输出每隔固定的时间间隔便改变一次。固定的时间间隔称为系统的“采样”时间。 (2)系统的输出依赖于系统当前的输入、以往的输入与输出,即系统的输出是它们的某种函数。 (3)离散系统具有离散的状态。其中状态指的是系统前一时刻...

✅作者简介:热爱科研的算法开发者,Python、Matlab项目可交流、沟通、学习。 🍎个人主页:算法工程师的学习日志 连续系统的基本概念 与离散系统不同,连续系统是指系统输出在时间上连续变化,而非仅在离散的时刻采样取值。连续系统的应用非常广泛,下面给出连续系统的基本概念。 【定义】 连续系统。 满足如下条件的系统为连续系统: (1)系统输出连续变化。变化的间隔为无穷小量。 (2)对系统的数学描述来说,存在系统输入或输出的微分项(导数项)。 (3)系统具有连续的状态。在离散系统中,系统的状态为时间的离散函数,而连续系统的状态为时间连续量。 连续系统的数学描述 设连续系统的输入变...