苛苛浩

安知鱼主题指南 [视频]支持了Accesskey快捷键，可以直接按下shift + ?组合键以查看快捷键选项。 [图片]音乐支持了参数设置自定义歌单关于页的打赏仿了b站的充电功能，使用svg绘图➕一些动画参数移动，应该不会被b站警告吧😜，另外文章也支持了顶部随机b站同款春秋冬banner。React中不能直接修改state的一个重要原因是在性能优化时的prueComponment会进行浅层比较会认为是用一个对象且不能进入队列中批量更新好耶，马上就可以放假回家了！好想家里的好吃的😋！才不是想捏妹妹的脸了全局音乐的动画也处理好了, nice!把页脚, 首页顶部全都魔改到本地了, 方便后续魔改, 音乐也改成胶囊的样式了, 其实还是想让胶囊可拖拽, 不可点击改变歌词位置的, 但是弄了半天都没弄好就放弃了朋友圈船新版本终于写完了, 耶✌️终于把相册集搞定了, 耶✌️, 瀑布流在滑动滚动条一个视口范围上下100的情况执行一次, 到底部停止监听让性能高了好多，再也不会布局混乱🤪了

PPO算法-chapter9-演员评论家方法

荐

PPO算法-chapter9-策略梯度方法

荐

PPO算法-chapter8-值函数近似和DQN

荐

PPO算法-chapter7-时序差分算法

荐

PPO算法-chapter6-随机近似理论和随机梯度下降

荐

PPO算法-chapter5-蒙特卡洛方法

不良人

苛苛浩

首页

编程学习

latex

PPO算法

机器人操作系统

智能算法

控制方法

PPO算法

最新未读

PPO算法-chapter3-贝尔曼最优方程

发表于2025-09-192025-09-20 贝尔曼最优方程

[chapter-3]-贝尔曼最优方程 [PPO 算法]-最优策略和贝尔曼最优方程前言先介绍之前的例子写出贝尔曼方程并求解状态值（设），贝尔曼方程：求解线性方程组，得到 state-value：计算状态的五个动作的动作值动作值：策略不好，我们如何改进它？可以根据动作值来改进策略。特别是，当前策略是观察我们刚刚得到的动作值：如果我们选择最大的动作值，那么，新策略是这种新的好的策略如何去评估？如何迭代得到呢？后续介绍 [PPO 算法]-Optimal Policy 公式定义状态值可以用来评估一个策略是否好：如果那么比更“好” 定义：如果对于所有和任何其他策略，那么说这个策略是最优的，该定义引出许多问题：最优策略是否存在？最优策略是否唯一？最优策略是随机的还是确定性的？如何获得最优策略？为了回答这些问题，下面介绍贝尔曼最优方程。先直接给出数学表达式-贝尔曼最优方程（元素形式）：注：是已知的。是未知的，需 ...

PPO算法

未读

PPO算法-chapter1-基础原理

发表于2025-09-192025-09-19 基础原理

[chapter-1]-基础原理 [PPO 算法]-强化学习基本概念 State：智能体相对于环境的状态，比如图中就有 9 个状态，每个状态可以是的向量组合 State space：状态的集合，一般数学上用花体来表示，表示形式为 Action：对于每一个状态的可能动作，比如图中左边智能体有五个选项，上下左右或不动 Action space：动作的集合，一般数学上用花体来表示，表示形式为 State transition：状态转移，从一个状态经过一个动作换到另外一个状态，可以表示为可以用表格来表示状态的转移情况： State transition probability：状态转移概率，即用概率论来描述状态转移情况，如下式代表智能体通过动作从状态转移到状态的概率为 1；智能体通过动作从状态状态转移到状态的概率为 0，即向右走不到非的状态 Remark：此案例是确定性（deterministic）案例，真实的案例一般是随机的（stochastic） ...

PPO算法

未读

PPO算法-chapter8-值函数近似和DQN

发表于2025-09-192025-09-20 值函数近似和DQN

[chapter-8]-值函数近似 [PPO算法]-值函数近似和DQN 前言迄今为止，本书中状态值与动作值均用表格表示。例如，动作值：例如，状态值：状态值优点：直观且易于分析。缺点：难以处理大规模或连续的状态或动作空间，主要体现在两个方面：存储：表格大小随状态/动作数量线性增长，内存开销大；泛化能力：无法对未见过的状态或动作进行合理估值。考虑一个例子：有个状态：。这些状态在策略下的值为。非常大！我们希望用一条简单的曲线来近似这些值。例如，可以使用支线来拟合这些点： ‍ 设这条直线的方程为其中为参数向量；为状态的特征向量；对是线性 ...

PPO算法

未读

PPO算法-chapter9-演员评论家方法

发表于2025-09-192025-09-20 演员评论家方法

[chapter-10]-Actor-Critic方法 [PPO算法]-演员评论家AC方法介绍前言 Actor-Critic 方法仍属于策略梯度方法它们突出融合了策略梯度与基于价值方法的结构。 “Actor”与“Critic”分别指什么？ Actor：负责策略更新。因其策略将直接用于执行动作，故称“演员”。 Critic：负责策略评估或价值估计。因其通过评估来评判策略好坏，故称“评论家”。最简单的AC 回顾上节课介绍的策略梯度思想定义标量指标，可为或：最大化的梯度上升算法：随机梯度上升算法： Actor：上述策略参数更新部分！ Critic：负责估计的部分！如何获得？目前，我们已学习两种估计动作价值的方法：蒙特卡洛（MC）学习：若使用 MC，对应算法称为 REINFORCE 或蒙特卡洛策略梯度，上节课已介绍。时序差分（TD）学习：若使用 TD，这类算法通常称为 Actor-Critic，本节课将介绍。最简单的 Actor-C ...

PPO算法

未读

PPO算法-chapter4-值迭代和策略迭代

发表于2025-09-192025-09-20 值迭代和策略迭代

[chapter-4]-值迭代和策略迭代 [PPO 算法]-基于模型的算法-值迭代和策略迭代值迭代（Value Iteration）如何解决贝尔曼最优方程？压缩映射定理提出了一种迭代算法：其中可以是任意的。这个算法最终可以找到最优状态值和最优策略。这种算法称为值迭代接下来研究这种算法的实现，其可以分解为两个步骤。步骤1：策略更新。这一步是求解其中是给定的。步骤2：值更新。问题：是状态值吗？不是，因为不能确保满足贝尔曼方程。策略更新逐元素形式的是解决上述优化问题的最优策略是其中。被称为贪心策略，因为它简单地选择最大的 -值。值更新逐元素形式的是由于是贪婪的，上述方程简化为根据上面的步骤，可以得到如下的伪代码伪代码：值迭代算法初始化：已知所有的概率模型和。初始猜测。目标：搜索解决贝尔曼最优方程的最优状态值和最优策略。当未收敛，即大于预定义的小阈值时，对于第次迭代，执行以下 ...

PPO算法

未读

PPO算法-chapter7-时序差分算法

发表于2025-09-192025-09-20 时序差分算法

[chapter-7]-时序差分算法需要注意的是，其中上标仅表示的不同分解结构 [PPO算法]-TD-时序差分算法前言我们接下来考虑一些随机问题，并展示如何使用 RM 算法来解决它们。首先，重新审视均值估计问题：基于一些独立同分布样本计算我们上节课已经研究过这个问题。通过写出，我们可以将问题重新表述为一个求根问题由于我们只能获得的样本，噪声观测值为根据上节课的内容，我们知道解决的 RM 算法是其次，考虑一个稍微复杂的问题。即基于的一些独立同分布样本来估计函数的均值，为了解决这个问题，我们定义然后，问题变为一个求根问题：。相应的 RM 算法是第三，考虑一个更复杂的问题：计算其中是随机变量，是常数，是一个函数。假设我们可以获得和的样本和。我们定义然后，问题变为一个求根问题：。相应的 RM 算法是这个算法看起来像后面展示的 TD 算法。 TD之状态值 ...

PPO算法

未读

PPO算法-chapter9-策略梯度方法

发表于2025-09-192025-09-20 策略梯度方法

[chapter-9]-策略梯度方法 [PPO算法]-策略梯度-梯度上升和Reinfore 前言此前，策略一直以表格形式表示：所有状态的动作概率存储在一张表中，表的每个条目由状态-动作对索引。现在，策略也可以用带参数的函数表示：其中是参数向量。该函数可以是神经网络，输入为状态，输出为执行每个动作的概率，参数为。优点：当状态空间很大时，表格表示在存储和泛化方面效率低下。函数表示有时也写作、或。表格表示与函数表示的差异：首先，如何定义最优策略？在表格情形中，策略最优当且仅当它能最大化每个状态的价值。在函数情形中，策略最优当且仅当它能最大化某个标量指标。其次，如何获取某个动作的概率？在表格情形中，可直接查表获得在状态下采取动作的概率。在函数情形中，需根据函数结构与 ...

PPO算法

未读

PPO算法-chapter5-蒙特卡洛方法

发表于2025-09-192025-09-20 蒙特卡洛方法

[chapter-5]-蒙特卡洛方法 [PPO 算法]-一种model-free的方法-蒙特卡洛方法前言老规矩，先给出一个示例：抛硬币问题结果（正面或反面）表示为随机变量：如果结果是正面，则如果结果是反面，则目标是计算。方法1：使用模型假设已知概率模型为根据定义问题：可能无法知道精确的分布！方法2：无模型或称为模型无关想法：多次抛硬币，然后计算结果的平均值。假设我们得到一个样本序列：。那么均值可以近似为这就是蒙特卡洛估计的思想！数学依据大数定律对于一个随机变量，假设是一些独立同分布（iid）样本。令为样本的平均值。那么，因此，是的无偏估计，并且其方差随着增加到无穷大而趋近于零。 MC算法介绍回顾策略迭代步骤策略迭代在每次迭代中有两个步骤：策略评估：策略改进：策略改进步骤的逐元素形式是：关键是计算从model-based到model-free 两种动作值的表达式： ...

PPO算法

未读

PPO算法-chapter6-随机近似理论和随机梯度下降

发表于2025-09-192025-09-20 随机近似理论和随机梯度下降

[chapter-6]-随机近似理论和随机梯度下降 [PPO算法]-随机近似和随机梯度下降前言重新审视均值估计问题：考虑一个随机变量。假设我们收集了一组独立同分布样本。我们的目标是估计。的期望可以通过以下方式近似这种近似是蒙特卡洛估计的基本思想。我们知道当。为什么我们如此关心均值估计？强化学习中的许多量如动作值和梯度都是定义为期望值！新问题：如何计算均值？我们有两种方法。第一种方法是收集所有样本然后计算平均值。这种方法的缺点是，如果样本是逐个收集的，我们必须等待所有样本收集完毕。第二种方法可以避免这种缺点，因为它以增量和迭代的方式计算平均值。特别地，假设因此那么可以用表示为因此，我们得到以下迭代算法：验证：我们可以使用来递增计算均值：关于该算法的说明：该算法的优势是增量的。一旦收到样本，即可立即获得均值估计。然后，均值估计可以立即用于其他目的。由于样本不足，开始时均值估计不准确（ ...

PPO算法

未读

PPO算法-chapter2-贝尔曼方程

发表于2025-07-282025-09-20 贝尔曼方程

[chapter-2]-贝尔曼方程 [PPO 算法]-贝尔曼方程前言 return 是非常重要的，可以去评估策略，是建立起数学和直观感觉的纽带，先看例子：哪一个策略最好，哪个策略最差？可以用数学去表达，即用计算 return 来评估 return（注意一般所说的 return 指的是 discounted return，涉及到无穷级数求和数学知识）注意这里只计算第三个轨迹的 return 为例，因为其是随机的：如何去计算reward？对于下面的轨迹来说：方法1：设表示从开始获得的return 方法2(Bootstrapping)：这种方法叫做自举，从自己出发得到自己，类似于递归用矩阵来表示为：可以简写为：这就是确定性策略的贝尔曼公式，可以用线性代数求解此线性方程组 State Value 考虑以下单步过程：：离散时间实例：时间的状态：在状态采取的动作：采取后获得的奖励：采取后转换到的状态注意都是随机变量。这一步由以下概率分 ...

Bohao Zhao