PPO算法-chapter1-基础原理

Bohao Zhao2025-09-192025-09-19

[chapter-1]-基础原理

[PPO 算法]-强化学习基本概念

State：智能体相对于环境的状态，比如图中就有 9 个状态，每个状态可以是的向量组合

State space：状态的集合，一般数学上用花体来表示，表示形式为

Action：对于每一个状态的可能动作，比如图中左边智能体有五个选项，上下左右或不动

Action space：动作的集合，一般数学上用花体来表示，表示形式为

State transition：状态转移，从一个状态经过一个动作换到另外一个状态，可以表示为

可以用表格来表示状态的转移情况：

State transition probability：状态转移概率，即用概率论来描述状态转移情况，如下式

代表智能体通过动作从状态转移到状态的概率为 1；智能体通过动作从状态状态转移到状态的概率为 0，即向右走不到非的状态

Remark：此案例是确定性（deterministic）案例，真实的案例一般是随机的（stochastic）

Policy：策略，告诉 action 采用哪一个状态，如绿色箭头

策略用条件概率可以表述为

Remark：此案例是确定性（deterministic）案例，还有随机策略，如

策略可以用表格（编程时经常这么做）来呈现，如

Reward：奖励，是一个标量值，采取动作后获得的一个值；正数代表动作鼓励，负数代表动作的惩罚。例如

边界惩罚：，目标奖励，其他情况

Reward 可以理解为 Human-machine interface，即人机交互的一个接口，去引导智能体应该做什么和不应该做什么

Reward 表格直观表示

Reward 可以用数学方法来表示，比如如果在状态采取行动，奖励 Reward = -1，则可以表示为

Trajectory：轨迹，是一个 state-action-reward 的一个链，可以用数学表示为：

Return：针对一个 Trajectory，是沿着这个 Trajectory 所有 Reward 的总和，量化地去评判哪一个策略比较好

Discounted return：和折扣因子(discount rate) 结合使用，防止直接计算 Return 导致发散问题。如

Discounted return 可以使得 return 变得收敛，以及均衡更远未来和更近未来的奖励（接近 0 倾向于更近未来-近视；接近 1 倾向更远未来-远视）

Episode：从开始状态，经过一个策略之后到达最终状态(terminal state)所形成的一个轨迹叫做 episode 或 trail

一个 episode 通常是有限步的，这样的任务通常被称为 episodic tasks

有些任务是没有 terminal state 的，这样的任务我们称为 continuing tasks，一般描述任务可以是 episodic tasks 和 continuing tasks，但是可以将 episodic tasks 转换为 continuing tasks

转换方式 1：将目标 state 看成一个特殊的 absorbing state，即到达这个状态之后不论采取任何 action 他都会回到这个状态，或者直接让他在这个状态下的任何 action 的 reward=0

转换方式 2：将目标状态看成是一个普通状态带策略，如果策略好的话他就一直在这个状态，如果策略不好的话可能还会跳出来

MDP（Markov decision process） ：马尔可夫决策过程，是个框架，包含很多要素，如

集合：

状态：状态的集合

动作：与状态相关联的动作集合

奖励：奖励的集合

概率分布（或称为系统模型）：

状态转移概率：在状态下，采取动作，转移到状态的概率是

奖励概率：在状态下，采取动作，获得奖励的概率是

策略：在状态下，选择动作的概率是

马尔可夫性质：无记忆性质

马尔可夫决策过程最重要的是其无记忆性质，其为后续的概率公式分析提供了很多便利性

如果 policy 一旦确定，那么马尔可夫决策过程就演变成了马尔可夫过程