PPO算法-chapter1-基础原理

[chapter-1]-基础原理

[PPO 算法]-强化学习基本概念

image

State​:智能体相对于环境的状态,比如图中就有 9 个状态,每个状态可以是 的向量组合

State space​​:状态的集合,一般数学上用花体来表示,表示形式为

Action​:对于每一个状态的可能动作,比如图中左边智能体有五个选项,上下左右或不动

Action space​:动作的集合,一般数学上用花体来表示,表示形式为

State transition​:状态转移,从一个状态经过一个动作换到另外一个状态,可以表示为

可以用表格来表示状态的转移情况:

image

State transition probability​:状态转移概率,即用概率论来描述状态转移情况,如下式

代表智能体通过动作 从状态 转移到状态 的概率为 1;智能体通过动作 从状态状态 转移到状态 的概率为 0,即向右走不到非 的状态

Remark:此案例是确定性(deterministic)案例,真实的案例一般是随机的(stochastic)

Policy​:策略,告诉 action 采用哪一个状态,如绿色箭头

image

策略用条件概率可以表述为

Remark:此案例是确定性(deterministic)案例,还有随机策略,如

策略可以用表格(编程时经常这么做)来呈现,如

image

Reward​:奖励,是一个标量值,采取动作后获得的一个值;正数代表动作鼓励,负数代表动作的惩罚。例如

边界惩罚: ,目标奖励 ,其他情况

Reward 可以理解为 Human-machine interface,即人机交互的一个接口,去引导智能体应该做什么和不应该做什么

Reward 表格直观表示

image

Reward 可以用数学方法来表示,比如如果在状态 采取行动 ,奖励 Reward = -1,则可以表示为

Trajectory​:轨迹,是一个 state-action-reward 的一个链,可以用数学表示为:

Return​:针对一个 Trajectory,是沿着这个 Trajectory 所有 Reward 的总和,量化地去评判哪一个策略比较好

Discounted return​:和折扣因子(discount rate) 结合使用,防止直接计算 Return 导致发散问题。如

Discounted return 可以使得 return 变得收敛,以及均衡更远未来和更近未来的奖励( 接近 0 倾向于更近未来-近视;接近 1 倾向更远未来-远视)

Episode​​:从开始状态,经过一个策略之后到达最终状态(terminal state)所形成的一个轨迹叫做 episode 或 trail

一个 episode 通常是有限步的,这样的任务通常被称为 episodic tasks

有些任务是没有 terminal state 的,这样的任务我们称为 continuing tasks,一般描述任务可以是 episodic tasks 和 continuing tasks,但是可以将 episodic tasks 转换为 continuing tasks

转换方式 1:将目标 state 看成一个特殊的 absorbing state,即到达这个状态之后不论采取任何 action 他都会回到这个状态,或者直接让他在这个状态下的任何 action 的 reward=0

转换方式 2:将目标状态看成是一个普通状态带策略,如果策略好的话他就一直在这个状态,如果策略不好的话可能还会跳出来

MDP(Markov decision process) ​:马尔可夫决策过程,是个框架,包含很多要素,如

  • 集合:

    • 状态:状态的集合
    • 动作:与状态 相关联的动作集合
    • 奖励:奖励的集合
  • 概率分布(或称为系统模型):

    • 状态转移概率:在状态 下,采取动作 ,转移到状态 ​的概率是
    • 奖励概率:在状态 下,采取动作 ,获得奖励 的概率是
    • 策略:在状态 下,选择动作 的概率是
    • 马尔可夫性质:无记忆性质

马尔可夫决策过程最重要的是其无记忆性质,其为后续的概率公式分析提供了很多便利性

如果 policy 一旦确定,那么马尔可夫决策过程就演变成了马尔可夫过程