Skip to content

Lec 2 —— Markov Decision Process

截屏2020-03-26 10.34.54

⬆️马尔可夫决策过程

马尔可夫链

截屏2020-03-26 10.36.40

马尔可夫奖励过程

马尔可夫奖励过程 = 马尔可夫链 + 奖励函数

R(s_{t}=s)=\mathbb{E}[r_{t}|s_{t} = s]

Return 的定义

G_{t} = \sum_{i = 0}^n\gamma^iR_{i+1}

Value 函数的定义

V_{t}(s) = \mathbb{E}[G_{t}|s_{t} = s]

\gamma = 0: 只关注当前的奖励

\gamma = 1: 未来奖励和当前奖励相同

计算马尔可夫奖励过程(MRP)的方法

贝尔曼方程:V(s) = R(s) + \gamma\sum_{s'\in S}P(s'|s)V(s')

截屏2020-03-26 10.46.11

求解大型MRP的方法:

  • 动态规划
  • 蒙特卡洛(采样)
  • Temporal-Difference learning(结合1、2)

蒙特卡洛方法

截屏2020-03-26 10.49.48

随机产生多条轨迹,取平均

动态规划方法

截屏2020-03-26 10.52.25

迭代、使收敛

马尔可夫决策过程(MDP)

MDP = MRP + Action

R(s_{t}=s,a_{t} = a) = \mathbb{E}[r_{t}|s_{t}= s,a_{t} = a]

MDP 包含(S, A, P, R, \gamma

Policy

\pi(a|s) = P(a_{t} = a|s_{t} = s)

给定一个MDP(S, A, P, R, \gamma),和一个策略\pi,可以转换为MRP

MDP的Value函数

  • state-value func:
  • \mathbb{v}^\pi(s) = \mathbb{E}_{\pi}[G_{t}|s_{t} = s]
  • Action-value func:
  • q^\pi(s,a) = \mathbb{E}_{\pi}[G_{t}|s_{t} = s, A_{t} = a]
  • 于是得到这两个函数的关系:
  • v^\pi(s) = \sum_{a\in A}\pi(a|s)q^\pi(s,a )

截屏2020-03-26 11.30.04

截屏2020-03-26 11.31.11

截屏2020-03-26 11.31.19

Policy Evalution 评估策略

计算v^\pi(s):与计算v(s)的方法类似

截屏2020-03-26 11.32.52

MDP中的决策过程

  • 预测:输出v^\pi
  • 搜索最优策略:输出最优v^*\pi^*

给定策略

截屏2020-03-26 11.55.27

截屏2020-03-26 11.58.02

搜索策略

policy iteration

\pi^*(s) = argmax_{\pi}v^\pi(s)

截屏2020-03-26 12.00.45

截屏2020-03-26 12.04.06

任意选取\pi,计算出v,根据v计算出q,然后更新\pi

由此可得出最佳的policy

于是当改进停止时,Bellman optimality equation 满足

v^\pi(s) = \max_{a\in A}q^\pi(s,a)
value iteration

仅仅优化value,最后retrieve policy