强化学习
刘皓铭

基本概念

Policy function:

Policy function 是一个概率密度函数。

environment 的随机性:

Two Sources of Randomness:

action:

state:

Return:

Discounted return:

discount factor: (超参数)

价值学习

Action-value function:

Optimal action-value function:

best action:

用神经网络来近似

Temporal Difference (TD) Learning

来近似 是神经网络的参数。

TD target:

Loss:

Gradient descent:

策略学习

State-value function:

(离散)

(连续)

来评估 policy

用策略网络 来近似 为需要训练的参数。同时,

学习 来最大化

更新策略:

策略梯度:

形式一:

形式二:

,得 。这里用蒙特卡洛近似来计算期望:随机抽样 来计算 ,从而进行更新,

Actor-Critic Methods

Policy network (actor):

Value network (critic):

更新 来增大 ,监督基于 value network (critic)。

更新 来更好的估计回报 return。

蒙特卡洛

随机抽样,可以用来求 ,求定积分,求期望。

Sarsa 算法

直接求不了期望,所以用蒙特卡洛近似,用观测值 来近似,近似值 即为 TD target

用价值神经网络 来近似

TD target:

TD error:

Loss:

Gradient:

Gradient descent:

Q-Learning 算法

Q-learing 用来训练最优动作价值函数 然后用蒙特卡洛近似:

TD target:

通过 DQN 来近似

TD target:

TD error:

Update:

Multi-Step TD Target

考虑多个奖励: 对于 Sarsa: 对于 Q-learning:

Policy Gradient with Baseline

如果 独立,则有: policy gradient 可改写 为:

 评论