基本概念
Policy function:
Policy function 是一个概率密度函数。
environment 的随机性:
Two Sources of Randomness:
action:
state:
Return:
Discounted return:
discount factor:
价值学习
Action-value function:
Optimal action-value function:
best action:
用神经网络来近似
Temporal Difference (TD) Learning
用
TD target:
Loss:
Gradient descent:
策略学习
State-value function:
用
用策略网络
学习
更新策略:
策略梯度:
形式一:
形式二:
设
Actor-Critic Methods
Policy network (actor):
Value network (critic):
更新
更新
蒙特卡洛
随机抽样,可以用来求
Sarsa 算法
直接求不了期望,所以用蒙特卡洛近似,用观测值
用价值神经网络
TD target:
TD error:
Loss:
Gradient:
Gradient descent:
Q-Learning 算法
Q-learing 用来训练最优动作价值函数
TD target:
通过 DQN
TD target:
TD error:
Update:
Multi-Step TD Target
考虑多个奖励:
Policy Gradient with Baseline
如果