《强化学习的数学原理》 - 7天学习计划
第1天:数学基础与状态值函数
- 贝尔曼方程基础
- 状态值函数定义
- MDP(马尔可夫决策过程)
- 链式法则与贝尔曼递推
第2天:最优状态值与贝尔曼最优方程
- 最优值函数定义
- Bellman最优方程
- 迭代算法
- 策略与值的收敛性
第3天:值迭代与策略迭代
- 值迭代算法详解
- 策略迭代算法详解
- 算法比较与选择
- 实现示例(Python)
第4天:蒙特卡洛方法
- 蒙特卡洛方法概论
- MC预测算法
- MC控制算法(GPI)
- 采样偏差问题
第5天:随机近似
- 随机梯度下降基础
- 时序差分方法
- TD(0)算法
- TD(λ)与蒙特卡洛的比较
第6天:策略梯度方法
- 策略梯度定理
- REINFORCE算法
- 基准函数(Baseline)
- Actor-Critic架构
第7天:高级策略梯度与总结
- Actor-Critic方法详解
- A3C、A2C算法
- PPO和DPO算法简介
- 强化学习数学总结与延伸