《强化学习的数学原理》 - 7天学习计划

第1天：数学基础与状态值函数

贝尔曼方程基础
状态值函数定义
MDP（马尔可夫决策过程）
链式法则与贝尔曼递推

第2天：最优状态值与贝尔曼最优方程

最优值函数定义
Bellman最优方程
迭代算法
策略与值的收敛性

第3天：值迭代与策略迭代

值迭代算法详解
策略迭代算法详解
算法比较与选择
实现示例（Python）

第4天：蒙特卡洛方法

蒙特卡洛方法概论
MC预测算法
MC控制算法（GPI）
采样偏差问题

第5天：随机近似

随机梯度下降基础
时序差分方法
TD(0)算法
TD(λ)与蒙特卡洛的比较

第6天：策略梯度方法

策略梯度定理
REINFORCE算法
基准函数（Baseline）
Actor-Critic架构

第7天：高级策略梯度与总结

Actor-Critic方法详解
A3C、A2C算法
PPO和DPO算法简介
强化学习数学总结与延伸