# 《强化学习的数学原理》 - 7天学习计划 ## 第1天:数学基础与状态值函数 - 贝尔曼方程基础 - 状态值函数定义 - MDP(马尔可夫决策过程) - 链式法则与贝尔曼递推 ## 第2天:最优状态值与贝尔曼最优方程 - 最优值函数定义 - Bellman最优方程 - 迭代算法 - 策略与值的收敛性 ## 第3天:值迭代与策略迭代 - 值迭代算法详解 - 策略迭代算法详解 - 算法比较与选择 - 实现示例(Python) ## 第4天:蒙特卡洛方法 - 蒙特卡洛方法概论 - MC预测算法 - MC控制算法(GPI) - 采样偏差问题 ## 第5天:随机近似 - 随机梯度下降基础 - 时序差分方法 - TD(0)算法 - TD(λ)与蒙特卡洛的比较 ## 第6天:策略梯度方法 - 策略梯度定理 - REINFORCE算法 - 基准函数(Baseline) - Actor-Critic架构 ## 第7天:高级策略梯度与总结 - Actor-Critic方法详解 - A3C、A2C算法 - PPO和DPO算法简介 - 强化学习数学总结与延伸