# 《强化学习的数学原理》 - 7天学习计划

## 第1天：数学基础与状态值函数
- 贝尔曼方程基础
- 状态值函数定义
- MDP（马尔可夫决策过程）
- 链式法则与贝尔曼递推

## 第2天：最优状态值与贝尔曼最优方程
- 最优值函数定义
- Bellman最优方程
- 迭代算法
- 策略与值的收敛性

## 第3天：值迭代与策略迭代
- 值迭代算法详解
- 策略迭代算法详解
- 算法比较与选择
- 实现示例（Python）

## 第4天：蒙特卡洛方法
- 蒙特卡洛方法概论
- MC预测算法
- MC控制算法（GPI）
- 采样偏差问题

## 第5天：随机近似
- 随机梯度下降基础
- 时序差分方法
- TD(0)算法
- TD(λ)与蒙特卡洛的比较

## 第6天：策略梯度方法
- 策略梯度定理
- REINFORCE算法
- 基准函数（Baseline）
- Actor-Critic架构

## 第7天：高级策略梯度与总结
- Actor-Critic方法详解
- A3C、A2C算法
- PPO和DPO算法简介
- 强化学习数学总结与延伸