04-强化学习数学原理-7天计划.md 1014 B

《强化学习的数学原理》 - 7天学习计划

第1天:数学基础与状态值函数

  • 贝尔曼方程基础
  • 状态值函数定义
  • MDP(马尔可夫决策过程)
  • 链式法则与贝尔曼递推

第2天:最优状态值与贝尔曼最优方程

  • 最优值函数定义
  • Bellman最优方程
  • 迭代算法
  • 策略与值的收敛性

第3天:值迭代与策略迭代

  • 值迭代算法详解
  • 策略迭代算法详解
  • 算法比较与选择
  • 实现示例(Python)

第4天:蒙特卡洛方法

  • 蒙特卡洛方法概论
  • MC预测算法
  • MC控制算法(GPI)
  • 采样偏差问题

第5天:随机近似

  • 随机梯度下降基础
  • 时序差分方法
  • TD(0)算法
  • TD(λ)与蒙特卡洛的比较

第6天:策略梯度方法

  • 策略梯度定理
  • REINFORCE算法
  • 基准函数(Baseline)
  • Actor-Critic架构

第7天:高级策略梯度与总结

  • Actor-Critic方法详解
  • A3C、A2C算法
  • PPO和DPO算法简介
  • 强化学习数学总结与延伸