机器学习
├── 统计学习
│ ├── 监督学习
│ │ ├── 分类算法
│ │ │ ├── 感知机
│ │ │ ├── kNN
│ │ │ ├── 决策树
│ │ │ ├── 逻辑回归
│ │ │ ├── 支持向量机
│ │ │ └── 提升方法(AdaBoost, GBDT)
│ │ ├── 回归算法
│ │ └── 序列标注
│ │ ├── 隐马尔可夫模型(HMM)
│ │ └── 条件随机场(CRF)
│ ├── 无监督学习
│ │ ├── 聚类
│ │ │ ├── K-Means
│ │ │ ├── 层次聚类
│ │ │ └── 密度聚类
│ │ └── 降维
│ └── 统学习特性
│ ├── 概率模型
│ ├── 损失函数选择
│ └── 模型选择与正则化
│
├── 深度学习
│ ├── 基础网络
│ │ ├── 反向传播
│ │ ├── 手动求导
│ │ ├── 自动求导框架
│ │ └── 优化算法(SGD/Adam)
│ ├── 卷积神经网络(CNN)
│ │ ├── 卷积层
│ │ ├── 池化层
│ │ ├── 常见架构
│ │ │ ├── LeNet
│ │ │ ├── AlexNet
│ │ │ ├── VGG
│ │ │ └── ResNet
│ │ └── 应用
│ │ ├── 计算机视觉
│ │ ├── 目标检测
│ │ └── 图像分割
│ ├── 序列模型
│ │ ├── RNN/LSTM
│ │ ├── Seq2Seq
│ │ ├── 注意力机制
│ │ └── Transformer
│ ├── 高级主题
│ │ ├── 计算性能优化
│ │ ├── 分布式训练
│ │ ├── 模型压缩
│ │ └── 部署与推理
│
└── 强化学习
├── 基础理论
│ ├── 马尔可夫决策过程(MDP)
│ ├── 状态值函数
│ ├── 贝尔曼方程
│ └── 策略
├── 传统方法
│ ├── 动态规划
│ │ ├── 值迭代
│ │ └── 策略迭代
│ ├── 蒙特卡洛方法(MC)
│ └── 时序差分(TD)
│
├── 策略梯度方法
│ ├── REINFORCE
│ ├── Actor-Critic
│ │ ├── AC
│ │ ├── A3C/A2C
│ │ ├── PPO
│ │ └── DPO
│ └── 高级算法
│
└── 应用场景
├── 游戏AI
├── 机器人控制
├── 推荐系统
└── 自动驾驶
图表说明: