1. 优化问题 2. 局部最小 vs 全局最小 3. 凸集 4. 凸函数 5. 凸函数优化 6. 凸和非凸例子 7. 梯度下降 8. 随机梯度下降 9. 小批量随机梯度下降 10. 冲量法 11. Adam 12. 总结 深度学习模型大多是非凸小批量随机梯度下降是最常用的优化算法冲量对梯度做平滑Adam对梯度做平滑,且对梯度的各个维度值做重新调整