-
full graident
相对sgd容易陷入local minimum,但是深度神经网络的high- dimension representation 不存在很多的local minimum -
sgd
不容易陷入local minimum,因为noise -
mini-batch
常用的 -
使用更大的batch size 降低了convergence的速度,值得注意的是btsize 与gpu显存相关
gradient descent
于 2022-06-15 17:04:21 首次发布