BGD:每次迭代都需要用到所有样本。优点:可以收敛到全局最优解,但是当样本数很多时,收敛速度慢
SGD:每次迭代都只使用一个样本。优点:如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,训练速度快。缺点:并不是每次迭代都向着整体最优化方向,更容易从一个局部最优跳到另一个局部最优。迭代的次数较多,准确度下降
BGD:每次迭代都需要用到所有样本。优点:可以收敛到全局最优解,但是当样本数很多时,收敛速度慢
SGD:每次迭代都只使用一个样本。优点:如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,训练速度快。缺点:并不是每次迭代都向着整体最优化方向,更容易从一个局部最优跳到另一个局部最优。迭代的次数较多,准确度下降