batch :
当batch size是整个训练集时,就是纯正的梯度下降法
当batch size为1时,就是纯正的随机梯度下降法。
当batch size介于1和整个训练集时,就是实际程序里用到的,那么我就此推测,batch越大应该才越接近于真正的梯度下降算法,结果应该会更好些。
epoch:
epoch是什么呢,epoch是要设定的一个参数,可以设定为从1到无穷大,一个epoch意味着训练集中每一个样本都参与训练了一次。
比如训练集有50000个样本,而我设定的batch size是50,也就是说每50个样本才更新一次参数,那么也就意味着一个epoch里会提取1000次bach,这样才会把每个样本都提取了一遍,更新了1000此参数。这是一个epoch里做的,一次类推,我要设定2000个epoch意味着把这个过程重复2000次。也就是训练集里的每个样本都被提取了2000次。