some tips
- 训练的输入数据要做归一化,如果是回归的话输出量最好也做归一化
- predict的输出量如果波动幅度太大的话可以加一个光滑
- 训练的停止之间很关键,可以在predict的转折处停止,记录迭代的次数以及初始权值。
- 如果网络很深,从远端到近端梯度就会变得不清楚,效率变低。
- 有时候训练数据集中没有测试数据集中的特征,就学不会,可以适当将两者交换一部分,但是对于时序信号,要保证每一段有足够长的重复性。
- 深度学习往往利用的是spatial information
- 如果训练集中次次都跑的好要么模型太简单,要么过拟合。
- 训练过程中理想的权重变化应该是 一些w逐渐变大,一些w逐渐变小,然后两者之间会有差距。
- relu的优势是它可以把输入信号更好的表达出来,没有被压缩。
- sigmoid死区可以靠当导数接近0的时候加上一个常数来解决。
- 一定要保证有足够多的initilzation次数
- spatial information + big data => deep learning
- signal attenuation:每层用不同的learning rate
- 要把训练的数据画图出来分析,知道自己到底在train什么。
important references
individual meeting slides