1、
丢弃一些不能帮助我们正确预测的特征。
可以是手工选择保留哪些特征 或者使用一些模型选择的算法来帮忙(例如 PCA)
2、归一化。
保留所有的特征,但是减少参数的大小(magnitude)
第一件要做的事是选择网络结构,即决定选择多少层以及决定每层分别有多少个单元。
第一层的单元数即我们训练集的特征数量。
最后一层的单元数是我们训练集的结果的类的数量。
如果隐藏层数大于 1,确保每个隐藏层的单元个数相同,通常情况下隐藏层单元的个
数越多越好。