1.模型偏差
-
定义:模型过于简单,无法捕捉数据的真实复杂性。
-
问题:即使找到最佳参数,模型的损失依然较高。
-
解决方案:
-
增加输入特征:如使用56天前的数据而非仅前一天。
-
使用深度学习:增加模型的灵活性和复杂度。
-
2.优化问题
-
问题:梯度下降可能陷入局部最小值,无法找到全局最优解。
-
识别方法:比较不同复杂度的模型在训练数据上的表现。
-
解决方案:
-
尝试不同的优化算法。
-
使用早停、正则化或丢弃法(dropout)。
-
3.过拟合
-
定义:模型在训练数据上表现良好,但在未见过的数据上表现差。
-
原因:模型过于复杂,捕捉了训练数据的噪声。
-
解决方案:
-
增加训练数据。
-
数据增强。
-
限制模型复杂度:如减少参数、使用较少的特征。
-
4.交叉验证
-
方法:将训练数据分成k份,轮流作为验证集,以评估模型的泛化能力。
-
目的:避免过拟合,选择最佳模型。
5.不匹配
-
定义:训练数据和测试数据的分布不一致。
-
问题:增加训练数据也无法改善模型在测试集上的表现。
-
解决方案:
-
理解数据分布的变化。
-
调整模型或数据预处理策略以适应新的数据分布。
-
-
在遇到新问题时,先使用简单的模型或非深度学习方法,确定基线性能。
-
逐步增加模型复杂度,监控训练和验证损失,以识别模型偏差或优化问题。
-
使用交叉验证来选择模型,避免依赖单一的数据划分。
-
注意数据的时间分布和可能的变化,以识别和处理不匹配问题