![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 79
Affiny_L
这个作者很懒,什么都没留下…
展开
-
建模中需要注意的问题
前言 在完善随机森林模型的过程中遇到了大佬的指点,指出模型中需要关注一个叫“特征穿越”的问题,特别搜了一下,把内容码在这里,有机会细细整理。 这篇文章将会介绍一下量化建模时常见的数据穿越问题。 何为数据穿越?对于t时刻训练得到的模型必须用t时刻之前的数据训练,如果t时刻用到t时刻以后的数据则会产生数据穿越问题。我碰到比较多的数据穿越问题主要有三种:1.训练集和测试集有交叉;2. 特征穿越;3. 数据筛选穿越。 训练集和测试集有交叉 即训练集中混入了部分测试集。排除代码写错的情况下,有时候也会很容易犯这种错转载 2021-06-07 14:45:10 · 761 阅读 · 0 评论 -
数据集抽样方法
前言 进行模型的训练前,挑选训练集和测试集也非常重要,即抽样方法,一个好的抽样方法需要保证两个数据集数据分布的一致性,例如在分类中至少要保持样本的比例类似。下面列出几种常见的做法。 1.留出法 “留出法”直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。 需要注意的是,训练/测试集的划分要尽可能保证两个数据集数据分布的一致性,例如在分类中至少要保持样本的比例类似。 另一个需要注意的问题是,即便在给定训练/测试集的样本比例后,仍然存在许多划分方式对原始数据集D进行分割。例如可原创 2021-05-23 15:05:40 · 1437 阅读 · 0 评论