数据中存在倒“因”为“果”的feature的现象,叫数据竞赛中的Data Leakage。
比如预测一个人是否学习好:
有没有npy | 是否得奖学金 | 是否学习好 |
---|---|---|
1 | 1 | 1 |
0 | 1 | 1 |
1 | 0 | 0 |
是否得奖学金而更像是一个标记,是学习好的“果”,根据这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解是否学习好,没有一点帮助。
数据中存在倒“因”为“果”的feature的现象,叫数据竞赛中的Data Leakage。
比如预测一个人是否学习好:
有没有npy | 是否得奖学金 | 是否学习好 |
---|---|---|
1 | 1 | 1 |
0 | 1 | 1 |
1 | 0 | 0 |
是否得奖学金而更像是一个标记,是学习好的“果”,根据这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解是否学习好,没有一点帮助。