- 博客(1)
- 收藏
- 关注
转载 机器学习中如何解决样本不均衡的问题?
很多机器学习算法都有一个基本假设,就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时,大多数情况下都无法取得理想的结果,因为实际数据往往分布的很不均衡,都存在长尾效应。举个例子,大部分(假如是97%以上)的微博的总互动数(包括被转发,评论和点赞数量)都在0~5之间,交互数多的微博(多于100)非常的少,如果我们去预测一条微博交互数所在档位,预测器只需要把所有微博预测为第一档(0-5)就能...
2020-03-06 16:50:59 355 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人