数据挖掘
yyqq188
这个作者很懒,什么都没留下…
展开
-
如何解决机器学习中的数据不平衡问题
越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难,数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一 数据不平衡在学术研究和教学中,很多算法都有一个基本假设,就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时,大多数情况下都无法取得理想的结果,因为实际数据往往分布的很不均衡,都存在长尾效应。可以看到大部分微博的总互动数(被转发,评论和点赞原创 2018-02-26 14:28:47 · 5254 阅读 · 0 评论 -
通过flume进行简单的ETL工作
一般提起大数据的实时流处理,我们首先会想到复杂的storm spark kafka 等等,但是如果只是针对单条记录进行简单的ETL运算,使用Flume+Morphlines不失为一种优雅简约的方法flume是apache开源的项目,是一个分布式的,可靠的软件系统,主要是从大量的分散的数据源中收集,汇聚以及迁移大规模的日志数据,最后存储到一个集中的数据系统中。flume是由运行在不同主机系原创 2018-02-26 18:18:21 · 3756 阅读 · 0 评论 -
如何解决机器学习中的数据不平衡问题
越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难,数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一 数据不平衡在学术研究和教学中,很多算法都有一个基本假设,就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时,大多数情况下都无法取得理想的结果,因为实际数据往往分布的很不均衡,都存在长尾效应。可以看到大部分微博的总互动数(被转发,评论和点赞原创 2018-03-12 17:33:53 · 228 阅读 · 0 评论