数据挖掘
小魏要学习
非全部原创,自我学习提升使用。
展开
-
实习总结
2019年5月开始在武汉某公司大数据部,做大数据开发的实习生,方向是数据挖掘和预测建模方向。 目标用户流失预测模型,保证召回率。 因为是用户流失预测,所以线性用逻辑回归,非线性用XGboost算法。 因为流失与不流失容易数据不平衡,类别基本只要超过4:1就是数据不平衡了,所以需要用过采样、欠采样等方法来处理数据。 #欠采样 def down_sample(train): train1=train[...原创 2019-06-19 17:13:28 · 207 阅读 · 4 评论 -
《大数据挖掘与统计机器学习》
统计前期看模型所得结果的性质,都是手工计算,得到置信区间、相合性等等。这些性质有时候依赖于中心极限定理或大样本定理得到的当样本趋于无穷的理论性质。 (ps:中心极限定理是说样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。) 统计学习方法分为两种,有监督学习和无监督学习。 有监督学习,数据中有明确的目标变量Y,如果Y是连续型...原创 2019-07-01 11:48:05 · 1493 阅读 · 0 评论