2015年09月_专注成就专业_

09月 08月 07月 06月 05月 03月

原创定制带第三方库的python，解决spark/hadoop环境中sklearn的调用问题

Conda, Miniconda (Python)这是一个python定制的好工具。忙活了一整天，终于发现了它，这个工具可以让我们定制python和对应的第三方的库，方便我们在不同机器上执行这些第三方的库。http://scikit-learn.org/stable/install.htmlconda/condahttps://github.com/conda/condaMinic

2015-09-29 20:53:55 5029 1

原创随机森林（random forest）可以解决样本分布不均匀维度大且特征缺失的问题

随机森林的定义：上世纪八十年代Breiman等人发明分类树的算法（Breiman et al. 1984），通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林（Breiman 2001a），即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感

2015-09-20 17:02:59 38636 4

原创处理样本分布不平衡，偏斜比较厉害的方法总结

由于，之前一直从事数据挖掘和机器学习方面的学习和工作。在学习和工作中经常会遇到训练的样本中的各个类别的数量存在比较大的差异，而这种差异给模型训练和预测到来了很多困难和挑战。针对这个问题，我们一般的处理方法有4种：1.上采样（over-sample）；2.下采样（under-sample）；3.smote方法；4.调整机器学习算法；一、上采样也叫过采样，是指用大于信号

2015-09-11 18:59:19 7886 1