机器学习数据挖掘
文章平均质量分 77
xia_mi123
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯算法解析与应用
Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为两个部分,第一部分将介绍贝叶斯学习的相关理论(如果你对理论不感兴趣,请直接跳至第二部分基于朴素贝叶斯分类器的文本分类算法(下)>>)。第二部分讲如何将贝叶斯分类器应用到中文文本分类,随转载 2015-07-30 12:36:47 · 822 阅读 · 0 评论 -
美团和当当推荐系统文章
http://www.csdn.net/article/2015-10-16/2825925http://www.csdn.net/article/2015-08-13/2825455美团和当当推荐系统文章原创 2015-10-16 16:06:15 · 341 阅读 · 0 评论 -
数据分析里面的一些常用指标的特点(最大、最小、平均、中位数、....)
处理空值的技巧空值处理的第一种思路是“用最接近的数据来替换它”。这并不是意味着拿它相邻的单元格来替换,而是你需要寻找除了空的这个单元格,哪一行数据在其他列上的内容与存在空值的这行数据是最接近的,然后用该行的数据进行替换。这种方式较为严谨,但也比较费事。第二种思路是针对数值型的数据,若出现空值,我们可以用该列数值型数据的平均值进行替换。如果条件允许,我建议采用众数进行替换,即该列数据当中出现原创 2017-01-05 22:48:50 · 18013 阅读 · 0 评论 -
Python环境配置
安装Python2.7.9(Python3.x版本的文档不成熟)安装numpy:pip install numpy(安装不成功的话更新pip,pip install --upgrade pip)安装pandas :pip install pandas上述安装如果出现http****错误,请再次安装。安装scipy,需要安装VCForPython,http://www.microso原创 2016-12-23 21:22:44 · 547 阅读 · 1 评论 -
特征工程大满贯(一)
特征工程的流程以及详细步骤原创 2017-04-24 10:36:43 · 641 阅读 · 0 评论 -
【机器学习基础】非线性变换
数据变化的意义转载 2017-04-24 16:37:40 · 883 阅读 · 0 评论 -
正则化理解
1、概念L0正则化的值是模型参数中非零参数的个数。L1正则化表示各个参数绝对值之和。L2正则化标识各个参数的平方的和的开方值。2、先讨论几个问题:1)实现参数的稀疏有什么好处吗?一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对测试数据表现性能极差。另一个好处是参数变少可以使整个模型原创 2017-04-24 16:53:19 · 4622 阅读 · 0 评论 -
工程中常用的特征选择方法
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。为什么?(1)降低维度,选择重要的特征,避免维度灾难,降低计算成本(2)去除不相关的冗余特征(噪声)来降低学习的难度,去除噪声的干扰,留下关键因素,提高预测精度(3)获得更多有物理意义的,有价值的特征不同模型有不同的特征适用类型?(1)lr模型适用于拟合离散特征(见附录)(2)gbdt模型原创 2017-04-24 19:27:27 · 2318 阅读 · 0 评论 -
SVM的理解
今天上午刚刚面了滴滴出行的新锐计划,面试官问道svm的两个参数,感觉自己答的不好,回顾一下:支持向量机的大致分为上述3类,线性可分支持向量机使分割直线(二维),平面(三维)、超平面(高维)使类间的距离最大化,对于无法用直线,平面完全分割的数据,我们允许稍微存在一点误差也就是软间隔对大化,非线性支持向量机是在上述两种支持向量机中引入核函数。高维数据怎么判断线性可分呢?不管原始原创 2017-04-26 13:54:30 · 726 阅读 · 0 评论