特征工程
文章平均质量分 78
xbmatrix
这个作者很懒,什么都没留下…
展开
-
特征选择
参考:http://www.tuicool.com/articles/ieUvaq 为什么要进行特征选择?1. 减少特征数量、降维,使模型泛化能力更强,减少过拟合,还能减少计算开销2. 增强对特征和特征值之间的理解有哪些特征选择方法?1. 理解业务2. 去除方差较小的特征3. 正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定,由于有用的特征往往对应系数非零。转载 2017-03-23 23:16:51 · 803 阅读 · 0 评论 -
数据预处理
参考:http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshar原创 2017-03-23 20:59:26 · 985 阅读 · 0 评论 -
霍夫曼编码压缩算法
参考:http://blog.jobbole.com/20091/前两天发布那个rsync算法后,想看看数据压缩的算法,知道一个经典的压缩算法Huffman算法。相信大家应该听说过 David Huffman 和他的压缩算法—— Huffman Code,一种通过字符出现频率,Priority Queue,和二叉树来进行的一种压缩算法,这种二叉树又叫Huffman二叉树 ——转载 2017-03-11 00:50:33 · 360 阅读 · 0 评论 -
分类中数据不平衡问题的解决经验
参考:http://www.cnblogs.com/harvey888/p/5717076.html问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划转载 2017-03-19 23:44:05 · 1558 阅读 · 1 评论 -
用户特征工程 超详细解读
参考:http://blog.csdn.net/bitcarmanlee/article/details/52244237#t25目录(?)[-]原始数据提取业务logsweb公开数据抓取第三方合作数据清洗异常值分析过滤数据类型检查清洗换行符制表符空格等特殊字符数据预处理数据平滑归一化离散化dummy coding缺失值填充分词 tfidf转载 2017-03-09 21:16:56 · 934 阅读 · 0 评论 -
使用sklearn做单机特征工程
参考:http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2转载 2017-02-22 23:29:43 · 387 阅读 · 0 评论 -
为什么一些机器学习模型需要对数据进行归一化?
参考:http://www.cnblogs.com/LBSer/p/4440590.htmlhttp://www.cnblogs.com/jasonfreak/p/5448385.html机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就转载 2017-02-23 23:42:25 · 6477 阅读 · 0 评论 -
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?
参考:https://www.zhihu.com/question/31989952以下内容来源于跟几位大牛交流的结果并加入了一定自己的理解。在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结转载 2017-02-23 23:51:45 · 1089 阅读 · 0 评论 -
PCA和SVD区别和联系
参考:http://blog.csdn.net/wangjian1204/article/details/50642732http://www.cnblogs.com/lzllovesyl/p/5243370.htmlPCA图1.寻找主成分方向对于正交属性空间的样本点,如何用一个超平原创 2017-03-22 22:29:26 · 2309 阅读 · 0 评论