- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 面经之连续值特征做离散化的好处
在特征工程中,我们常常需要对连续型特征进行离散化处理,那么这么做有什么好处呢?下面做简单的总结:1.离散特征的增加和减少都很容易,易于模型的快速迭代;2.系数矩阵内机乘法运算速度更快,计算结果方便存储,易于扩展;3.离散化后的特征对异常数据有很强的鲁棒性。比如一个特征是年龄=300岁,会给模型造成很大的干扰;4.单变量离散化N个后,每个变量有单独的权重,相当于为模型引入了非线性,能...
2018-11-03 13:14:51
2272
原创 面经之SVM和LR的异同点
这个问题是我在面试过程中多次被问到的问题,今天整理出来:一、相同点:1.LR和SVM都是分类算法2.若不考虑核函数,LR和SVM都是线性分类算法(它们的分类决策都是找到一个超平面来划分样本)3.LR和SVM都是监督学习算法4.LR和SVM都是判别模型(判别模型会生成一个P(Y|X)的判别函数,而生成模型先计算联合概率P(Y,X),然后通过贝叶斯公式转化为条件概率)5.LR和...
2018-11-03 13:05:03
936
原创 L1与L2正则化
在机器学习中,我们茶厂听到L1和L2正则化,用他们来防止过拟合,但是在什么情况下使用它们和它们的原理是什么样的可能一知半解。所以在本博客中将对L1和L2做简单的介绍和应用场景。如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 ...
2018-11-03 11:34:48
528
原创 word2vect基础知识
word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。1. 词向量基础 用词向量来表示词并不是word2vec的首创,...
2018-11-03 11:27:56
1336
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人