yuyang_1992-CSDN博客

原创面经之连续值特征做离散化的好处

在特征工程中，我们常常需要对连续型特征进行离散化处理，那么这么做有什么好处呢？下面做简单的总结：1.离散特征的增加和减少都很容易，易于模型的快速迭代；2.系数矩阵内机乘法运算速度更快，计算结果方便存储，易于扩展；3.离散化后的特征对异常数据有很强的鲁棒性。比如一个特征是年龄=300岁，会给模型造成很大的干扰；4.单变量离散化N个后，每个变量有单独的权重，相当于为模型引入了非线性，能...

2018-11-03 13:14:51 2272

原创面经之SVM和LR的异同点

这个问题是我在面试过程中多次被问到的问题，今天整理出来：一、相同点：1.LR和SVM都是分类算法2.若不考虑核函数，LR和SVM都是线性分类算法(它们的分类决策都是找到一个超平面来划分样本)3.LR和SVM都是监督学习算法4.LR和SVM都是判别模型(判别模型会生成一个P(Y|X)的判别函数，而生成模型先计算联合概率P(Y,X),然后通过贝叶斯公式转化为条件概率)5.LR和...

2018-11-03 13:05:03 936

在机器学习中，我们茶厂听到L1和L2正则化，用他们来防止过拟合，但是在什么情况下使用它们和它们的原理是什么样的可能一知半解。所以在本博客中将对L1和L2做简单的介绍和应用场景。如果参数过多，模型过于复杂，容易造成过拟合（overfit）。即模型在训练样本数据上表现的很好，但在实际测试样本上表现的较差，不具备良好的泛化能力。为了避免过拟合，最常用的一种方法是使用使用正则化，例如 L1 和 L2 ...

2018-11-03 11:34:48 528

原创 word2vect基础知识

word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法访问，因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。1. 词向量基础　　　　用词向量来表示词并不是word2vec的首创，...

2018-11-03 11:27:56 1336

原创在线制作一寸照片（排版）

http://www.sandcomp.com/blog/sandphoto/

2018-06-12 11:41:09 39807 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yuyang_1992的博客

原创面经之连续值特征做离散化的好处

原创面经之SVM和LR的异同点

原创 L1与L2正则化

原创 word2vect基础知识

原创在线制作一寸照片（排版）

空空如也

空空如也

原创 面经之连续值特征做离散化的好处

原创 面经之SVM和LR的异同点

原创 L1与L2正则化

原创 word2vect基础知识

原创 在线制作一寸照片（排版）

空空如也

空空如也

原创面经之连续值特征做离散化的好处

原创面经之SVM和LR的异同点

原创在线制作一寸照片（排版）