自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 面经之连续值特征做离散化的好处

在特征工程中,我们常常需要对连续型特征进行离散化处理,那么这么做有什么好处呢?下面做简单的总结:1.离散特征的增加和减少都很容易,易于模型的快速迭代;2.系数矩阵内机乘法运算速度更快,计算结果方便存储,易于扩展;3.离散化后的特征对异常数据有很强的鲁棒性。比如一个特征是年龄=300岁,会给模型造成很大的干扰;4.单变量离散化N个后,每个变量有单独的权重,相当于为模型引入了非线性,能...

2018-11-03 13:14:51 2272

原创 面经之SVM和LR的异同点

这个问题是我在面试过程中多次被问到的问题,今天整理出来:一、相同点:1.LR和SVM都是分类算法2.若不考虑核函数,LR和SVM都是线性分类算法(它们的分类决策都是找到一个超平面来划分样本)3.LR和SVM都是监督学习算法4.LR和SVM都是判别模型(判别模型会生成一个P(Y|X)的判别函数,而生成模型先计算联合概率P(Y,X),然后通过贝叶斯公式转化为条件概率)5.LR和...

2018-11-03 13:05:03 936

原创 L1与L2正则化

在机器学习中,我们茶厂听到L1和L2正则化,用他们来防止过拟合,但是在什么情况下使用它们和它们的原理是什么样的可能一知半解。所以在本博客中将对L1和L2做简单的介绍和应用场景。如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 ...

2018-11-03 11:34:48 528

原创 word2vect基础知识

word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。1. 词向量基础    用词向量来表示词并不是word2vec的首创,...

2018-11-03 11:27:56 1336

原创 在线制作一寸照片(排版)

http://www.sandcomp.com/blog/sandphoto/

2018-06-12 11:41:09 39807 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除