自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Advanced features

在处理特征时不仅可以单独地处理每个特征,还可以将它们联合起来处理,如下面的数据中,后面三个生成的特征,是根据user_id和page_id分组聚合生成的最大价格,最小价格,最小价格坐在网页位置,除了分组,组合两个特征为一个新特征...

2019-12-04 15:35:34 684

原创 超参数优化

优化超参数时,首先的选中影响最重要的那些下手,因为超参数有很多,每个都优化的话会花费大量时间,并且得理解这些超参数是怎么影响模型的下面是一些超参数优化的库我们大概可以把超参数分为两种类型,一种是当值越大时,对模型限制越严格,也就是减低过拟合的可能,一种是值越大时,是模型拟合能力越强,越容易过拟合tree-based modelsmax_depth [default=6]:数的最大深...

2019-12-03 19:15:10 810

原创 Mean encoding(Target encoding/Likely encoding)

mean encoding是一种对类别特征编码的方式,假如target value是0和1,训练集中有5行数据的类别是A,对应的target value是[0,1,1,0,0],target均值是0.4,那就给A编码为0.4,这是一种其中mean encoding方式几种mean encoding方式一个例子然而这回导致过拟合针对过拟合几种正则化方法...

2019-12-03 09:53:40 2647 1

原创 评估指标

机器学习模型训练完成后,需要有指标来评估其好坏,对于回归和分类任务所选取的指标也不同回归MSE对异常点相对MAE来说outliers更加敏感,因为他是MAE的平方。如果预测值y只能取常数,对MSE最优取值是y真实值的均值,对MAE是中位数MSE和MAE比较时用的都是值得绝对大小,有时我们需要用到相对大小,比如真实值是10,预测值是9和真实值是1000,预测值是999两者都相差1...

2019-12-02 18:49:55 331

原创 验证和数据泄露(Validation and Data leakages)

验证(Validation)validation strategies主要有以下三种:Holdout把测试数据分为A,B两部分,在A部分上训练,B部分上验证K-fold把测试数据分为K个部分,K-1个部分上训练,第K个部分验证,循环K次Leave-One-Out(LOO)只留一个样本作为验证集,在其他所有样本上训练,循环次数为总样本数Data splitting strate...

2019-12-02 10:17:47 801

原创 探索性数据分析(Exploratory Data Analysis,简称EDA)

EDA就是拿到数据后对数据进行探索,发现数据有何特征或问题,它可以:1.更好地理解数据2.建立对数据的直觉3.形成假设4.洞察数据EDA的一个主要方式就是数据可视化,这让你可以直观地看到数据的分布,模式等。三个步骤:1.获取领域相关知识每份数据可能都是关于不同行业的,数据探索前,先熟悉相关领域的知识,处理数据时更能游刃有余2.检查数据是否符合直觉假如数据有一个特征年龄,出现了2...

2019-11-29 19:12:26 5005

原创 特征工程:从文本中提取特征

从文本中提取特征处理文本时,思想就是把文本转化为向量,主要有两种方式:词袋法(Bag of word),词嵌入(Embeddings)词袋法(Bag of words)词袋模型将文本转化为向量,它不考虑文本中单词的顺序,只统计单词在词表中出现的次数,在sklearn中由CountVectorizer()函数实现from sklearn.feature_extraction.text imp...

2019-11-29 14:44:02 1103

原创 特征工程:缺失值处理

缺失值包含的不止是字面意思那样为空的值,比如-999,-1或其他特殊字符也可能代表缺失值隐藏的缺失值当遇到特殊数字-1之类的情况时,我们如何确定它代表的是缺失值呢?我们可以画出特征的分布图,如果-1远离大部分值的分布范围,那极有可能-1代表的就是缺失值缺失值填充1.-999,-1等相当于把缺失的情况当做一种特殊类别来处理,对linear model,神经网络性能有影响2.均值,中位数...

2019-11-28 21:26:58 984

原创 特征工程:日期和坐标特征处理

日期处理一般来说,针对日期特征,处理时大概有以下思路1.指明该日期属于某一时期的一特定时刻(Periodicity)例如该日期是一个周的第几天(day number in a week)月份(month),季度(season),年份(year),时(hour),分(minute),秒(second)等2.指明该日期从某个特定时刻起过了多久(Time since)a.与数据所在行无关,例...

2019-11-28 12:01:57 1209

原创 特征工程:类别变量处理

feature preprocessing类别变量分为无序的(categorical features)和有序的(ordinal features)以kaggle上titanic数据集举例Sex就属于categorical featurePclass属于ordinal feature,它的值有1,2,3,代表的船票等级是依次提高的这里不能把Pclass看做是numeric featu...

2019-11-27 23:31:01 727

原创 高斯混合模型GMM

GMM聚类高斯混合模型可以看做是K-means思想的一个扩展,改进了K-means的不足之处K-means相当于在以每个簇的中心为圆点,然后画一个圆,圆内的点都属于本簇,对于两个圆交集的地方,交集内的点属于哪个簇K-means方法也没有很好地解决办法import numpy as npimport pandas as pdimport matplotlib.pyplot as plti...

2019-11-27 15:31:46 357

原创 K-means算法

K-means算法属于EM(expectation-maximization)期望最大化算法的一种,简单来说,它包含两个步骤:1.随机猜测一些中心点2.重复至收敛a.期望步骤(E-step):将点分配至最近的簇中心点b.最大化步骤(M-step):将簇中心点更新为簇中所有点的平均值期望步骤不断更新每个点属于哪个簇,最大化步骤不断更新簇中心。有几个需要注意的问题:1.可能不会达到全局最...

2019-11-27 10:40:35 317

原创 特征工程:数字型特征预处理

数字型特征预处理根据模型处理数字特征时,特征的数值量纲大小是否会影响模型效果,分为tree-based models 和 non-tree-based models基于树的模型tree-based models是基于信息熵来训练数据数据,所以特征的数值范围不会影响训练结果,所以不需要对特征进行feature scaling,即将不同特征数字大小转换到同一范围而非基于树的模型non-tree-...

2019-11-26 23:23:57 302

原创 流形学习

PCA虽然灵活,快速,但是它对存在非线性关系的数据处理效果不太好。流形学习可以弥补这一缺点,流形学习是相对于PCA的另一种无监督学习算法,它将一个低维度流行嵌入到高维度空间来描述数据。流形学习方法包括:多维度标度法(MDS),局部线性嵌入法(LLE),保距映射法(Isomap)为了方便说明,先生成一个‘HELLO’形状的数据点import numpy as npimport pandas ...

2019-11-26 20:59:06 811

原创 主成分分析(PCA)

主成分分析简介本篇文章是阅读’数据科学手册‘的读书笔记主成分分析是一种应用最为广泛的无监督学习算法之一,可用于数据可视化,噪音过滤,特征抽取和特征工程等。我们生成一些随机数据来演示PCAimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snssns.set()...

2019-11-26 17:02:08 658

原创 朴素贝叶斯简介

朴素贝叶斯朴素贝叶斯是一种速度很快的分类算法,适用于数据特征维度很高的情况。它假设数据的特征之间相互独立,这也是“朴素”这一名称的由来,其数学基础是贝叶斯定理。根据每个特征的数据分布的假设不同,有高斯朴素贝叶斯,多项式朴素贝叶斯,伯努利朴素贝叶斯。高斯朴素贝叶斯高斯朴素贝叶斯假设每个特征的数据服从高斯分布,也就是正态分布在scikit-learn中运用高斯朴素贝叶斯:from skl...

2019-11-26 14:05:09 1494

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除