数据竞赛学习
文章平均质量分 84
李应健
这个作者很懒,什么都没留下…
展开
-
Advanced features
在处理特征时不仅可以单独地处理每个特征,还可以将它们联合起来处理,如下面的数据中,后面三个生成的特征,是根据user_id和page_id分组聚合生成的最大价格,最小价格,最小价格坐在网页位置,除了分组,组合两个特征为一个新特征...原创 2019-12-04 15:35:34 · 684 阅读 · 0 评论 -
超参数优化
优化超参数时,首先的选中影响最重要的那些下手,因为超参数有很多,每个都优化的话会花费大量时间,并且得理解这些超参数是怎么影响模型的下面是一些超参数优化的库我们大概可以把超参数分为两种类型,一种是当值越大时,对模型限制越严格,也就是减低过拟合的可能,一种是值越大时,是模型拟合能力越强,越容易过拟合tree-based modelsmax_depth [default=6]:数的最大深...原创 2019-12-03 19:15:10 · 807 阅读 · 0 评论 -
Mean encoding(Target encoding/Likely encoding)
mean encoding是一种对类别特征编码的方式,假如target value是0和1,训练集中有5行数据的类别是A,对应的target value是[0,1,1,0,0],target均值是0.4,那就给A编码为0.4,这是一种其中mean encoding方式几种mean encoding方式一个例子然而这回导致过拟合针对过拟合几种正则化方法...原创 2019-12-03 09:53:40 · 2645 阅读 · 1 评论 -
评估指标
机器学习模型训练完成后,需要有指标来评估其好坏,对于回归和分类任务所选取的指标也不同回归MSE对异常点相对MAE来说outliers更加敏感,因为他是MAE的平方。如果预测值y只能取常数,对MSE最优取值是y真实值的均值,对MAE是中位数MSE和MAE比较时用的都是值得绝对大小,有时我们需要用到相对大小,比如真实值是10,预测值是9和真实值是1000,预测值是999两者都相差1...原创 2019-12-02 18:49:55 · 331 阅读 · 0 评论 -
验证和数据泄露(Validation and Data leakages)
验证(Validation)validation strategies主要有以下三种:Holdout把测试数据分为A,B两部分,在A部分上训练,B部分上验证K-fold把测试数据分为K个部分,K-1个部分上训练,第K个部分验证,循环K次Leave-One-Out(LOO)只留一个样本作为验证集,在其他所有样本上训练,循环次数为总样本数Data splitting strate...原创 2019-12-02 10:17:47 · 800 阅读 · 0 评论 -
探索性数据分析(Exploratory Data Analysis,简称EDA)
EDA就是拿到数据后对数据进行探索,发现数据有何特征或问题,它可以:1.更好地理解数据2.建立对数据的直觉3.形成假设4.洞察数据EDA的一个主要方式就是数据可视化,这让你可以直观地看到数据的分布,模式等。三个步骤:1.获取领域相关知识每份数据可能都是关于不同行业的,数据探索前,先熟悉相关领域的知识,处理数据时更能游刃有余2.检查数据是否符合直觉假如数据有一个特征年龄,出现了2...原创 2019-11-29 19:12:26 · 5002 阅读 · 0 评论 -
特征工程:从文本中提取特征
从文本中提取特征处理文本时,思想就是把文本转化为向量,主要有两种方式:词袋法(Bag of word),词嵌入(Embeddings)词袋法(Bag of words)词袋模型将文本转化为向量,它不考虑文本中单词的顺序,只统计单词在词表中出现的次数,在sklearn中由CountVectorizer()函数实现from sklearn.feature_extraction.text imp...原创 2019-11-29 14:44:02 · 1103 阅读 · 0 评论 -
特征工程:缺失值处理
缺失值包含的不止是字面意思那样为空的值,比如-999,-1或其他特殊字符也可能代表缺失值隐藏的缺失值当遇到特殊数字-1之类的情况时,我们如何确定它代表的是缺失值呢?我们可以画出特征的分布图,如果-1远离大部分值的分布范围,那极有可能-1代表的就是缺失值缺失值填充1.-999,-1等相当于把缺失的情况当做一种特殊类别来处理,对linear model,神经网络性能有影响2.均值,中位数...原创 2019-11-28 21:26:58 · 982 阅读 · 0 评论 -
特征工程:日期和坐标特征处理
日期处理一般来说,针对日期特征,处理时大概有以下思路1.指明该日期属于某一时期的一特定时刻(Periodicity)例如该日期是一个周的第几天(day number in a week)月份(month),季度(season),年份(year),时(hour),分(minute),秒(second)等2.指明该日期从某个特定时刻起过了多久(Time since)a.与数据所在行无关,例...原创 2019-11-28 12:01:57 · 1199 阅读 · 0 评论 -
特征工程:类别变量处理
feature preprocessing类别变量分为无序的(categorical features)和有序的(ordinal features)以kaggle上titanic数据集举例Sex就属于categorical featurePclass属于ordinal feature,它的值有1,2,3,代表的船票等级是依次提高的这里不能把Pclass看做是numeric featu...原创 2019-11-27 23:31:01 · 727 阅读 · 0 评论 -
特征工程:数字型特征预处理
数字型特征预处理根据模型处理数字特征时,特征的数值量纲大小是否会影响模型效果,分为tree-based models 和 non-tree-based models基于树的模型tree-based models是基于信息熵来训练数据数据,所以特征的数值范围不会影响训练结果,所以不需要对特征进行feature scaling,即将不同特征数字大小转换到同一范围而非基于树的模型non-tree-...原创 2019-11-26 23:23:57 · 301 阅读 · 0 评论