模型融合---Stacking&Blending

模型融合是指通过分层对模型进行集成,比如以两层为例,第一层为基学习器,使用原始训练集训练基学习器,每个基学习器的输出生成新的特征,作为第二层模型的输入,这样就生成了新的训练集;第二层模型在新的训练集上再进行训练,从而得到融合的模型。 Stacking Stacking是模型融合的常用方法...

2019-07-01 17:33:56

阅读数 15

评论数 0

ubuntu权限问题

scp 文件 : /目录: Permission denied 解决方法:先把需要移动的文件改变权限:777 重新执行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/ 仍然permission denied 然后对目标文件夹修改权限:777 再次...

2019-01-29 14:32:32

阅读数 58

评论数 0

ubuntu权限问题

scp 文件 : /目录: Permission denied    解决方法:先把需要移动的文件改变权限:777    重新执行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/  仍然permission denied  然后对目标文件夹修改权限:...

2019-01-29 14:28:46

阅读数 63

评论数 0

WOE转化的意义

之前一直在网上搜为什么在做评分卡的时候,要把bian变量转化为WOE,现在找到一定的原因,记录一下。 先说结论:转化为WOE后,WOE值与对应的违约率是呈单调相反的关系。 即WOE值越高,其违约率越低。 对应的违约率:该箱内,该箱坏样本占该箱总样本的比例。 因为没有转化前,违约率与变量的箱...

2019-01-25 14:37:17

阅读数 796

评论数 0

对ctree(条件推断决策树)的个人理解

个人的一些理解,不一定对。首先对因变量和单个自变量进行卡方检验,计算出因变量与所有自变量的卡方值,选择p值小于阈值(如0.05,一般小样本和中等样本都为0.05)的自变量进入模型,这时已经确定好那些自变量进入模型,下一步就是选择哪个zi自变量作为第一次分割的自变量,方法:在进入模型的自变量中,选择...

2018-12-03 13:48:43

阅读数 862

评论数 0

卡方分箱--基于四格表方法

import pandas as pd import numpy as np def ceshi(df,col,target,max_interval=5): colLevels = set(df[col]) #去重 colLevels = sorted(list(colLe...

2018-11-07 17:55:35

阅读数 674

评论数 0

记录python错误

安装python3时候出现权限错误,提示环境变量有问题,这时候需要加上在pip install    包名   后加--user

2018-08-03 10:18:42

阅读数 42

评论数 0

xgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行?

传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgb...

2018-08-01 10:22:39

阅读数 61

评论数 0

决策树

C4.5算法可以用R语言的Rweka包中的J48函数来实现,但是此函数参数较多。rpart包是用来实现cart决策树的。

2018-07-14 15:07:46

阅读数 52

评论数 0

GBDT+LR

# 弱分类器的数目 n_estimator = 10 # 随机生成分类数据。 X, y = make_classification(n_samples=80000) # 切分为测试集和训练集,比例0.5 X_train, X_test, y_train, y_test = train_test...

2017-12-19 15:43:51

阅读数 217

评论数 0

ubuntu开机进入initramfs的解决办法

电脑在公司,晚上没关机,第二天启动ubuntu的时候就出现了这个情况,原因可能是由于晚上断电导致的,但是我晚上关掉虚拟机了,所以建议大家,晚上把电脑也关了。 开机进入了initramfs界面,输入exit也没用。后来网上看了解决办法,有两种 一、使用fsck -y  /dev/sdbn命令,如果这...

2017-12-12 11:36:51

阅读数 9192

评论数 0

对ROC和KS曲线的理解

先上图 ROC曲线是评判一个模型好坏的标准,有两个值要知道,FPR(假正率)和TPR(真正率),ROC曲线就是以这两个值为坐标轴画的。比如逻辑回归得到的结果是概率,那么就要取阈值来划分正负,这时候,每划一个阈值,就会产生一组FPR和TPR的值,然后把这组值画成坐标轴上的一个点,这样,当选...

2017-10-24 21:24:51

阅读数 13211

评论数 0

GBDT

这一篇记录一下目前比较常用的集成算法GBDT。集成算法从根上来看,主要分为两大类--boosting和bagging。先说bagging,他的思想是建立多个弱学习期,最后的结果进行投票决定,而且每个弱学习器的训练样本都是在总样本中随机抽样的,这个算法是并行的,每个弱学习器是一起运算的。而boost...

2017-10-18 10:07:55

阅读数 393

评论数 0

对梯度下降原理的理解

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度     在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是...

2017-10-17 13:44:26

阅读数 553

评论数 0

ubuntu16.04启动失败解决

今天启动uibuntu后,系统卡住,然后就直接关了,结果,第二次重启的时候就出错了,应该是硬盘检测错误,错误是这个: The root filesystem on /dev/sda1 requires a manual fsck 硬盘sda1检测出现问题了,我用的解决办法是输入代码:fsc...

2017-10-16 10:04:55

阅读数 6166

评论数 1

基于spark构建逻辑回归

from __future__ import print_function from pyspark.sql import Row from pyspark.sql import SQLContext from pyspark import SparkContext from pyspar...

2017-10-13 15:13:27

阅读数 626

评论数 0

关于spark中dataframe数据处理

在数据处理中遇到一个问题,当有一个数据集输入,需要将其中一个维度进行处理,该怎么操作,这里拿二值化操作举例, from pyspark import SparkContext from pyspark import SQLContext from pyspark.ml.fea...

2017-10-13 11:45:23

阅读数 1508

评论数 0

spark mllib 的数据预处理

Tokenizer(分词器) 算法介绍: Tokenization将文本划分为独立个体(通常为单词)。 RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而...

2017-10-13 10:06:28

阅读数 696

评论数 0

对xgboost原理的理解

先空着

2017-10-12 20:34:01

阅读数 270

评论数 0

解决hadoop集群中有一个slaver的datanode启动失败

个人觉得,原因很有可能是master上存在hadoop的临时文件导致的,解决办法就是删除master上的tmp临时文件和所有日志文件。然后重新将master的hadoop文件压缩打包,再传递给slaver。然后将slaver上的旧hadoop删除掉,把传过来的新的hadoop解压安装。重点:这个方...

2017-10-12 15:29:50

阅读数 316

评论数 0

提示
确定要删除当前文章?
取消 删除