yaoqsm-CSDN博客

转载模型融合---Stacking&Blending

模型融合是指通过分层对模型进行集成，比如以两层为例，第一层为基学习器，使用原始训练集训练基学习器，每个基学习器的输出生成新的特征，作为第二层模型的输入，这样就生成了新的训练集；第二层模型在新的训练集上再进行训练，从而得到融合的模型。Stacking Stacking是模型融合的常用方法，重点是在第一层中，如何用基学习器生成新特征，包含训练数据集的新特征和测试数据集的新特征。1...

2019-07-01 17:33:56 1450 1

转载 ubuntu权限问题

scp 文件 : /目录: Permission denied解决方法：先把需要移动的文件改变权限：777重新执行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/仍然permission denied然后对目标文件夹修改权限：777再次执行，成功注：事实上，只是因为没有写入的权限，因此只需要修改目标文件夹的权限即可，使其拥有写入权限...

2019-01-29 14:32:32 570

转载 ubuntu权限问题

scp 文件 : /目录: Permission denied 解决方法：先把需要移动的文件改变权限：777 重新执行sudo scp -r ./scala/ hadoop@DataNode:/usr/local/ 仍然permission denied 然后对目标文件夹修改权限：777 再次执行，成功注：事实上，只是因为没有写入的权限，因此只需要修改目标文件夹的权限即可...

2019-01-29 14:28:46 1402

原创 WOE转化的意义

之前一直在网上搜为什么在做评分卡的时候，要把bian变量转化为WOE，现在找到一定的原因，记录一下。先说结论：转化为WOE后，WOE值与对应的违约率是呈单调相反的关系。即WOE值越高，其违约率越低。对应的违约率：该箱内，该箱坏样本占该箱总样本的比例。因为没有转化前，违约率与变量的箱shi是没有太大关系的。上图很明显，cutpoint与badrate是没有线性关系的，而w...

2019-01-25 14:37:17 6092

个人的一些理解，不一定对。首先对因变量和单个自变量进行卡方检验，计算出因变量与所有自变量的卡方值，选择p值小于阈值（如0.05，一般小样本和中等样本都为0.05）的自变量进入模型，这时已经确定好那些自变量进入模型，下一步就是选择哪个zi自变量作为第一次分割的自变量，方法：在进入模型的自变量中，选择与因变量的相关性最高的那个自变量作为第一次分割的自变量。那么，怎么来划分呢，就是用置换检验来确定。置换...

2018-12-03 13:48:43 5962 1

原创卡方分箱--基于四格表方法

import pandas as pdimport numpy as npdef ceshi(df,col,target,max_interval=5): colLevels = set(df[col]) #去重 colLevels = sorted(list(colLevels)) N_distinct = len(colLevels) total = ...

2018-11-07 17:55:35 1280

原创记录python错误

安装python3时候出现权限错误，提示环境变量有问题，这时候需要加上在pip install 包名后加--user

2018-08-03 10:18:42 242

转载 xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？

传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。xgboost在代价函数里加入了正则项，用...

2018-08-01 10:22:39 399

原创决策树

C4.5算法可以用R语言的Rweka包中的J48函数来实现，但是此函数参数较多。rpart包是用来实现cart决策树的。

2018-07-14 15:07:46 306

转载 GBDT+LR

# 弱分类器的数目n_estimator = 10# 随机生成分类数据。X, y = make_classification(n_samples=80000) # 切分为测试集和训练集，比例0.5X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)# 将训练集切分为两部分，一部分用于训练GBD

2017-12-19 15:43:51 534

原创 ubuntu开机进入initramfs的解决办法

电脑在公司，晚上没关机，第二天启动ubuntu的时候就出现了这个情况，原因可能是由于晚上断电导致的，但是我晚上关掉虚拟机了，所以建议大家，晚上把电脑也关了。开机进入了initramfs界面，输入exit也没用。后来网上看了解决办法，有两种一、使用fsck -y /dev/sdbn命令，如果这个有用的话，最后输入reboot重启虚拟机就可以了。二、使用fsck/dev/sda1命令

2017-12-12 11:36:51 22836 7

原创对ROC和KS曲线的理解

先上图ROC曲线是评判一个模型好坏的标准，有两个值要知道，FPR（假正率）和TPR（真正率），ROC曲线就是以这两个值为坐标轴画的。比如逻辑回归得到的结果是概率，那么就要取阈值来划分正负，这时候，每划一个阈值，就会产生一组FPR和TPR的值，然后把这组值画成坐标轴上的一个点，这样，当选取多组阈值后，就形成了ROC曲线（每次选取一个不同的阈值，我们就可以得到一组FPR和TPR，即ROC曲

2017-10-24 21:24:51 21749

原创 GBDT

这一篇记录一下目前比较常用的集成算法GBDT。集成算法从根上来看，主要分为两大类--boosting和bagging。先说bagging，他的思想是建立多个弱学习期，最后的结果进行投票决定，而且每个弱学习器的训练样本都是在总样本中随机抽样的，这个算法是并行的，每个弱学习器是一起运算的。而boosting算法，其原理是在上一个弱学习器的基础上，构建下一个弱学习器，也就是根据上一个弱学习器的结果，对样

2017-10-18 10:07:55 762

转载对梯度下降原理的理解

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂

2017-10-17 13:44:26 1229

原创 ubuntu16.04启动失败解决

今天启动uibuntu后，系统卡住，然后就直接关了，结果，第二次重启的时候就出错了，应该是硬盘检测错误，错误是这个：The root filesystem on /dev/sda1 requires a manual fsck硬盘sda1检测出现问题了，我用的解决办法是输入代码：fsck -c /dev/sda1执行后一直按y，然后就成功了，再重启就好了

2017-10-16 10:04:55 12955

原创基于spark构建逻辑回归

from __future__ import print_functionfrom pyspark.sql import Rowfrom pyspark.sql import SQLContextfrom pyspark import SparkContextfrom pyspark.ml.classification import LogisticRegressionfrom

2017-10-13 15:13:27 1353

原创关于spark中dataframe数据处理

在数据处理中遇到一个问题，当有一个数据集输入，需要将其中一个维度进行处理，该怎么操作，这里拿二值化操作举例，from pyspark import SparkContextfrom pyspark import SQLContextfrom pyspark.ml.feature import Binarizersc=SparkContext()sqlco

2017-10-13 11:45:23 2797

原创 spark mllib 的数据预处理

Tokenizer（分词器）算法介绍：Tokenization将文本划分为独立个体（通常为单词）。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下，参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符，这样来为分词结果找到所有可能匹配的情况。基于python的实现fr

2017-10-13 10:06:28 1319

原创对xgboost原理的理解

先空着

2017-10-12 20:34:01 509

原创解决hadoop集群中有一个slaver的datanode启动失败

个人觉得，原因很有可能是master上存在hadoop的临时文件导致的，解决办法就是删除master上的tmp临时文件和所有日志文件。然后重新将master的hadoop文件压缩打包，再传递给slaver。然后将slaver上的旧hadoop删除掉，把传过来的新的hadoop解压安装。重点：这个方法会导致HDFS中存储的所有文件丢失。代码：在master上执行下列代码cd/

2017-10-12 15:29:50 1122

原创 CNN卷积神经网络原理记录

卷积神经网络最让人迷惑的地方就是在于他的卷积过程，还有其权值共享的原理。下面从初始化序贯模型（一种可以在中间随意堆叠神经网络层的结构）开始记录。卷积神经网络的目的是应用于图片识别，最初的成熟的CNN模型是手写数字识别，银行很早就开始应用这个系统。本文只是对原理的理解心得（纯属个人理解），不涉及任何公式推导。现在有一张1000*1000的照片，总共有1000000个像素点，也就是有1000000

2017-10-12 09:34:48 1058

原创 GANs生成对抗网络知识点初探

纳什平衡纳什平衡是在GANs中提到的一种对结果衡量的标准，由于生成对抗网络的结果是接近与0.5的，解释一下：结果大于0.5表明生成网络生成的样本接近于真实样本，小于0.5则说明样本是假的，GANs的结果一般是在0.5附近。而其极限的情况则是等于0.5，也就是说判别网络判别不出来了，这时候就被称为纳什平衡。

2017-10-10 19:52:31 595

yaoqsm的博客

转载模型融合---Stacking&Blending

转载 ubuntu权限问题

转载 ubuntu权限问题

原创 WOE转化的意义

原创对ctree（条件推断决策树）的个人理解

原创卡方分箱--基于四格表方法

原创记录python错误

转载 xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？

原创决策树

转载 GBDT+LR

原创 ubuntu开机进入initramfs的解决办法

原创对ROC和KS曲线的理解

原创 GBDT

转载对梯度下降原理的理解

原创 ubuntu16.04启动失败解决

原创基于spark构建逻辑回归

原创关于spark中dataframe数据处理

原创 spark mllib 的数据预处理

原创对xgboost原理的理解

原创解决hadoop集群中有一个slaver的datanode启动失败

原创 CNN卷积神经网络原理记录

原创 GANs生成对抗网络知识点初探

空空如也

空空如也