2018年03月_简单点1024

转载 GBDT与RF的区别与联系

GBDT和RF简介GBDT（Gradient Boosting Decision Tree）DT + Boosting = GBDTGBDT是一种boosting算法。boosting工作机制：先从初始训练集训练处一个基学习器，然后在根据基学习器的表现对训练样本分布进行调整，使得先前的基学习器做错的训练样本在后续获得更多关注（增加错误样本权重），然后基于调整后的样本分布训练下一个基学习器，如此重复...

2018-03-15 16:35:50 4739

原创 HashingVectorizer-CountVectorizer-TfidfVectorizer的区别和联系

文本特征提取词袋（Bag of Words）表征文本分析是机器学习算法的主要应用领域。但是，文本分析的原始数据无法直接丢给算法，这些原始数据是一组符号，因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题，scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征，比如说：标记（tokenizing）文本以及为每一个可能的标记（tok...

2018-03-15 16:34:26 6331 1

原创 StratifiedKFold和Kfold的区别

StratifiedKFold用法类似Kfold，但是他是分层采样，确保训练集，测试集中各类别样本的比例与原始数据集中相同。例子：import numpy as np from sklearn.model_selection import KFold,StratifiedKFoldX=np.array([ [1,2,3,4], [11,12,13,14], [21,22,2...

2018-03-14 19:18:13 13187

转载 sklearn学习笔记（2）交叉验证

分类：机器学习（3）目录(?)[-]输出为StratifiedKFoldn_splits2random_stateNone shuffleFalse输出TRAIN 1 3 TEST 0 2结果1 2 3 0结果2 3 0 1结果2 3 0 1结果4 5 0 1 2 3link text 几种不同的CV策略生成器 cross_val_score中的参数cv可以接受不同的CV策略生成器作为参数，以...

2018-03-14 19:14:16 368

原创 lintcode

样例给出数组 [9,3,2,4,8]，第三大的元素是 4给出数组 [1,2,3,4,5]，第一大的元素是 5，第二大的元素是 4，第三大的元素是 3，以此类推挑战要求时间复杂度为O(n)，空间复杂度为O(1)标签 class Solution { /* * @param k : description of k * @param nums : array of num...

2018-03-24 13:48:13 808 2

原创核函数和KKT条件的理解

机器学习之支持向量机（三）：核函数和KKT条件的理解注：关于支持向量机系列文章是借鉴大神的神作，加以自己的理解写成的；若对原作者有损请告知，我会及时处理。转载请标明来源。序：我在支持向量机系列中主要讲支持向量机的公式推导，第一部分讲到推出拉格朗日对偶函数的对偶因子α；第二部分是SMO算法对于对偶因子的求解；第三部分是核函数的原理与应用，讲核函数的推理及常用的核函数有哪些；第四部分是支持向量机的应用...

2018-03-15 16:35:39 1873

转载 MLE/MAP和贝叶斯的联系与区别

贝叶斯估计与有监督学习如何用贝叶斯估计解决有监督学习问题？对于有监督学习，我们的目标实际上是估计一个目标函数f : X->Y，,或目标分布P(Y|X)，其中X是样本的各个feature组成的多维变量，Y是样本的实际分类结果。假设样本X的取值为xk，那么，根据贝叶斯定理，分类结果为yi的概率应该为：因此，要估计P(Y=yi|X=xk)，只要根据样本，求出P(X=xk|Y=yi)的所有估计，...

2018-03-14 21:49:27 5317

原创 LR和贝叶斯的关系

2018-03-14 21:25:31 1236

转载正则化和正则化的思想

首先了解一下正则性（regularity），正则性衡量了函数光滑的程度，正则性越高，函数越光滑。（光滑衡量了函数的可导性，如果一个函数是光滑函数，则该函数无穷可导，即任意n阶可导）。正则化是为了解决过拟合问题。在Andrew Ng的机器学习视频中有提到（详见http://www.cnblogs.com/jianxinzhou/p/4083921.html）。解决过拟合的两种方法： ...

2018-03-14 20:56:24 1985

原创关于RandomizedSearchCV 和GridSearchCV(区别：参数个数的选择方式)

# -*- coding: utf-8 -*-"""Created on Tue Aug 09 22:38:37 2016@author: Administrator"""import timeimport numpy as npfrom sklearn.datasets import load_digitsfrom sklearn.ensemble import RandomF...

2018-03-14 19:30:07 2859 4

原创 sklearn超参数搜索

本篇文章主要介绍在sklearn中采用GridSearchCV和RandomizedSearchCV进行超参数选择。一、超参数介绍： 1，超参数：在模型训练中，有些参数不能通过对数据进行学习得到，这种参数叫做超参数。比如，神经网络的层数，每层的神经元数量等。2，超参数的重要性：在做参数数的选择时计算量是很大的，为了节省开销，我们可以对模型的超参数进行分类，分为：重要，次重要，不重要。这种分类方法...

2018-03-14 19:19:36 1749

原创 sklearn交叉验证（3）CV

交叉验证的机制scikit-learn提供库：cross_validation from sklearn import cross_validation n指代样本数，n_folds指代将数据集分成多少份且做几次验证试验。在初始化对象k_fold里已经包含了许多信息，它已经根据参数n和n_folds将n个样本分成n_folds份。每次验证过程选取其中1份作为测试集，剩下的n_folds-1份作为...

2018-03-14 19:17:11 1832

zhangbaoanhadoop的博客