机器学习
WxyangID
越努力,越幸运
展开
-
pytorch torch.backends.cudnn设置作用
主要是为了优化运行效率的cuDNN使用非确定性算法,并且可以使用torch.backends.cudnn.enabled = False来进行禁用如果设置为torch.backends.cudnn.enabled =True,说明设置为使用使用非确定性算法然后再设置:torch.backends.cudnn.benchmark = true那么cuDNN使用的非确定性算法就会自动寻...转载 2019-11-09 16:41:24 · 6057 阅读 · 1 评论 -
xgboost/lightgbm安装 Windows7 anaconda Python3.6
先在这个网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 上下载xgboost 的whl文件,https://pypi.org/project/lightgbm/2.0.3/#files 这个网站上下载 lightgbm的whl文件。然后cd 到这两个文件所在的目录下,直接用pip直接安装即可。测试可用。...原创 2018-05-03 21:51:24 · 601 阅读 · 0 评论 -
特征工程
数据采集、数据格式化、数据清洗、数据采样数据格式化:确定数据的存储格式数据清洗:去掉一些脏数据,补充缺省值。数据采样:样本的正负样本比例是不均衡的,大多数模型对样本的正负比例是敏感的(例如LR),随机采样和分层采样正负样本不均衡时的处理情况: 正样本》》负样本且量都很大,如5亿个正样本 2万负样本。则采用下采样。从5亿正样本中抽取1/25的量,能达到1:1的效果 正样本》》负样本 量都...原创 2018-05-03 20:50:20 · 229 阅读 · 0 评论 -
ensamble之stacking详介以及Python代码实现
ensamble中涉及到的模型融合有: 1.Voting 2.Averaging 3 Ranking 4 Binning 5 Bagging 6 Boosting 7 Stacking 8 Blendingstacking详解:参考:https://blog.csdn.net/wstcjf/article/details/77989963stacking的过程有一张图非常经典,如下:上半部分...原创 2018-05-05 14:28:58 · 10559 阅读 · 6 评论 -
sklearn_onehot编码与pandas中的onehot编码处理方式
一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的...原创 2018-05-05 20:40:26 · 7550 阅读 · 0 评论 -
机器学习---SGDClassifier梯度下降分类方法
1..SGD主要应用在大规模稀疏数据问题上,经常用在文本分类及自然语言处理。假如数据是稀疏的,该模块的分类器可轻松解决如下问题:超过10^5的训练样本、超过10^5的features。2.损失函数loss=”hinge”: (soft-margin) 线性SVM.loss=”modified_huber”: 带平滑的hinge loss.loss=”log”: logistic 回归3.通过pen...原创 2018-05-18 18:00:17 · 14593 阅读 · 0 评论 -
sklearn.pipeline包
一:pipeline流水线的功能: 1.跟踪记录各步骤的操作(以方便地重现实验结果) 2.对各步骤进行一个封装,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。 3.可以把grid search 用在pipeline中所有的estimators参数的参数组合上面二:pipeline使用的一个实例from sklearn import svmfrom sk...原创 2018-05-19 12:10:34 · 1226 阅读 · 0 评论 -
GridSearchCV参数
GridSearchCV()是sklearn中的一个函数,专门调试参数的函数grid_search.各个参数的含义:class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, ver...原创 2018-05-21 20:23:39 · 25267 阅读 · 2 评论 -
关于交叉熵取值的理解
原创 2018-10-28 11:01:56 · 1422 阅读 · 0 评论 -
ValueError: setting an array element with a sequence.
pandas中dataframe拼接了一列是list类型,然后传进去lightgbm模型中进行训练,报错: ValueError: setting an array element with a sequence.最终把list类型的列,转成dataframe然后concat到原有的df中就可以了。确保list的shape没问题,他能够有正常的shape表示,也就是是一个矩阵而不是一个...原创 2018-10-28 18:14:24 · 2982 阅读 · 0 评论 -
SVM面试常考知识点
SVM的原理是什么?SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机)(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;(3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性...转载 2018-04-23 23:20:04 · 472 阅读 · 0 评论 -
聚类
1、在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记的训练样本来揭示数据的内在性质和规律, 其中密度估计和异常检测都是无监督学习任务。2、聚类是将样本中的数据集划分成不相交的子集,每个子集是一个簇。3、聚类的两个基本问题:性能度量和距离计算。 Jaccard系数,FM系数,Rand指数,结果都在(0,1)之间,越大越好。4、距离计算衡量标准:西瓜书P199原创 2017-11-10 11:29:14 · 806 阅读 · 0 评论 -
聚类(二)
k-means 的结果是每个数据点被 assign 到其中某一个 cluster 了属于硬化分。 而 GMM 则给出这些数据点被 assign 到每个 cluster 的概率,又称作 soft assignment ()。原创 2017-12-21 22:33:46 · 499 阅读 · 0 评论 -
聚类理论(一)
聚类结果x={x1,x2…..xn}求解思路:凝聚(Agglomerative, bottom up) 从每个单独的对象开始,将数据集中两个或多个对象根据相似性不断进行聚集 遵循类紧致原则,使得聚集结果类内相似性最大 又叫最小生成树算法 分裂(Divisive, top down) 首先将整个数据集当成一个大类,根据相似性不断对将各个对象分裂成小类 遵循类分离原则,使得聚类结果(对象)类原创 2017-12-14 11:21:48 · 642 阅读 · 0 评论 -
pca降维sklearn中pca库实现
数据的特征P,如果要是比样本容量还要多的话,必须进行降维处理,否则就是curse of dimensionality维数灾难# -*-encoding: utf-8 -*-"""@version: 3.6@time: 2018/4/1 14:46@author: SunnyYang@title:@file: pcaTest.py"""import numpy as npimpor...原创 2018-04-01 20:51:58 · 2124 阅读 · 0 评论 -
常见的几种最优化方法(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)
在看神经网络的时候,用到了最优化理论数学课上讲的几种梯度下降法再次温习下,数学是工具这篇博主写的挺好的收藏一下。梯度:有时候也称之为斜度,也就是一个曲面沿着给定方向的倾斜程度。表示某一个函数在该点出的方向导数沿着该方向取得最大值,即函数在该点出沿着该方向(此梯度方向)变化最快,变化率最大。梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全...原创 2018-04-01 14:13:09 · 2433 阅读 · 0 评论 -
算法中涉及到的数学概念
最近在看统计学方法,和西瓜书人脸检测的相关东西,看到了一些数学概念借此记录下;持续积累更新哒矩阵的行秩和列秩相同,统称为矩阵的秩。...原创 2018-04-04 12:24:44 · 955 阅读 · 0 评论 -
svm多分类__人脸识别
# -*-encoding: utf-8 -*-"""@version: 3.6@time: 2018/4/16 22:45@author: SunnyYang"""from __future__ import print_functionfrom time import time #计算每个步骤花费多长时间from matplotlib import pyplot as ...原创 2018-04-17 14:35:04 · 1262 阅读 · 0 评论 -
决策树信息熵和信息增益的概念
1 信息熵:度量样本集合纯度的。计算方法: p(k):每一种情况发生的的概率,变量的不确定性越大,其信息熵越大。2.信息增益:用来进行决策树的划分属性选择。著名的ID3决策树算法和C4.5算法最根本的不同就是:属性选择的度量方式不同,ID3:依据信息增益。C4.5根据增益率来进行选择划分的属性。3.决策树容易出现overfitting的情况,主要通过剪枝操作来避免。先剪枝:树的深度达到一定程度之后...原创 2018-04-18 14:43:18 · 2028 阅读 · 0 评论 -
logistics regression
逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)回归模型中,y是一个定性变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率(可以想下好坏...原创 2018-04-18 20:14:21 · 208 阅读 · 0 评论 -
机器学习基本术语
1、数据集(Data Set):一个关于事件或多个对象的集合,包含多个对象,且一个对象包含多个属性值,由此可以构成一个二维矩阵。 2、属性(attribute)或特征(feature):上述二维矩阵的一行可以代表一类事物的一个属性,比如西瓜的外皮颜色,敲声(书中例子)3、属性值:一个对象(样本)的一个属性的取值,往往在矩阵中体现为第i行第j列的值4、属性空间(attribute space)或样本原创 2017-11-10 09:08:07 · 624 阅读 · 0 评论