机器学习
壮壮不太胖^QwQ
我在学习
博客为鉴
展开
-
30分钟学会如何使用集成学习(什么是集成学习)
文章目录一,什么是集成学习二,使用SKlearn中提供的集成学习器解决分类问题2.1 Voting Classifier 投票集成2.1.1 少数服从多数原则的投票集成-Hard Voting2.1.2 考虑概率的投票集成-Soft Voting2.2 Bagging 和 Pasting2.2.1 如何使用 Bagging(套袋分类器)2.2.2 关于袋外数据(oob)2.2.3 同时对特征进行随机采样2.3 随机森林2.3.1 RandomForestClassifier2.3.2 ExtraTreesC原创 2020-06-04 12:59:54 · 1195 阅读 · 0 评论 -
回归树
回归树,就是用树模型做回归问题,每一片叶子都输出一个预测值。预测值一般是叶子结点所含训练集输出的均值。回归树的分支标准:标准方差(Standard Deviation)。回归树使用某一特征将原集合分为多个子集,用标准方差衡量子集中的元素是否接近,越小表示越接近。首先计算根节点标准方差:使用标准方差来确定分支,以计算Outlook分支后的标准方差为例:同理可计算其他特征的标准差,并得到方差的减小值:标准差降低最多的特征是Outlook,利用其进行分支。接下来,重复这个过程,使用标准方差原创 2020-06-01 13:08:36 · 4331 阅读 · 2 评论 -
分类树(信息熵与基尼指数)
文章目录一,决策树的直观理解二,分类树2.1 信息熵2.2 条件信息熵示例2.3 基尼指数(Gini不纯度)示例一,决策树的直观理解二,分类树2.1 信息熵信息熵是用来衡量信息不确定性的指标,不确定性是一个事件出现不同结果的可能性。(越小越好)计算如下:其中:P(X=i)为随机变量x取值为i的概率举个例子,如下:可以看出,第一种的不确定性更高(信息熵较大)2.2 条件信息熵条件熵:在给定随机变量Y的条件下,随机变量X的不确定性信息增益:信息熵 - 条件熵,代表在一个条件下,信息原创 2020-06-01 12:41:50 · 3720 阅读 · 0 评论 -
集成方法 - BaggingClassifier
文章目录一,Bagging 算法介绍二,BaggingClassifier使用1,参数及属性2,方法3,例子参考:BaggingClassifier一,Bagging 算法介绍算法主要特点Bagging:平行合奏:每个模型独立构建旨在减少方差,而不是偏差适用于高方差低偏差模型(复杂模型)基于树的方法的示例是随机森林,其开发完全生长的树(注意,RF修改生长的过程以减少树之间的相关性)在集成算法中,bagging方法形成了一类算法,它在原始训练集的随机子集上建立一个黑箱估计的多个实例,然后原创 2020-05-24 21:58:25 · 9003 阅读 · 2 评论 -
特征选择 - SelectKBest
文章目录如何使用SelectKBest使用实例官网:sklearn.feature_selection.SelectKBest如何使用SelectKBest根据给定的选择器选择出前k个与标签最相关的特征。class sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, *, k=10)参数说明:Parameters----------score_func: 可调用的 函数输入两原创 2020-05-17 23:23:24 · 19096 阅读 · 1 评论 -
scipy.stats.pearsonr - 皮尔森相关系数
函数:pearsonr(x,y)功能: 计算特征与目标变量之间的相关度参数说明:1)输入:x为特征,y为目标变量.2)输出:r: 相关系数 [-1,1]之间,p-value: p值。 注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。示例:数据样本数:1000特征数:3(3维数据)重要特征:1from sklearn.datasets import make_regressionX,y = make_regression(n_s原创 2020-05-17 21:24:38 · 26003 阅读 · 0 评论 -
(流形降维)局部线性嵌入 - LLE
文章目录一,流形学习概述二,如何使用LLE进行数据降维1.参数说明2.官网示例三,实例说明一,流形学习概述更多关于LLE原理 参考:局部线性嵌入(LLE)原理总结LLE属于流形学习(Manifold Learning)的一种。因此我们首先看看什么是流形学习。流形学习是一大类基于流形的框架。数学意义上的流形比较抽象,不过我们可以认为LLE中的流形是一个不闭合的曲面。这个流形曲面有数据分布比较均匀,且比较稠密的特征,有点像流水的味道。基于流行的降维算法就是将流形从高维到低维的降维过程,在降维的过程中我们希原创 2020-05-15 11:17:20 · 1515 阅读 · 0 评论 -
机器学习上课进度
2020-4-10 双周练习import numpy as npfrom sklearn.datasets import load_breast_cancerbc = load_breast_cancer()X = bc.datay = bc.targetfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import cross_validateknn_model = KNei原创 2020-05-15 02:25:16 · 340 阅读 · 0 评论 -
(有监督数据降维)线性判别分析 - LDA
文章目录一,LDA的基本思想及数学分析二,如何使用LDA进行数据降维三,示例sklearn官网 - sklearn.decomposition.LatentDirichletAllocation一,LDA的基本思想及数学分析参考:【机器学习】LDA线性判别分析参考:机器学习降维算法二:LDA(Linear Discriminant Analysis)LDA和PCA对比LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。首先我们看看相同点:两者均可原创 2020-05-15 02:04:20 · 1560 阅读 · 0 评论 -
(无监督数据降维)主成分分析法 - PCA
文章目录一,数学原理二,PCA的使用1,参数2,属性(方法)3,示例SKlearn官网 - sklearn.decomposition.PCA一,数学原理参考:通俗易懂的主成分分析法(PCA)详解二,PCA的使用class sklearn.decomposition.PCA(n_components=None, *, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_stat原创 2020-05-15 00:35:01 · 1012 阅读 · 0 评论 -
聚类 - sklearn中的使用方法
文章目录1. 聚类方法概述2. K-means未标记的数据的 聚类(Clustering) 可以使用模块 sklearn.cluster 来实现。每个聚类算法(clustering algorithm)都有两个变体: 一个是 类(class), 它实现了 fit 方法来学习训练数据的簇(cluster),还有一个 函数(function),当给定训练数据,返回与不同簇对应的整数标签数组(arr...原创 2020-04-26 00:15:54 · 1774 阅读 · 0 评论 -
sklearn.metrics.f1_score 使用方法
原网站:sklearn官网使用sklearn计算 F1 scoresklearn.metrics.f1_score(y_true, y_pred, labels=None, pos_label=1, average='binary', sample_weight=None, zero_division='warn')计算F1分数,也称为平衡F分数或F测度F1分数可...原创 2020-04-25 21:58:51 · 28439 阅读 · 0 评论 -
交叉验证:评估估算器的表现 - sklearn的使用方法
文章目录0. 准备工作...1. 计算交叉验证的指标1.1. cross_validate 函数和多度量评估1.2. 通过交叉验证获取预测2. 交叉验证迭代器2.1. 交叉验证迭代器–循环遍历数据2.1.1. K 折2.1.2. 重复 K-折交叉验证2.1.3. 随机排列交叉验证 a.k.a. Shuffle & Split3. A note on shuffling4. 交叉验证和模型选...原创 2020-04-25 19:41:49 · 787 阅读 · 0 评论 -
广义线性模型 - sklearn使用说明
文章目录1. 普通最小二乘法1.1,普通最小二乘法的复杂度2. 岭回归2.1. 岭回归的复杂度2.2. 设置正则化参数:广义交叉验证1.3. Lasso1.3.1. 设置正则化参数1.3.1.1. 使用交叉验证3. 贝叶斯回归3.1. 贝叶斯岭回归4. logistic 回归5. 随机梯度下降, SGD1. 普通最小二乘法LinearRegression拟合一个带有系数 ω = (ω1, …,...原创 2020-04-25 16:51:55 · 1210 阅读 · 0 评论 -
如何使用Sklearn生成自己的数据集
使用Sklearn生成数据集1.生成符合正态分布的聚类数据2.生成同心圆样本点3.生成模拟分类数据集4.生成太极型非凸集样本点5.同心圆形样本点6.生成二进制分类数据1.生成符合正态分布的聚类数据import matplotlib.pyplot as pltfrom sklearn.datasets import make_blobsx, y = make_blobs(n_samples...原创 2020-04-24 12:31:16 · 6633 阅读 · 0 评论 -
机器学习 - sklearn中的回归算法
文章目录提取乳癌数据线性回归岭回归逻辑回归提取乳癌数据from sklearn import datasetsBC = datasets.load_breast_cancer()x = BC.datay = BC.target使用切分函数函数分出训练集和测试集from sklearn.model_selection import train_test_splitx_trai...原创 2020-04-10 18:19:22 · 567 阅读 · 0 评论 -
机器学习-P6 逻辑回归(书P73)
这里写自定义目录标题一,概述1,逻辑回归(Logistic Regression)1.1,线性回归1.2,Sigmoid函数1.3,逻辑回归1.4,LR与线性回归的区别2,LR的损失函数3,LR 正则化3.1,L1正则化一,概述分类计数是机器学习和数据挖掘应用中的重要组成部分。在数据科学中,大约70%的问题属于分类问题。解决分类问题的算法也有很多种,比如:k - 近邻算法:使用距离计算来实...原创 2020-04-07 17:39:35 · 685 阅读 · 2 评论 -
机器学习-P5 朴素贝叶斯算法(书P53)
文章目录一,概述1,条件概率(Condittional probability)2,全概率公式3,贝叶斯推断二,举个“栗子”(手动星标)三,朴素贝叶斯的种类如何选择1,高斯分布的朴素贝叶斯算法GaussianNB在sklearn中的实现2,多项式分布的朴素贝叶斯算法MultinomialNB在sklearn中的实现3,伯努利分布的朴素贝叶斯BernoulliNB在sklearn中的实现四,朴素贝叶...原创 2020-03-28 21:39:28 · 710 阅读 · 0 评论 -
机器学习-P4 决策树 / 分类树(书P33)
文章目录一,概述1,什么是决策树2,特征选择3,香农熵及计算函数二,代码实现1,需要用到的库(pandas传送门)2,数据集3,计算香农熵4,信息增益5,数据集最佳切分函数找出最佳切分列按照给定列切分数据集6,递归构建决策树ID3 算法编写代码构建决策树决策树的存储使用决策树执行分类预测7,使用sklearn中的包实现决策树的绘制需要使用的包数据的前处理构建决策树一,概述1,什么是决策树首先...原创 2020-03-22 16:42:12 · 468 阅读 · 0 评论 -
机器学习-P3 梯度下降法
文章目录1,介绍基本原理关于参数eta并不是所有函数都有唯一的极值点2,代码实现会用到的库原材料简单地梯度下降3,简单地封装一下关于参数4,线性回归的梯度下降法1,介绍基本原理梯度下降不是一个机器学习的算法是一个基于搜索的最优化方法作用:最小化一个损失函数梯度上升法:最大化一个效用函数(不管在最低点哪一侧都会是,都会是下降的)关于参数eta并不是所有函数都有唯一的极值点...原创 2020-03-17 20:48:02 · 411 阅读 · 0 评论 -
机器学习-P2 使用sklearn中提供的线性回归算法
自定义标题1,数据2,线性回归算法信息3,kNNRegressor中的线性回归算法导入算法找出更优的参数1,数据依旧波士顿import numpy as npfrom sklearn import datasetsboston = datasets.load_boston()x = boston.datay = boston.targetx = x[y<50]y = ...原创 2020-03-16 23:40:04 · 653 阅读 · 0 评论 -
机器学习-P2 线性回归实战(书P136)
自定义标题一,会用到的库二,使用pandas读取数据三,辅助函数1,从文档中获取数据2,数据分布可视化3,计算回归系数4,回归线的可视化4,计算相关系数四,局部加权线性回归1,不同k值对应的高斯核2,局部加权线性回归函数(主函数)3,高斯核对加权函数曲线的影响4,比较四种模型的相关系数五,预测鲍鱼年龄1,数据预览2,辅助函数切分数据集和训练集计算误差平方和(SSE)3,不同的k值对SSE的影响挑选...原创 2020-03-15 16:53:51 · 499 阅读 · 0 评论 -
机器学习-P2 手动实现线性回归算法
文章目录一,简单线性回归实现1,一元线性回归算法2,封装自己的简单线性回归使用3,使用向量运算计算回归系数4,回归算法评估数据处理观察数据分布和回归函数MSE (均方误差)RMSE(均方根误差)MAE(平均绝对误差)R Square封装自己的算法评估(没啥用)使用sklearn中的上边这些5,封装(使用向量运算)二,多元线性回归算法一,简单线性回归实现1,一元线性回归算法公式:y = ax...原创 2020-03-15 12:25:18 · 1682 阅读 · 0 评论 -
机器学习-P1 手动实现knn算法
文章目录算法实现1,主函数 - gei2,建立自己的kNN算法算法评估1,随机取样 获得训练集&测试集方法一:将x,y中所有的索引进行乱序,然后再抽取索引对应的样本方法二:将x,y拼接在一起,在进行乱序,再拆成新的x,y随机取样函数实现2,如何找出最好的k值3,最值归一化4,均值方差归一化 Standardization算法实现1,主函数 - gei算出测试数据到每个训练数据的欧拉距...原创 2020-03-14 19:34:45 · 596 阅读 · 0 评论 -
机器学习-P1 使用sklearn中提供的k邻近算法
机器学习-P1使用sklearn中提供的k邻近算法文章目录机器学习-P1使用sklearn中提供的k邻近算法1. 从sklearn中引入数据2,将数据分为训练集和测试集3,使用scikit-learn中的kNN4,网格搜索 - 选择最优的超参数 - k5,均值方差归一化1. 从sklearn中引入数据import numpy as npfrom sklearn import datase...原创 2020-03-14 18:53:39 · 202 阅读 · 0 评论