机器学习sklearn
文章平均质量分 58
机器学习的算法
可怜又无助的迪迪迪
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯
联合概率:两件事情同时发生的概率条件概率:x的前提下y的取值概率高斯朴素贝叶斯(服从正态分布)prior 可输入任何类数组结构,形状为n_classes 表示先验概率,如果指定,不根据数据调整先验,反之,根据数据自行调整计算先验 var_smoothing 浮点数,可不填,默认=1e-9 将所有特征方差中最大的方差一某个比列添加到估计方差中。 import numpy as npimport matplotlib.pyplo原创 2021-12-20 21:46:05 · 185 阅读 · 0 评论 -
多元线性回归LinearRegression
基本原理:=损失函数:linear_model.LinearRegressionfit_intercept 布尔值,可不填,默认True False 不计算截距 normalize 布尔值,可不填,默认False 忽略此参数 True 特征矩阵在进入回归前减去均值(中心化)并处以L2范式(缩放) 如果希望数据标准化,在fit之前使用preprocessing模块中的标准化专用类StandardScaler cop...原创 2021-12-18 20:01:11 · 586 阅读 · 0 评论 -
支持向量机SVM
功能 有监督学习 线性二分类与多分类(Linear Support Vector Classification) 非线性二分类与多分类(Support Vector Classification,SVC) 普通连续型变量的回归(Support Vector Regression) 概率型连续变量的回归(BayesianSVM) 无监督学习 支持向量聚类(Support Vector Clustering,SVC) 异常值检测...原创 2021-12-16 20:40:38 · 258 阅读 · 0 评论 -
聚类算法的使用
KMeans将一组N个样本的特征矩阵X划分为K个无交集的簇。质心:簇中所有数据的均值流程:1.随机抽取K个样本作为最初的质心,开始迭代 2.将每个样本点分配到离他们最近的簇心,生成K个簇 3.对于每个簇,计算所有被分配到该簇的样本点的平均值最为新的质心 4.当质心的位置不再变化时,迭代停止,聚类完成。欧几里得距离: d(x,) =曼哈顿距离: d(x,) =余弦距离: ...原创 2021-12-13 21:07:42 · 2309 阅读 · 0 评论 -
逻辑回归的使用
逻辑回归优点:线性关系的拟合效果非常好,计算快,返回结果可以是小数类概率数字损失函数:来衡量参数的模型拟合训练时产生的信息损失的大小逻辑回归中过拟合的控制通过正则化来实现linear_model.LogisticRegression参数 penalty = 'l1' 或'l2' 一般都选l2from sklearn.linear_model import LogisticRegression as LRfrom sklearn.datasets import load_b...原创 2021-12-12 14:29:13 · 1119 阅读 · 0 评论 -
降维算法PCA
PCA使用样本方差来衡量信息量,方差越大,特征所带的信息量越大矩阵分解:找出n个新特征向量,让数据能够被压缩到少数特征上并总信息量不损失太多的技术sklearn.decomposition.PCA(n_component=None,copy=True,svd_solve='auto',tol=0.0, iterated_power='auto',random_state=None)n_component...原创 2021-12-09 20:20:14 · 1262 阅读 · 0 评论 -
数据预处理和特征工程
数据预处理:从数据中检测、纠正、删除损坏的不准确的或者不适用于模型记录的过程 目的:让数据更加适应模型,匹配模型需求特征工程:将原始数据转换为更能代表预测模型的潜在问题的特征工程。可以通过挑选最相关特征,提取特征以及创造特征来实现。其中创造特征又经常以将为的方式实现。 问题:特征之间有相关性,特征和标签无关,特征太多或太少,或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌。 目的:降低计算成本,提升模型上限数据预处理:数据无量钢...原创 2021-12-08 20:20:07 · 1284 阅读 · 0 评论 -
机器学习中如何使参数最优
学习曲线from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport pand...原创 2021-12-07 19:52:32 · 1349 阅读 · 0 评论 -
随机森林的使用
1.1集成算法:考虑多个评估器的建模结果,汇总之后得到一个综合结果,以此来获取比单个模型更好的回归或分类的表现。bagging装袋法 通过构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估其的结果。代表模型是随机森林。boosting提升法 基评估器是相关的,按顺序一一构建。核心是结合弱评估器的力量一次次对难以评估的样本进行预测,从而构成一个强评估器。代表模型是Adaboost和梯度提升树。stacking原创 2021-12-07 16:24:30 · 1685 阅读 · 0 评论 -
决策树是如何使用的
决策树是如何工作的能够从一系列有特征和标签中总结出决策规则,并用树状图结构来呈现出来。关键概念:节点(根节点,中间节点,叶子节点,子节点,父节点)核心问题:如何从数据表中找出最佳节点和最佳分支?如何让决策树停止生长,防止过拟合?sklearn:1.实例化建立评估模型对象2.通过模型接口训练模型3.通过模型接口提取需要信息from sklearn import treefrom sklearn.datasets ...原创 2021-12-06 20:08:43 · 662 阅读 · 0 评论