自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (2)
  • 收藏
  • 关注

原创 逻辑回归算法原理及python实现

引言逻辑回归(Logistic Regression)是一种分类学习算法,其本质是将样本的特征和样本发生的概率联系起来,由于发生的概率是一个数值,因此称为回归算法。主要解决2分类问题,例如:一个垃圾邮件过滤系统,x是邮件的特征,预测的y值就是邮件的类别(是垃圾邮件还是正常邮件)。逻辑回归算法原理逻辑回归算法步骤如下计算样本发生的概率值,即 p^=f(x)\hat p=f(x)p^​=f(x)根据样本发生的概率分类y^={1 , p^≥0.50 , p^≤

2022-04-23 22:27:11 3627

原创 多项式回归与模型泛化

引言在实际应用场景中,数据之间是线性关系情况是非常少的,数据之前更多的是非线性关系,当数据之间为非线性关系时,可以通过简单的处理,用线性回归算法来分析非线性数据。线性与非线性的区别:常用于区别函数y =f (x)对自变量x的依赖关系。线性函数即一次函数,其图像为一条直线。 其它函数则为非线性函数,其图像是除直线以外的图像。多项式回归多项式回归原理当样本数据分布如下图所示时,如果样本只有一个特征即xxx,样本分布函数为y=a∗x2+b∗x+cy =a*x^2+b*x+cy=a∗x2+b∗x+c,此时

2022-04-17 20:09:10 1108

原创 机器学习模型正则化与岭回归、LASSO回归

模型正则化为了解决机器学习中方差过大问题,常用的手段是模型正则化,其原理是限制多项式模型中特征系数θ\thetaθ,不让其过大,导致过拟合。在线性回归模型中,目标是使得损失函数尽可能小J(θ)=∑i=1m(y(i)−θ0−θ1X1(i)−……−θnXn(i))2J(\theta)=\sum_{i=1}^m (y^{(i)}-\theta_0-\theta_1X^{(i)}_1-……-\theta_nX_n^{(i)})^2J(θ)=i=1∑m​(y(i)−θ0​−θ1​X1(i)​−……−θn​Xn(

2022-04-17 18:36:20 1757

原创 机器学习交叉验证(Cross Validation)

交叉验证步骤首先将样本数据分为训练数据及测试数据将训练数据分为K份将K份数据选出1份做验证数据集,其他做训练数据将训练出的模型评分做平均交叉验证一般用来调参。sklearn实现交叉验证import numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets import load_digitsfrom sklearn.neighbors import KNeighborsC

2022-04-14 22:13:38 924

原创 机器学习中的偏差与方差平衡

文章目录偏差方差偏差偏差是指测定值与测定的平均值之差,如图所示,所有点都偏离了红色目标点,导致偏差的主要原因:对问题本身的假设不准确,即欠拟合,如非线性数据使用线性回归模型。方差方差是衡量数据离散程度的度量。如图所示,所有点看似都围绕红色目标点,但是分布太过分散,不集中。数据的一点扰动都会较大的影响模型,通常原因是使用的模型太复杂,导致过拟合。机器学习的主要问题是高方差,解决高方差的常用手段:降低模型复杂度减少数据维度;降噪增加样本数使用验证集模型正则化...

2022-04-14 17:57:10 511

原创 主成分分析(PCA)与梯度上升

引言主成分分析算法(PCA)主要用于数据降维,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。主成分分析法也能更方便的可视化数据以及对数据去噪。主成分分析法原理在一个2维空间中,样本有2个特征,如果对数据进行降维,降到1维,首先将样本点全部映射到x轴或者全部映射到y轴。当样本点映射到x轴或y轴时发现样本点之前的距离压缩较大,此时我们可以寻找出一条直线,样本点映射到这条直线上样本点之间的距离相距

2022-04-11 21:07:40 351

原创 python中axis=0与axis=1区别

python中很多方法有axis这个参数,很简单,axis = 0 代表对横轴操作,axis = 1 代表对纵轴操作。import numpy as npimport matplotlib.pyplot as pltx = np.array([[1,3,9],[2,4,6]])#输出array([[1, 3, 9], [2, 4, 6]])np.mean,当axis=1时,对矩阵纵轴操作,但是运算的过程中方向是纵向,即1,3,9求平均数...

2022-04-08 20:42:57 430

原创 梯度下降法原理及python实现

引言梯度下降法不是机器学习算法,不能用来解决分类或回归问题,而是一种基于搜索的最优化方法,作用是优化目标函数,如求损失函数的最小值,即梯度下降法。梯度梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。如单变量函数y=x2,其导数为∇\nabla∇y=2*x,此时在x=2处的梯度为4,如果函数为多变量函数,梯度则为一个向量(∂yx1\quad {\partial y \over x_1}x1

2022-04-05 21:34:44 3080

原创 线性回归算法评估指标MSE、RMSE、MAE、R方

评价线性回归的指标有四种,均方误差(Mean Squared Error)、均方根误差(Root Mean Squared Error)、平均绝对值误差(Mean Absolute Error)以及R Squared方法均方误差(Mean Squared Error)测试数据实际值

2022-04-01 15:49:13 7864 1

原创 线性回归算法原理及python实现

引言回归与分类的区别区分回归与分类其实很简单,举个例子,预测病人患病概率,结果只有患病和不患病2种,这就是分类;预测房价,结果可能是在一段区间内,这个就是回归。线性回归线性回归是利用数理统计中回归分析方法,其本质是寻找出一条线最大程度的拟合特征及样本输出间的关系。线性回归具有以下特点思想简单,容易实现是其他许多非线性回归模型的基础结果具有很好的可解释性简单线性回归原理及推导当样本只有一个特征时,称为简单线性回归。例如房屋价格和房屋面积之间的关系。假设我们找到了最佳的拟合直线方程

2022-03-31 20:08:43 2641

原创 数值归一化

文章目录引言最值归一化均值方差归一化引言假设肿瘤发生的概率和肿瘤大小及发现时间这2个特征有关,用欧拉距离计算样本1和样本2之间的距离,可以看出距离被发现时间这一特征所主导,这显然是不合理的,如果不对数据进行合理处理,最终计算的结果很有可能是有偏差的,不能反映出每一个特征的重要程度,因此要对数据进行归一化处理。所谓归一化处理就是将所有数据映射到同一尺度中。最值归一化最简单的方式称之为最值归一化,即将所有数据映射到0-1之间这种方法适用于分布有明显边界的数据,例如,考试成绩,但这个方法受outli

2022-03-28 21:14:28 464

原创 KNN算法原理及python实现

1 KNN算法原理2 python手工实现KNN算法3 sklearn实现KNN算法1 KNN算法原理1.1 基本概念KNN(K-NearestNeighbor)即K近邻算法,是数据挖掘分类技术中最简单的方法之一。所谓K近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。1.2 KNN算法原理假设特征空间有8个样本点,其中红色点为良性肿瘤,蓝色点为恶性肿瘤,现在要预测绿色点是良性肿瘤还是恶性肿瘤,我们需要计算出绿色点到所有其他样本点的距离,选择出距离最小的K.

2022-03-27 22:03:05 16023 3

原创 stability_selection.randomized_lasso报错ModuleNotFoundError: No module named ‘sklearn.externals.joblib

跟着数据分析与挖掘学习,发现包太老,有许多报错,在安装完stability_selection执行代码报错ModuleNotFoundError: No module named ‘sklearn.externals.joblib’from stability_selection.randomized_lasso import RandomizedLogisticRegression as RLR百度一下发现报错原因是sklearning新版本移除joblib,github一看stability_s

2022-02-24 18:02:23 1439

原创 Pandas报错A value is trying to be set on a copy of a slice from a DataFrame.

在这里插入代码片

2022-02-14 11:09:25 923

原创 pandas中使用绝对路径和相对路径

相对路径.py文件相对路径,例:放在同一个目录下#-*- coding: utf-8 -*-import pandas as pddata = pd.read_excel('catering_sale2.xls', index_col=u'日期')print(data.describe())绝对路径任意文件夹,在路径前加r即可data = pd.read_excel(r'C:\Users\yy\Downloads\catering_sale2.xls', index_col=u'日.

2021-05-25 15:17:16 8492

原创 winbind/smb服务错误Could not fetch our SID - did we join?/failed to setup guest info

有的时候在切换集群之后会出现samba资源反复failed、starting,查看samba服务状态failed,并且有ERROR: failed to setup guest info.打印,查看samba服务状态查看samba源码,错误不是很明显,再看看winbind服务,出现了Could not fetch our SID - did we join?,有点眼熟,这个是samba从secrets.tdb中读取不到域sid导致,secrets.tdb保存samba的用户账号/密码,还有域相关的一些信

2020-05-08 18:56:42 1676

原创 winbind服务作用

Winbind是Samba程序套件的一个组件,可以解决统一登录问题。Winbind使用Microsoft RPC调用,可插入身份验证模块(PAM)和名称服务开关(NSS)的UNIX实现,以允许Windows NT域用户在UNIX计算机上出现并作为UNIX用户运行。本章介绍Winbind系统,其提供的功能,如何配置以及如何在内部工作。Winbind提供了三个独立的功能: 验证用户凭据(通过P...

2020-04-29 16:20:16 3549

Python与信贷风险-课件-数据集

第1章 课程涵盖的内容 第2章 信贷风险建模介绍 第3章 设置环境 第4章 数据集描述 第5章 一般预处理 第6章 违约概率(PD)模型:数据准备 第7章 PD模型估计] 第8章 PD模型验证(测试 第9章 将PD模型应用于决策制定 第10章 PD模型监测 第11章 违约损失(LGD)模型和违约风险敞口(EAD)模型 第12章 LGD模型 第13章 EAD模型 第14章 计算预期损失

2022-04-25

kaggle “give me some credit”数据集

kaggle “give me some credit”数据集

2022-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除