德乌大青蛙-CSDN博客

原创逻辑回归算法原理及python实现

引言逻辑回归（Logistic Regression）是一种分类学习算法，其本质是将样本的特征和样本发生的概率联系起来，由于发生的概率是一个数值，因此称为回归算法。主要解决2分类问题，例如：一个垃圾邮件过滤系统，x是邮件的特征，预测的y值就是邮件的类别（是垃圾邮件还是正常邮件）。逻辑回归算法原理逻辑回归算法步骤如下计算样本发生的概率值，即 p^=f(x)\hat p=f(x)p^=f(x)根据样本发生的概率分类y^={1 ， p^≥0.50 ， p^≤

2022-04-23 22:27:11 3700

原创多项式回归与模型泛化

引言在实际应用场景中，数据之间是线性关系情况是非常少的，数据之前更多的是非线性关系，当数据之间为非线性关系时，可以通过简单的处理，用线性回归算法来分析非线性数据。线性与非线性的区别：常用于区别函数y =f (x)对自变量x的依赖关系。线性函数即一次函数，其图像为一条直线。其它函数则为非线性函数，其图像是除直线以外的图像。多项式回归多项式回归原理当样本数据分布如下图所示时，如果样本只有一个特征即xxx，样本分布函数为y=a∗x2+b∗x+cy =a*x^2+b*x+cy=a∗x2+b∗x+c，此时

2022-04-17 20:09:10 1122

原创机器学习模型正则化与岭回归、LASSO回归

模型正则化为了解决机器学习中方差过大问题，常用的手段是模型正则化，其原理是限制多项式模型中特征系数θ\thetaθ，不让其过大，导致过拟合。在线性回归模型中，目标是使得损失函数尽可能小J(θ)=∑i=1m(y(i)−θ0−θ1X1(i)−……−θnXn(i))2J(\theta)=\sum_{i=1}^m (y^{(i)}-\theta_0-\theta_1X^{(i)}_1-……-\theta_nX_n^{(i)})^2J(θ)=i=1∑m(y(i)−θ0−θ1X1(i)−……−θnXn(

2022-04-17 18:36:20 1804

原创机器学习交叉验证(Cross Validation)

交叉验证步骤首先将样本数据分为训练数据及测试数据将训练数据分为K份将K份数据选出1份做验证数据集，其他做训练数据将训练出的模型评分做平均交叉验证一般用来调参。sklearn实现交叉验证import numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets import load_digitsfrom sklearn.neighbors import KNeighborsC

2022-04-14 22:13:38 946

原创机器学习中的偏差与方差平衡

文章目录偏差方差偏差偏差是指测定值与测定的平均值之差，如图所示，所有点都偏离了红色目标点，导致偏差的主要原因：对问题本身的假设不准确，即欠拟合，如非线性数据使用线性回归模型。方差方差是衡量数据离散程度的度量。如图所示，所有点看似都围绕红色目标点，但是分布太过分散，不集中。数据的一点扰动都会较大的影响模型，通常原因是使用的模型太复杂，导致过拟合。机器学习的主要问题是高方差，解决高方差的常用手段：降低模型复杂度减少数据维度；降噪增加样本数使用验证集模型正则化...

2022-04-14 17:57:10 520

原创主成分分析(PCA)与梯度上升

引言主成分分析算法（PCA）主要用于数据降维，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的信息量最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。主成分分析法也能更方便的可视化数据以及对数据去噪。主成分分析法原理在一个2维空间中，样本有2个特征，如果对数据进行降维，降到1维，首先将样本点全部映射到x轴或者全部映射到y轴。当样本点映射到x轴或y轴时发现样本点之前的距离压缩较大，此时我们可以寻找出一条直线，样本点映射到这条直线上样本点之间的距离相距

2022-04-11 21:07:40 368

原创 python中axis=0与axis=1区别

python中很多方法有axis这个参数，很简单，axis = 0 代表对横轴操作,axis = 1 代表对纵轴操作。import numpy as npimport matplotlib.pyplot as pltx = np.array([[1,3,9],[2,4,6]])#输出array([[1, 3, 9], [2, 4, 6]])np.mean，当axis=1时，对矩阵纵轴操作，但是运算的过程中方向是纵向，即1,3,9求平均数...

2022-04-08 20:42:57 439

原创梯度下降法原理及python实现

引言梯度下降法不是机器学习算法，不能用来解决分类或回归问题，而是一种基于搜索的最优化方法，作用是优化目标函数，如求损失函数的最小值，即梯度下降法。梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。如单变量函数y=x2，其导数为∇\nabla∇y=2*x，此时在x=2处的梯度为4，如果函数为多变量函数，梯度则为一个向量(∂yx1\quad {\partial y \over x_1}x1

2022-04-05 21:34:44 3119

原创线性回归算法评估指标MSE、RMSE、MAE、R方

评价线性回归的指标有四种，均方误差（Mean Squared Error）、均方根误差（Root Mean Squared Error）、平均绝对值误差（Mean Absolute Error）以及R Squared方法均方误差（Mean Squared Error）测试数据实际值

2022-04-01 15:49:13 8149 1

原创线性回归算法原理及python实现

引言回归与分类的区别区分回归与分类其实很简单，举个例子，预测病人患病概率，结果只有患病和不患病2种，这就是分类；预测房价，结果可能是在一段区间内，这个就是回归。线性回归线性回归是利用数理统计中回归分析方法，其本质是寻找出一条线最大程度的拟合特征及样本输出间的关系。线性回归具有以下特点思想简单，容易实现是其他许多非线性回归模型的基础结果具有很好的可解释性简单线性回归原理及推导当样本只有一个特征时，称为简单线性回归。例如房屋价格和房屋面积之间的关系。假设我们找到了最佳的拟合直线方程

2022-03-31 20:08:43 2680

原创数值归一化

文章目录引言最值归一化均值方差归一化引言假设肿瘤发生的概率和肿瘤大小及发现时间这2个特征有关，用欧拉距离计算样本1和样本2之间的距离，可以看出距离被发现时间这一特征所主导，这显然是不合理的，如果不对数据进行合理处理，最终计算的结果很有可能是有偏差的，不能反映出每一个特征的重要程度，因此要对数据进行归一化处理。所谓归一化处理就是将所有数据映射到同一尺度中。最值归一化最简单的方式称之为最值归一化，即将所有数据映射到0-1之间这种方法适用于分布有明显边界的数据，例如，考试成绩，但这个方法受outli

2022-03-28 21:14:28 515

原创 KNN算法原理及python实现

1 KNN算法原理2 python手工实现KNN算法3 sklearn实现KNN算法1 KNN算法原理1.1 基本概念KNN（K-NearestNeighbor）即K近邻算法，是数据挖掘分类技术中最简单的方法之一。所谓K近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。1.2 KNN算法原理假设特征空间有8个样本点，其中红色点为良性肿瘤，蓝色点为恶性肿瘤，现在要预测绿色点是良性肿瘤还是恶性肿瘤，我们需要计算出绿色点到所有其他样本点的距离，选择出距离最小的K.

2022-03-27 22:03:05 16384 3

原创 stability_selection.randomized_lasso报错ModuleNotFoundError: No module named ‘sklearn.externals.joblib

跟着数据分析与挖掘学习，发现包太老，有许多报错，在安装完stability_selection执行代码报错ModuleNotFoundError: No module named ‘sklearn.externals.joblib’from stability_selection.randomized_lasso import RandomizedLogisticRegression as RLR百度一下发现报错原因是sklearning新版本移除joblib，github一看stability_s

2022-02-24 18:02:23 1494

原创 Pandas报错A value is trying to be set on a copy of a slice from a DataFrame.

在这里插入代码片

2022-02-14 11:09:25 936

原创 pandas中使用绝对路径和相对路径

相对路径.py文件相对路径，例：放在同一个目录下#-*- coding: utf-8 -*-import pandas as pddata = pd.read_excel('catering_sale2.xls', index_col=u'日期')print(data.describe())绝对路径任意文件夹，在路径前加r即可data = pd.read_excel(r'C:\Users\yy\Downloads\catering_sale2.xls', index_col=u'日.

2021-05-25 15:17:16 9009

原创 winbind/smb服务错误Could not fetch our SID - did we join?/failed to setup guest info

有的时候在切换集群之后会出现samba资源反复failed、starting，查看samba服务状态failed，并且有ERROR: failed to setup guest info.打印，查看samba服务状态查看samba源码，错误不是很明显，再看看winbind服务，出现了Could not fetch our SID - did we join?，有点眼熟，这个是samba从secrets.tdb中读取不到域sid导致，secrets.tdb保存samba的用户账号/密码，还有域相关的一些信

2020-05-08 18:56:42 1751

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_45137294的博客