- 博客(11)
- 问答 (1)
- 收藏
- 关注
原创 回 归 树
小记因为最近学习了一些关于XGBoost的知识,所以想要把关于树形算法总结学习一下,当初初入机器学习的时候学完分类决策树后就结束了树形算法的学习,接下来几节就是对自己最近学习的树形算法的记录和总结,方便自己回顾。主要学习参考了Microstrong和李航老师的统计学习方法在初入机器学习的时候,学习了分类决策树,在之前的博客中也写过,用id3算法实现,在这里又继续学习了回归决策树。其二者的区别就是: 分类决策树用于处理离散性数据,而回归决策树处理连续性数据。*CART分类树是一种二分递归分割的技术,.
2022-02-24 22:17:53 1155
原创 决策树-ID3算法
决策树决策树算法是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。我们使用决策树算法最重要的目的就是为了分类,那么要分成什么样子呢?下面就给我们展示出来了:这就是我们在一堆原始数据中所要构成的决策树就比如快要到你和你的女朋友的纪念日了,你在想到底送个什么样的礼物合适,那么加入现在有一颗决策树就可以特别轻松的解决你的问题了,当然这课树上得有不同节日的选项,以及你女朋友所喜欢东西的类型,是喜
2022-02-21 21:03:31 7177
原创 标准方程法
标准方程法在之前处理一元线性回归和多元线性回归的时候我们所使用处理代价函数的方法是梯度下降法,那么这里介绍一种新的方法叫做标准方程法,标准方程法更多的是去运用矩阵来进行数据处理和运算:就是要求解曲线中最低的那个点,所以对代价函数求导为0解出θ0,θ1…这是我们使用w代替θ成为权值,因为有五个数据,所以我们这里生成了五个权值。这里我们使用矩阵代替了代价函数的形式,Xw相当于一个四行一列的矩阵每一行都是(x0w0+x1w1+x2w2+x3w3+x4w4) 这样的四行一列的数据,正好与y矩阵四行一列相
2022-02-21 21:02:55 585
原创 岭回归和LOSS回归
岭回归上一节我们说到了 标准方程法,最后说到如果数据的特征比样本点还要多的时候,此时(XTX)不是满秩矩阵,就没有办法求出逆矩阵。所以我们这里引入了岭回归的概念。标准方程法最后推出来的公式为:岭回归的公式为:这里就通过一点扰动使其变成满秩矩阵。那么这个公式的由来的表示就是原代价函数经过正则化变成L2正则化的代价函数:数学符号λ为岭系数。没有加入正则项是一个无偏估计,加上正则项变成有偏估计,所以岭回归是一种有偏估计。这里就要涉及到λ的取值,选择一个好的取值最好可以达到使得上图中后面的函
2022-02-21 21:02:31 894
原创 逻辑 回归
逻辑回归我们之前讲述了线性回归,那么这里面引入逻辑回归,逻辑回归更侧重于数据的分类。我们在线性回归中所说的无论是一元线性回归,多元线性回归或者是多项式回归,其函数构造成代价函数之后可能是非凸函数,所以使用梯度下降法可能会造成求出的是局部最小值。所以我们在参数回归中所用到的函数是 sigmoid函数,而且是用参数矩阵和sigmoid函数所结合:在图像中我们用0.5作为边界,大于0.5的都可以归到1里面,小于0.5的都可以归于0中,便于分类。我们想要想到决策边界,就是就数据分成不同类型的边界,
2022-02-21 21:02:05 929
原创 支持向量机SVM
支持向量机SVM首先我们在之间的学习中,在已知一些数据将他们划分为不同种类的数据,找到最合适的函数直线或者曲线或者超平面,比如下面的:而SVM的目的也在于去分类,但是其目的是找到区分两类最大边际的超平面:观察上面的图像,wx+b=1和wx+b=-1是两条边际线,那么我们下面做一些推导:这里会用到向量内积:那么最后推导出来d=2/||w||,因为d是两条边界线的距离,我们使用SVM就是寻找最大两条边际线,所以就把问题转化为求d的最大值,也就是求||w||/2的最小值对于求min||w|
2022-02-21 21:01:32 383
原创 聚类 算法
聚类算法聚类算法,就是在一系列的已知样本点中,通过限制条件和要求,从一个随机的起始点开始不断在周围寻找合适的点当作同一个类。下面我先举一个列子方便大家理解首先有四个样本点从左到右记作A,B,C,D。我们先随机取(1,1)(2,1)为两个分类中心点,两类分别为group1和group2。那么现在分为两类了。分别计算四个点到分类中心点的距离:对比到两个中心点的距离可知:A距离group1近,B距离group2近,C距离group2近,D距离group2近.经过第一次计算之后我们得到:因为A独自
2022-02-21 21:00:59 390
原创 多元线性和多项式回归
多元线性回归上一个博客 我们说了一元线性回归,那么来看一下多元线性回归一元函数的公式是而多元函数的公式:其实就是相当于位置参数的变量都增多了,我们的解决办法依旧可以使用我们一元线性回归当中的代价函数和梯度下降算法。代价函数依旧是:梯度下降算法为:我们可以看到,有多少个参数变量,我们就都给他构造出来,只是比一元线性回归中多一些参数直接上代码:先导入包:import numpy as npfrom numpy import genfromtxtimport matplotlib
2021-05-10 22:10:32 2879
原创 一元线性回归
回归模型回归最早是由英国科学家弗朗西斯高尔顿提出的。现在回归是指:指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。我们最简单的理解就是构造出一个模型能极大的满足符合现在已经有的数据。最简单的就是一元线性回归:一元线性回归:一元线性回归就是现在已有的散点图,构造出最合适的y = kx +b 去极大的满足符合所有的点,运用代价函数我们不断的去调节k和b(斜率
2021-05-10 21:20:57 1538
原创 K-近邻算法
K-近邻算法:1. 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。初次接触我们通俗的来讲就是: &n
2021-01-15 09:21:04 205
空空如也
关于kaggle 泰坦尼克号的预测机器学习和深度学习结果的问题
2021-10-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人