自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 统计学习导论(十)无监督学习——学习笔记

无监督学习(unsupervised learning)旨在发现由X1,X2,…,XpX_{1}, X_{2}, \dots, X_{p}X1​,X2​,…,Xp​构成的观测空间中一些有价值的模式:是否可以找到一种将数据中主要的信息集中显示出来的可视化方法?能否从变量或观测中找到一些子类?无监督学习就是回答诸如此类问题的一类技术。这里主要介绍两种特定形式的无监督学习,即主成分分析(principle components analysis, PCA)和聚类分析(clustering)。主成分分析是一种用于数

2021-11-04 13:35:17 1099

原创 统计学习导论(九)支持向量机——习题

2021-11-04 13:34:21 657

原创 统计学习导论(九)支持向量机——学习笔记

1. 最大间隔分类器1.1 超平面(hyperplane)p维空间中,超平面是p-1维的平面仿射子空间。对一个p维的超平面:β0+β1X1+β2X2+…+βpXp=0\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\ldots+\beta_{p} X_{p}=0β0​+β1​X1​+β2​X2​+…+βp​Xp​=0若β0+β1X1+β2X2+…+βpXp>0\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\ldots+\b

2021-11-01 21:12:25 1098

原创 统计学习导论(八)基于树的方法——习题

——————————

2021-10-29 21:21:51 1307 2

原创 Python操作遇到的基本问题

1. 更改当前路径import osprint(os.getcwd()) #显示当前路径os.chdir('F:\Python\Python code') #更改目标路径print(os.getcwd())2. 安装模块问题1使用pip install 模块,显示ValueError: Unable to find resource……原因:pip版本过低,更新pip使用指令:pip3 install --upgrade pip若出现错误,卸载setuptools之后,再更新,然

2021-10-29 19:51:13 164

转载 PCA+SVM人脸识别算法

数据来源:英国剑桥大学的AT&T人脸数据#导入模块import cv2 #openCV 模块 用于图像处理import numpy as npfrom sklearn.model_selection import train_test_split #用于切分训练集和测试集from sklearn.decomposition import PCA #PCA降维from sklearn.svm import SVC #支持向量机data=[]#存放图像数据label=

2021-10-29 19:17:30 559

原创 统计学习导论(八)基于树的方法——学习笔记

基于树的回归和分类方法,主要根据分层和分割的方式将预测变量空间划分为一系列简单区域。对某个给定带预测的观测值,用它所属区域中训练集的平均值或众数对其进行预测,由于划分预测变量空间的分裂规则可以被概括为一棵树,所以该类方法被称为决策树方法。本章包含装袋法(bagging)、随机森林(random forest)、提升法(boosting),先建立多棵树,再综合,最后根据表决产生预测。将大量的树集成后会极大提升预测准确性,同时也会损失一些解释性。1. 决策树基本原理1.1 回归树(Regression t

2021-10-27 22:23:37 1405

原创 统计学习导论(七)非线性模型——习题

a.对任意x≤ξx \leq \xix≤ξ,满足f(x)=f1(x)f(x)=f_{1}(x)f(x)=f1​(x),有:a1=β0,b1=β1,c1=β2,d1=β3a_{1}=\beta_{0}, b_{1}=\beta_{1}, c_{1}=\beta_{2}, d_{1}=\beta_{3}a1​=β0​,b1​=β1​,c1​=β2​,d1​=β3​b.对任意x>ξx>\xix>ξ,满足f(x)=f2(x)f(x)=f_{2}(x)f(x)=f2​(x),f(x)f...

2021-10-26 22:31:46 1909

原创 统计学习导论(七)非线性模型——学习笔记

1. 多项式回归 Polynomial Regression对线性模型的推广:以预测变量的幂作为新的预测变量来代替原始变量。将标准线性模型yi=β0+β1xi+ϵiy_{i}=\beta_{0}+\beta_{1} x_{i}+\epsilon_{i}yi​=β0​+β1​xi​+ϵi​换成一个多项式函数yi=β0+β1xi+β2xi2+β3xi3+…+βdxid+ϵiy_{i}=\beta_{0}+\beta_{1} x_{i}+\beta_{2} x_{i}^{2}+\beta_{3} x_{i}

2021-10-07 21:49:16 1774

原创 统计学习导论(六)线性模型选择与正则化——习题

(a)最佳子集选择具有最小的训练 RSS,因为其他两种方法确定模型的路径依赖于它们在迭代到第 k 个模型时首先选择的预测变量。(b)最佳子集选择可能具有最小的测试 RSS,因为它考虑了比其他方法更多的模型。 但是,其他模型可能会更幸运地选择更适合测试数据的模型。(c)i. True.ii. True.iii. False.iv. False.v. False.(a)lassoiii. 由于方差较小,偏差较大,因此灵活度较低且预测效果更好(b)Ridge regressio...

2021-10-06 17:18:42 3560

原创 统计学习导论(六)线性模型选择与正则化——学习笔记

1. 子集选择1.1 最优子集选择对ppp个预测变量的所有可能组合分别使用最小二乘回归进行拟合:对含有一个预测变量的模型,拟合ppp个模型;对含有两个预测变量的模型,拟合p(p−1)/2p(p-1)/2p(p−1)/2个模型……,最后在所有可能模型中选取最优模型。算法1 最优子集选择(p个变量,在2p2^p2p个模型中选择最优模型)1. 记不含预测变量的零模型为M0M_{0}M0​,只用于估计各观测的样本均值2. 对于k=1,2,……,pk=1,2,……,pk=1,

2021-09-22 21:54:34 1421 1

原创 Sparse Coding 稀疏编码

稀疏编码为无监督学习,用来寻找一组“超完备”基向量来更高效地表示样本数据,将输入向量表示为这些基向量的线性组合。编码储存能力大,有联想记忆能力。1. 原理假设有一组基向量ϕi\phi_{i}ϕi​,将输入向量XXX表示为这些基向量的线性组合:x=∑i=1kaiϕi\mathbf{x}=\sum_{i=1}^{k} a_{i} \phi_{i}x=i=1∑k​ai​ϕi​相对于主成分分析(PCA)找到一组“完备”基向量,我们使用稀疏编码能够找到一组“超完备”基向量来表示输入向量x∈Rn\mathb

2021-09-22 13:32:08 417

原创 统计学习导论(五)重抽样法——习题

概念Var⁡(X+Y)=Var⁡(X)+Var⁡(Y)+2Cov⁡(X,Y)Var⁡(cX)=c2Var⁡(X)Cov⁡(cX,Y)=Cov⁡(X,cY)=Cov⁡(X,Y)\begin{gathered}\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)+2 \operatorname{Cov}(X, Y) \\\operatorname{Var}(c X)=c^{2} \operatorname{Var}(

2021-09-17 17:05:51 1622

转载 自动编码器(Autoencoder)

https://blog.csdn.net/u010089444/article/details/52601193

2021-08-10 15:18:11 125

原创 统计学习导论(四)分类学习笔记

1 分类问题概述分类模型(classifier)是一种用来预测定性响应变量的方法。我们将讨论三种应用最广泛的分类方法:洛吉斯蒂回归(logistic regression)、线性判别分析(linear discriminant analysis, LDA)和K最近邻(KNN)2 为什么线性回归不可用线性回归在预测定性响应变量下是不可用的,原因:通常我们不能将一个定性的响应变量自然地转化为两水平以上地定量变量来建立线性回归模型。(这样做实际会默认一个有序地输出)。对一个二元响应变量,最小二乘回归是有意

2021-07-08 16:22:57 1381

原创 统计学习导论(五)重抽样法-学习笔记

1 交叉验证法(Cross Validation, CV)1.1 验证集方法(Validation set approach)方法原理:把获得的观测数据随机分为两部分:一部分为训练集(通常为原始数据集的一半),另一部分为验证集,或者叫保留集。在训练集上拟合模型,用拟合的模型在验证集上计算响应变量的值,进而得到验证集错误率,即测试错误率。方法缺陷:测试错误率的波动会很大,这取决于哪部分数据在训练集中,哪部分数据在验证集中。在验证集方法中,只有一部分观测数据(没用到所有的数据)被用于拟合模型。由于训

2021-07-08 16:22:35 1577

原创 统计学习导论(三)习题

概念在表3.4中,“电视”的零假设是,在存在广播广告和报纸广告的情况下,电视广告对销售没有影响。“广播”的零假设是,在电视和报纸广告存在的情况下,广播广告对销售没有影响。“报纸”的零假设是,在电视和广播广告存在的情况下,报纸广告对销售没有影响。电视和广播的低p值表明出现零假设正确的概率比较小,我们有理由拒绝零假设,认为电视和广播对销售产生影响。而报纸的p值较大,说明我们没有理由拒绝零假设,认为报纸对销售基本没有影响。KNN分类器的输出结果是定性变量;KNN回归的输出结果是定量变量。Y=50+20G

2021-07-07 03:08:56 2591

原创 统计学习导论(三)线性回归学习笔记

1 简单线性回归假定XXX 和YYY 存在线性关系,然后估计待估参数。1.1 估计系数估计系数的原则: 最小化残差平方和(residual sum of squares, RSS),其中RSS的值由下列式子给出:RSS=∑i=1nei2RSS=\sum_{i=1}^{n} e_{i}^{2}RSS=i=1∑n​ei2​​其中,ei=yi−y^ie_{i}=y_{i}-\hat{y}_{i}ei​=yi​−y^​i​代表第i个残差,从RSS的定义可以发现,RSS=n*(training MSE)。

2021-07-06 01:47:58 2029

原创 统计学习导论(二)习题

1.概念题(a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高的学习模型更好。(b) 当样本量n非常小,预测变量数p很大时,这样容易过拟合,所以一个光滑度更小的学习模型更好。© 当预测变量与响应变量之间的关系是非线性时,说明光滑度小的模型会容易欠拟合,所以光滑度高的模型更适合。(d) 在这里,方差是指用一个不同的训练数据集估计f时,估计函数的改变量。一般来说,光滑度越高的统计模型有更高的方差,所以这里选择一个光滑度小的模型。分类器:变量是定性的回归模型:变量

2021-05-09 01:38:36 4795 2

原创 统计学习导论(二)学习笔记

1 统计学习概念X常称为: input variable(输入变量), predictor(预测变量),independent variable(自变量), feature(属性), variable (变量)Y常称为:response variable(响应变量),dependent variable(因变量)建立模型:Y=f(x)+ϵY=f(x)+ϵY=f(x)+ϵfff是X1,X2,...,XPX_{1},X_{2},...,X_{P}X1​,X2​,...,XP​的函数,是确定的也是未知的

2021-05-07 15:24:27 1551

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除