- 博客(37)
- 资源 (1)
- 收藏
- 关注
原创 非负矩阵分解(NMF)的Matlab实例与说明
原理啥的到处都有,就直接跳过了。这里主要是NMF的基础实验。下一篇是NMF的高光谱实验总结。1. matlab示例解说这一节的图片来自官方文档。这里第一和第三变量在第一行的值0.6945和0.62220对W的第一列有相当强的权重。第一个第二变量在第二行的值0.8020和0.5683对W的第二列有相当大的权重。其中,H的转置是4乘2大小的。也就是有4个变量【SW,SL,PL,PW】,2个特征【所以是二维坐标轴X和Y轴】,转化到二维图上。使用W当做’scores’做出散点图。然后标签是这四个。
2021-06-12 15:52:04 9719 8
原创 切片逆回归SIR简要说明
注意:本文来自肖珍《基于切片逆回归的高维确实数据降维》与李文娟的《混合正态分布下的切片逆回归》这里没太说清楚,和下一张图结合起来一起看
2021-05-18 11:05:28 4037
原创 充分降维的基本概念与理解
1. 充分降维的概念本章笔记来自wiki,符号与论文统一1.1. 概要在统计学中,充分降维(SDR)是一种分析数据的范例,它结合了降维的思想和充分性的概念。有响应变量YYY和预测变量XXX。回归分析就是去学习Y∣XY|XY∣X的分布。也就是给定XXX求YYY的条件分布E(y∣X=x)=E(a+bx+ϵ∣X=x)=a+bxE(y|X=x)=E(a+bx+\epsilon|X=x)=a+bxE(y∣X=x)=E(a+bx+ϵ∣X=x)=a+bx降维就是一个函数R(X)R(X)R(X),把XXX映射
2021-04-30 17:36:10 2857 3
原创 SPCAvRP子空间估计的代码阅读
总览data:n×pn\times pn×pSPCAvRP_subspace <- function( data # either the data matrix or the sample covariance matrix , cov = FALSE # TRUE if data is given as a sample covariance matrix
2021-04-22 17:22:34 206
原创 各类范数定义速查;奇异值与特征值
1. 向量范数P-范数:∥x∥p=(Σ∣xi∣p)1/p\|x\|_p=(\Sigma|x_i|^p)^{1/p}∥x∥p=(Σ∣xi∣p)1/p。matlab调用norm(x,p)。norm(x)默认为二范数,也就是欧几里得范数∞\infty∞-范数:∥x∥∞=maxi∣xi∣\|x\|_{\infty}=\mathop{max}\limits_i|x_i|∥x∥∞=imax∣xi∣。matlba调用为norm(x,inf)−∞-\infty−∞-范数:∥x∥−∞=mini∣xi∣\|x
2021-04-21 08:01:23 1827
原创 使用matlab中PCA包进行训练集与测试集处理
使用matlab中PCA包进行训练集与测试集处理1. matlab中PCA包的使用与分析2. 训练集与测试集降维处理1. matlab中PCA包的使用与分析[coeff, score, latent ] = pca(X);其中,X∈Rn×mX \in\mathbb{R}^{n\times m}X∈Rn×m。n = #sample,m = #feature。而获取到的有:coeff :特征向量。每一列表示一个特征向量。并按特征值从大到小排序score :新数据。使用PCA后的数据表示,大小和X一致
2021-03-19 22:15:32 2182 4
原创 matlab-knn使用
play with knn1. 什么是knn1.1. 什么是knn1.2. knn适用范围2. knn实验前的准备2.1. knn的实验要点3. knn的matlab实验【使用UCI数据集】3.0. KNN函数自带用例3.1. UCI数据集3.2. knn实验计划3.3. 数据集筛选3.4. play with knn4. 总结1. 什么是knn1.1. 什么是knn来了一个无标签的样本,找它的周围邻居(有标签)投票。1.2. knn适用范围优点:1、KNN算法是一个非常简单的算法,理论成熟,思
2021-02-22 19:41:19 7599 1
原创 标准化,归一化与训练-测试集数据处理
标准化,归一化与训练-测试集数据处理1. 标准化,归一化的区别数据预处理的归一化手段应该如何应用到训练集,测试集和验证集中?问题:回答1:回答2问题3回答1回答2问题4回答11. 标准化,归一化的区别作者:宝珠道人链接:https://www.zhihu.com/question/361290840/answer/939504181来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。个人有删改归一化和标准化本质上都是一种线性变换。线性变换保持线性组合与线性关系式不变,这
2021-02-20 12:11:07 17384 7
原创 RPEnsemble代码阅读【R语言】
RPEnsemble代码阅读1.Other.classifier2.R3.RPchoose须知:这个是下载了源代码查看。想知道这玩意儿是不是面向测试集调参函数目录与说明:后面的rd文件(在man文件夹下),略坑。不是源码文件。源码文件在R文件夹下1.Other.classifier跳过,没啥用2.R跳过,这个在man里有,也没啥用3.RPchoose直接上源代码RPChoose <- function(XTrain #n by p trining data matrix
2021-02-18 16:12:32 1014
原创 Random-projection ensemble classification 论文阅读与思考
随机投影集成分类1.论文泛读1.1. 标题1.2. 摘要1.2.1. 方案三级目录1.论文泛读1.1. 标题随机投影集成分类1.2. 摘要1.2.1. 方案这是一个通用方案:对高维数据分类,使用随机投影,将特征向量降维至低维空间,然后使用任意基分类器,选出合适的进行结合。将随机矩阵三级目录...
2021-02-12 21:41:59 412
原创 PR 4 NMF
1.focus on factorizing separable matrices什么是 separable matrices?P是置换矩阵。置换矩阵的每一行和每一列都恰好有一个1,其余元素都是0。在线性代数中,每个n阶的置换矩阵都代表了一个对n个元素(n维空间的基)的置换。2. 使得3.4.原型算法3. A cone is pointed if it does not contain a subspace.4. 5.6....
2021-02-03 19:31:55 153
原创 SPCAvRP 论文阅读与思考
论文题目:Sparse principal component analysis via randomprojectionsSPCAvRP 论文阅读与思考1. 论文泛读1.1. 标题1.2. 摘要1.2.1. 方案1.2.2. 优势1.2.3. 要点1.3. 介绍1.3.1. 前人方法1.3.1.1. PCA1.3.1.2. 高维PCA1.3.1.3. 迭代算法的弊端1.3.1.4. SPCAvRP1.4. 小标题1.5. 结论1.6. 图表1.6.1. 模型的参数选择【4.2】1.6.2. 与他人
2021-01-31 15:01:37 627
原创 数据结构与算法分析python版【笔记】第三章(对应教材)
基本数据结构何为线性数据结构栈(LAST IN FRIST OUT)1.抽象数据类型2.Python 实现3.应用(很重要!)匹配括号进制转换前中后序表达式队列双端队列列表何为线性数据结构一旦某个元素被添加进来,它与前后元素的相对位置保持不变。这样的数据集合经常被称为线性数据结构。栈(LAST IN FRIST OUT)1.抽象数据类型Stack( )push(item)pop()peek()isEmpty()size()2.Python 实现class Stack:
2021-01-17 20:41:03 745
原创 python数据结构与算法分析【笔记】week1&2【含OJ】
目录说明第一章定义类第二章列表字典总结说明在结束MOOC的数据结构与算法python版的课,看了python 数据结构与算法分析(第二版)后,深感内容详实,故记录有用的内容进行总结。发布的代码以课程上的为主,我笔记本上跑过都是通的。课后作业的代码太多,参考了不少,不过即使是我想了很久的,也并不是全部AC。就这样吧(躺)。虽然计算机是人类造的但还是有不少未解之谜。第一章这一章是入门知识。视频内容跳过。书上关于面向对象编程是我不擅长的,因此总结tips。定义类class Fraction:
2021-01-17 11:11:13 666
原创 python sklearn 如何使用 fit,transform
fit直接上例子首先建立一个使用了我们提供的参数的黑箱分类器。参数是随意选的。from sklearn import svmclf = svm.SVC(gamma=0.001, C=100.)clf是第一个分类器。也就意味着,它是从使用了我们提供的训练集的模型里面学习的。对我们传入的数据集,除了最后一个,别的都是训练集。最后一个用来当测试集。from sklearn import datasetsiris = datasets.load_iris()digits = dataset
2020-11-09 11:30:03 4950
原创 Shapiro–Wilk test
该检验是一个正态性检验的频率论统计。该检验的零假设是总体呈正态分布。因此,如果p值小于所选的alpha级别,则原假设被拒绝,并且有证据表明所测试的数据不是正态分布的。另一方面,如果p值大于所选的alpha级别,则不能拒绝原假设(数据来自正态分布的总体)(例如,对于.05的alpha级别,数据集如果p值小于.05,则拒绝原假设(数据来自正态分布的总体)。像大多数统计显着性检验一样,如果样本量足够大,则该检验甚至可以检测到原假设的微不足道的偏差(即,尽管可能具有统计学上的显着影响,但可能太小而没有任何实际意
2020-11-09 08:25:11 2943
原创 核密度估计KDE与直方图的易错点
1. 直方图Python中直方图Y轴有多种。其中,(标准)直方图的Y轴是频数。X轴上的每一段,是一个分组。有每个分组的数据量 = 组距*频数例如,在对比图中,直方图的高分别为1/12,2/12,1/12,0,1/12,1/12.宽度为2.图源来自WIKI。在python3中,norm_hist为True,则直方图的高度默认为密度,而非count(次数)。在含有KDE的图像中,默认为True。用于概率密度的直方图的总面积始终归一化为1。2.KDE 核密度估计核函数就不介绍了,太多了。KDE就
2020-11-07 19:56:29 2060
原创 tips:MATLAB如何计算协方差矩阵
1.源码阅读使用open cov阅读MATLAB源码。别看前面的注释,容易混2.原理MATLAB输入矩阵X是m*n大小。请注意:m是#features,n是#samples。计算的主要代码是:xc = x - sum(x,1)./m; % Remove meanc = (xc' * xc) ./ denom;denom为m-1(m>1)或m(m = 1)。非常有意思的是:a.先移除均值&移除均值的方式;b.denorm 是用来normlize.参考之前的文章,应
2020-11-03 08:26:47 12117
原创 五分钟入门有效集法(Active Set Method)
问题minXg(X)=12XTGX+XTC\mathop{min}\limits_{X}g(X) = \frac{1}{2}X^TGX+X^TCXming(X)=21XTGX+XTCs.t.aiTX=bi,i∈Ea_i^TX = b_i,i\in EaiTX=bi,i∈EaiTX≥bi,i∈Fa_i^TX \geq b_i,i\in FaiTX≥bi,i∈FKKT 矩阵构造拉格朗日乘子,有L(X,λ)=12XTGX+XTC−λT(AX−b)L(X,\lambda)=\frac{1}
2020-08-24 22:24:20 2705
原创 R tips:从QR对象重建Q,R或X矩阵
基础知识简介qr用来对一个矩阵进行QR分解使用方法qr(x, …)# S3 method for defaultqr(x, tol = 1e-07 , LAPACK = FALSE, …)qr.coef(qr, y)qr.qy(qr, y)qr.qty(qr, y)qr.resid(qr, y)qr.fitted(qr, y, k = qr$rank)qr.solve(a, b, tol = 1e-7)# S3 method for qrsolve(a, b, …)is.q
2020-08-06 21:36:57 701
原创 R tips:scale 如何使用
简介scale 是通用函数,其默认方法中心化和/或标准化矩阵的列。使用scale(x, center = TRUE, scale = TRUE)进行调用参数分析参数分析x一个数据矩阵(比如一个对象)center确定如何执行中心化。是一个逻辑值或长度为x 的列数的类似数字的向量。如果为TRUE,那么通过减去列均值进行中心化。为否,那么不进行该操作scale在“中心化”后,确定如何执行标准化。如果scale是一个类似数字的向量,其长度等于的列数x,则x每一.
2020-08-06 11:27:08 851
原创 R语言的crossprod()&tcrossprod()
测试数据#定义两个2*2的矩阵 a<-matrix(c(1:4),ncol=2)b<-matrix(c(5:8),ncol=2)那么,有> a [,1] [,2][1,] 1 3[2,] 2 4> b [,1] [,2][1,] 5 7[2,] 6 8进行试验crossprod()#矩阵内积crossprod(a,b) [,1] [,2][1,] 17 23[2
2020-08-04 10:39:25 9545 1
原创 周志华10.6 matlab
目录matlab代码文件改名的python3脚本matlab代码%输入数据格式filename_m='E:/database/yalefaces/yalefaces/s%d.gif';%记录所有数据的矩阵info=zeros(243*320,166);%输入,将图片保存为一列k=20;for i=1:166 filename=sprintf(filename_m,i); img = imread(filename,'gif'); info(:,i)=img(:);
2020-05-14 09:48:18 400
原创 周志华西瓜书4.3python代码
来源是这位大佬,我也看了MLiA但写不出来,只好把人家的加了注释,删了作图。膜拜大佬666import collectionsfrom math import logimport operator#通用项,计算给定数据集的信息熵(香农熵)def calcShannonEnt(dataSet): """ :param dataSet: :return: ...
2020-05-02 17:45:40 1667
原创 python 模块导入/conda 管理安装包
模块的妙处就略过不同模块的变量/函数同名的话,不用考虑冲突。不过还是尽量别和py内置函数重名。一个abc.py的文件就是一个名字叫abc的模块,一个xyz.py的文件就是一个名字叫xyz的模块。为了避免模块名冲突(你还记得自己三个月前写了什么代码吗),Python又引入了按目录来组织模块的方法,称为包(Package)。e.g.假设我们的abc和xyz这两个模块名字与其他模块冲突了,于是我...
2020-05-01 20:38:06 1732
原创 ubuntu新手安装anaconda和VScode
安装步骤安装anaconda下载anaconda安装anaconda检查安装成功否创建python环境与激活安装配置VS Code安装VS Code使用VS Code如何修改VSCode的配置FLAG安装anacondaAnaconda挺有用的,东西比较全,安装方便,建立虚拟环境也好用下载anaconda在官网上下载或许会比较慢,因此选择在清华大学开源软件镜像站下载。选择的文件是Linu...
2020-04-30 14:17:28 4540
原创 华硕笔记本x550jk安装ubuntu 没有wifi图标解决办法
开始用的是20.04版的,太新了依赖关系有问题,退到18.04版。18.04安装后也找不到,不过更新阿里源之后,再打开软件和更新,找到附加驱动,再选好自己的网卡驱动,应用更改,重启就可以了...
2020-04-30 10:54:48 478 1
原创 机器学习实战决策树代码
不知道我是不是入行晚了(爆哭),为啥找的资料都是好久好久以前的了,算了将就着看看吧1.第三章代码# -*- coding: utf-8 -*-"""Created on Sat Mar 21 11:27:43 2020@author: 29033"""''' script 3-1 '''from math import logimport operator#计算给定数据...
2020-04-24 16:51:17 218
原创 一个例子解决list切片问题
Python中列表切片问题li = [0, 1, 2, 3, 4, 5, 6, 7, 8]print("li[-1:]: ", li[-1:])#li[-1:]: [8]print("li[:-1]: ", li[:-1])#li[:-1]: [0, 1, 2, 3, 4, 5, 6, 7]print("li[-1]: ", li[-1])#li[-1]: 8print("l...
2020-03-21 19:41:45 415
原创 LEETCODE每日学习03.08
题目描述 —— 零钱兑换:给定不同面额的硬币 coins 和一个总金额 amount。编写一个函数来计算可凑 成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额,返回 -1。要点记录:1.@是语法糖/装饰器,写在一个函数前面。这个函数作为参数传给@后面的函数***2.->描述函数的返回类型,写法通常是 def add(x, y) -> int: ...
2020-03-08 21:03:33 347
原创 周志华西瓜书3.5python代码
# -*- coding: utf-8 -*-"""Created on Thu Feb 20 15:49:38 2020@author: 29033"""#参考代码https://blog.csdn.net/A993852/article/details/80099258import numpy as npimport matplotlib.pyplot as pltimpor...
2020-02-20 17:03:06 1736
原创 周志华西瓜书3.4python代码
选择数据集乳腺癌编程参考资料:针对Breast-Cancer(乳腺癌)数据集数据集划分方法他人答案自己写代码主要还是熟悉怎么调包,练练手先。写了乳腺癌的代码,跑了发现两个问题:1.10-fold CV比不过别人[普通的划分方法](https://www.bbsmax.com/A/QW5YW18Mzm/)。2.LOO估计出来的正确率为0![心情复杂](https://img-blo...
2020-02-20 17:00:48 973
原创 周志华西瓜书3.3maltab代码
为节省时间还是调用工具包叭【搞算法的,数据结构千万要自己过一遍】MATLAB准备资料Table官方文档Multinomial logistic regression官方文档第一篇文档好懂,第二篇文档讲的就是1.例1分了三个类,这个函数直接就把第三类当分母,第一或第二类当分子,得出来的矩阵B,第一列就是ln(1st的/3rd的)的各项系数,第二列就是ln(2nd的/3rd的)的各项系数.之...
2020-02-20 16:57:13 802
原创 《机器学习》周志华第三章线性模型思维导图与课后答案
一.要点二.课后题不考虑b时,此时b可以为0,或者被消去。前者可以通过数据规范化(标准化)达成。后者可以通过所有样本减去同一个样本达成【规范化的一种特例】某个多元函数如果是凸的,那么它的Hessian矩阵半正定a.证明对于对率回归的目标函数(3.18)非凸:经过求导可以得到,它的Hessian矩阵半负定b.证明对于对数似然函数(3.27)凸:步骤同上,但是Hessian矩阵...
2020-02-20 16:52:07 1218
原创 《机器学习》周志华第二章模型评估与选择:思维导图与课后答案
一.要点注:书P40倒数第二自然段最后两行内容和P41中2.4.3前面的两行相矛盾。式2.32应该是服从自由度为4的t分布二.课后题训练集数目为700,其中正例350,反例350.那么有(C350500)2余下的不用管10折交叉验证:分层抽样。所以每折有5+,5-个样例。留下来做测试的也是5+,5-的样例。所以随机。错误率50%留一法:不管怎么分,因为测试集占了一个样例。同类样例...
2020-02-05 11:35:24 1057
handout8.pdf
2020-08-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人