2015年08月_zhf1234abc

原创 BP神经网络

1.BP神经网络可以解决非线性分类问题，当一个超平面不能完全分类，可以用多个超平面进行分类，在神经网络里，一个感知器可以构造一个超平面，在BP神经网络里隐藏层的每个节点都是一个独立的感知器，所以可以解决非线性分类问题。2.BP神经网络是通过后向传播调整权值的。在BP神经网络里也是通过最小化误差平方和，来达到最优的目标函数。求最小化误差平方和用的是梯度下降法来求得，实际上就是迭代k次（样本数

2015-08-26 11:26:00 645

原创 R语言之关联规则挖掘

首先导入arules包，产生相关联的规则rules 查看规则> inspect(rules) lhs rhs support confidence lift1 {curd,

2015-08-26 09:58:22 855

原创支持向量机的理解

首先，d=2/||w||转换为求最小化f(w)=||w||^2/2，||w||^2因为||w||=w^1/2*w^1/2,所以平方好求解。解释：公式中的w向量是支持向量x的法向量，所以与x的维度一样的，假如在三维空间，w=(w1,w2,w3),那么支持向量也是3维的，目标函数是min(w1^2+w2^2+w3^2)/2是个凸函数，受限于yi(w1xi1+w2xi2+w3xi3+b)>=

2015-08-24 11:22:08 453

首先，这三个算法都是分类算法，分类的准确率很高,这些方法都是组合多个分类器，每个分类器分别进行预测，通过简单选举多数，判定最终所属分类。为什么组合分类器能提高分类准确率:可以通过下面的图进行解释。左图单个分类器就是图上的对角线，当进行多个组合时，出现了图上的折线图，每个折边都是一个分类器，当有多个分类器进行组合，就会出现右图，最终达到一个曲线图。组合算法的优势：1、能明显提升判别准确率；2、对误差

2015-08-23 19:19:33 8977

原创 R语言之决策树算法

1.ID3算法首先算出整个的信息期望，在算出每个属性的信息期望，在算出每个属性信息增益,选出最大值，得出如下图在对这个表算出新的总的信息期望，在算出这个表的每个属性的期望，在算出最大信息增益，选出最大值。对于连续性变量如age,按顺序对年龄进行排序，去每2个年龄之间的平均值，做为分裂点，求出信息增益，选出最大值，就是最好的分裂点了，来达到离散化连续值。ID3算法的缺点就

2015-08-23 17:01:19 821

原创 R语言之文本挖掘

文本挖掘涉及到知识有：贝叶斯，朴素贝叶斯、分词算法。贝叶斯公式：P(H|X) = P(X|H)P(H)/P(X)解释：X代表词，H代表是否是垃圾邮件，P(H|X)代表出现X次是垃圾邮件的概率。P(X|H)代表先验概率表示在垃圾邮件的条件下该X词出现的概率，P(H)代表垃圾邮件的概率，P(X)代表X在整个训练集出现的概率，在X是单个词的情况下，还是比较容易算出，但是当分出的词是几

2015-08-22 21:25:55 657

原创 R之判断多元正太分布检验

1.R中进行单变量检验用chisq.test()函数，变量必须是数值型2.在进行多变量进行多元验证正太分布时用library("mvnormtest", lib.loc="D:/rInstall/R-3.2.1/library")切记数据集一定要转换为矩阵，且数据集里面的待验证变量一定要是数值型> library(mvnormtest)> data(EuStockM

2015-08-22 18:57:04 4534

原创 R语言之因子分析

因子分析的主要用途1减少分析变量个数2 通过对变量间相关关系的探测，将原始变量分组，即将相关性高的变量分为一组，用共性因子来代替该变量3使问题背后的业务因素的意义更加清晰呈现解释：使能解释某一因素的相关性很高的变量分为一组（例如文课因子，理科因子），例如某一因子，其中的文科相关的变量前面的载荷因子很大，那么这些变量可以归结为一个因子即文学因子，有的时候一个因子里面的变量

2015-08-22 11:28:52 15464 1

转载岭回归与LASSO算法

岭回归(英文名：ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。对于有些矩阵，矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大

2015-08-21 09:53:56 5695 1

原创 R语言之多重共线性

多重共线性导致模型不稳定找到哪些变量时共线性，删除掉数据集collinear Y=c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289, 5.958, 9.313, 12.960, 5.541, 8.756, 10.937), X1=rep(c(8, 0, 2, 0), c(3, 3, 3, 3)),

2015-08-20 10:59:17 9349

原创 R语言之逐步回归

逐步回归就是从自变量x中挑选出对y有显著影响的变量，已达到最优用step()函数导入数据集cement X1=c( 7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10), X2=c(26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68), X3=c( 6, 15,

2015-08-19 16:54:12 31183 1

原创 R语言之多元回归实战

数据集> toothpaste+ X1=c(-0.05, 0.25,0.60,0, 0.25,0.20, 0.15,0.05,-0.15, 0.15,+ 0.20, 0.10,0.40,0.45,0.35,0.30, 0.50,0.50, 0.40,-0.05,+ -0.05,-0.10,0.20,0.10,0.50,0.60,-0.

2015-08-19 16:09:26 609

原创 R语言之描述性统计量

1.导入pastecs包stat.desc(mtcars[vars]) mpg hp wtnbr.val 32.0000000 32.0000000 32.0000000nbr.null 0.0000000 0.0000000 0.0000000nbr.na

2015-08-18 22:02:04 7539

原创 R语言实战之关系展示

1.展示名义变量和缺失值变量的关系导入lattice包，attach(algae)> histogram(~mxPH|season,data = algae)> algae$season 绘制不同季节的mxPH的直方图，由于直方图相似，所以收集样本时改年的季节对变量mxPH的值没有显著影响，可以用多个名义变量进行组合histogram(~mxPH|size*sp

2015-08-18 11:21:08 379

原创 K-NN算法

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然

2015-08-17 15:54:40 691

原创 R语言缺失值处理

1.查找变量中缺失值得个数sum(is.na(sleep$Dream))2.查找变量中缺失值个数占总个数的比例mean(is.na(sleep$Dream))3.查找样本中含缺失值的样本所占样本比例 mean(!complete.cases(sleep))4.用列表显示缺失值代码> library(mice)> data(sleep,pack

2015-08-14 21:09:04 4089

原创 R语言实战1

1.library("car", lib.loc="D:/rInstall/R-3.2.1/library")1. par(mfrow=c(1,2))> attach(algae) hist(mxPH,xlab = "",main="1",prob=T,ylim = 0:1)> lines(density(mxPH,na.rm = T))> rug(jitter(mxPH))

2015-08-13 22:21:50 608

原创 R语言之绘图

1.条形图可以用于展示某个变量中不同成分所占的比例。2.棘状图可以用于展示一个变量中各个成分相对于另一个变量成分所占比例，例如属性A有2个成分a1、a2,属性B有3个成分b1、b2、b3,那么可以绘制出a1下b1、b2、b3的比例图。3.直方图4.并列箱线图> attach(mtcars)> boxplot(mpg~cyl,data = mtca

2015-08-13 16:17:29 545

原创 Scala 基础知识

1.读取文件：首先导入包：import scala.io.Sourceval file = Source.fromFile("E:\\test.txt");for(line println(line); }2.定义函数 def addA(x : Int) = x+100; val add = (x:Int) => x+200; println("d

2015-08-12 22:06:44 608

转载 R语言Data Frame数据框常用操作

Data Frame一般被翻译为数据框，感觉就像是R中的表，由行和列组成，与Matrix不同的是，每个列可以是不同的数据类型，而Matrix是必须相同的。Data Frame每一列有列名，每一行也可以指定行名。如果不指定行名，那么就是从1开始自增的Sequence来标识每一行。初始化使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个stu

2015-08-11 09:06:56 1358

原创 R语言基础

3.进行随机抽样的r语言代码mm1

2015-08-10 21:57:53 309

zhf1234abc的博客