2018年03月_zxy_clover

原创 R语言时间序列之ARIMA模型

自回归移动平均模型（arima）ARMA模型是对不含季节变动的平稳序列进行建模。ARIMA模型的本质和ARMA是一样的，只是ARIMA针对不平稳的序列进行建模的，将ARMA模型里的序列值进行差分就可以。定阶以及参数说明acf值pcf值模型拖尾（逐渐为0）p阶截尾ARIMA(p,d,0)q阶截尾拖尾ARIMA(0,d,q)拖尾拖尾ARIMA(p,d,q)以尼罗河数据为例子 plot(Nile) ...

2018-03-29 22:25:10 28585 4

原创 R语言时间序列（一）

定义：是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。序列容易受到长期趋势、季节变动、循环变动、不规则变动等因素的影响。1. 预处理1.1 平稳性检验1）时序图时序图就是一个二维平面，通常横轴表示时间，纵轴表示序列取值平稳特征：无明显趋势和以及周期性下图有下降的趋势，则该序列是不平稳的

2018-03-29 19:49:02 7606

原创 R语言朴素贝叶斯

朴素贝叶斯是一种十分简单的分类算法，是一种基于概率的分类器，它源于贝叶斯理论，假设样本属性之间相互独立。思路：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，那个最大，就认为此待分类项属于那个类别。三个阶段：1）准备阶段主要工作是根据具体情况确定特征属性，并适当划分每个特征属性，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数

2018-03-26 23:19:01 2421

原创 r语言集成学习

集成学习通过构造并结合多个学习器来完成学习任务原理：先产生一组“个体学习器”，在用某种策略将它们结合起来boosting：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本进行调整，使得先前基学习器做错的样本在后续受到更多关注，然后基于调整后的样本分布训练下一个基学习器；如此重复下去，直至基学习器数目达到事先指定的值T，最终将这T个学习期进行加权结合。bagging：是投票式算法，...

2018-03-26 22:07:08 1652

原创 R语言支持向量机

支持向量机可以想象成一个平面，改平面定义了个数据点之间的界限，而这些数据点代表它们的特征绘制多维空间中的样本。支持向量机的目标是创建一个称为超平面的平面边界，它使得任何一个的数据划分都是相当均匀的。支持向量机几乎可以适用于所有的学习任务，包括分类（svm）、数值预测、回归（svr）。R实现及参数说明1）kernlab包函数ksvm()通过。Call接口，使用bsvm和libsvm库中

2018-03-26 19:52:17 4366

原创 R语言 BP神经网络

神经网络是由具有适应性的简单单元组成的广泛进行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。人工神经网络对一组输入信号和一组输出信号之间的关系建模，使用的模型来源于人类大脑对来自感觉输入的刺激是如何反应理解的。就像大脑使用一个称为神经元的相互连接的细胞网络来创建一个巨大的并行处理器，人工神经网络使用人工神经元或者节点的网络来解决学习问题。人工神经网络可以用在数据的分类、

2018-03-24 21:15:53 14980

原创 R语言决策树及其实现

一颗决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到叶结点的路径对应于了一个判定测试序列。目的：为了产生一颗泛化能力强，即处理未见示例能力强的据决策树。特别注意几点：1）通常所说的属性是离散，若属性是连续，则要把属性离散化，最简单的是是采用二分法（找划...

2018-03-22 20:59:37 10854 10

原创 R语言密度聚类

动态聚类往往聚出来的类有点圆形或者椭圆形。基于密度扫描的算法能够解决这个问题。思路就是定一个距离半径，定最少有多少个点，然后把可以到达的点都连起来，判定为同类。在r中的实现 library(fpc) newiris <- iris[, 1:4] ds <- dbscan(newiris, eps = 0.5, MinPts = 5, scale = T,

2018-03-20 21:59:56 791

原创 R语言层次聚类（系统聚类）

层次聚类试图在不同层次对数据集进行划分 library(NbClust) data(nutrient, package = 'flexclust') row.names(nutrient) <- tolower(row.names(nutrient)) nutrient.scale <- scale(nutrient) d <- dist(nutrient.scale)

2018-03-20 21:25:37 4901

原创 R语言 kmeans聚类

原理：将数据集中的样本划分为若干个通常是不想交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇对英语一些潜在的概念（类别）1. 基本问题1）性能度量对聚类结果评价好坏：簇内相似度高，簇间相似度低2）距离计算2. kmeans 聚类1）找最优的K值# cluster.stats函数需要使用fpc库 library(fpc); library(ggplot2) K <- ...

2018-03-20 20:26:43 2636

原创 R语言模型评估与选择

1、经验误差如果在m个样本中有a个样本分类错误，则错误率为E=a/m，对应地精确度为1-a/m。实际预测输出与样本的真实值之间的差异成为“误差”。学习器在训练集在的误差成为“经验误差”。在新样本上的误差称为“泛化误差”。显然，泛化误差小的学习器是我们希望得到的。2、评估方法测试集是用来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似。2.1 训练样本和测试样本划分1...

2018-03-13 23:00:53 6340

原创 R语言 k近邻法

k近邻法是机器学习方法最简单的方法之一基本思路：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于一个类别，则该样本也属于这个样本。在k近邻法算法中，所选择的邻居都是已经正确分类来决定待分样本所属的类别。k临近算法主要依靠周围有限的邻近样本，属于样本中概率大的样本。r语言中k近邻法算法的实现1、class包 knn( )2、kknn包中的k

2018-03-12 22:28:10 3741

zxy_clover的博客