数理统计
文章平均质量分 75
yujunbeta
这个作者很懒,什么都没留下…
展开
-
R语言与点估计学习笔记(刀切法与最小二乘估计)
一、 刀切法(jackknife) 刀切法的提出,是基于点估计准则无偏性。刀切法的作用就是不断地压缩偏差。但需要指出的是缩小偏差并不是一个好的办法,因为偏差趋于0时,均方误差会变得十分大。而且无偏性只有在大量重复时才会表现出与真值的偏差不大。Jackknife的想法在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何。 例原创 2012-10-13 14:15:33 · 10965 阅读 · 0 评论 -
R语言与Markov Chain Monte Carlo(MCMC)方法学习笔记(2)
这里women原创 2014-04-08 21:44:55 · 15402 阅读 · 6 评论 -
R语言与Markov Chain Monte Carlo(MCMC)方法学习笔记(1)
蒙特卡洛方法被誉为20世纪最伟大的十大算法之一。它由美国拉斯阿莫斯国家实验室的三位科学家John von Neumann, Stan Ulam 和 Nick Metropolis于1946年提出。 蒙特卡洛算法之所以那么有名,我的理解就是它利用随机模拟给出了一个十分普遍的求解许多问题近似解的办法。一个十分形象的例子是:在广场上画一个边长一米的正方形,在正方形内部随意用粉笔画一个不规原创 2014-03-16 00:34:29 · 39057 阅读 · 19 评论 -
R语言与机器学习学习笔记(分类算法)(6)logistic回归
写在前面的废话2014,又到了新的一年,首先祝大家新年快乐,也感谢那些关注我的博客的人。现在想想数据挖掘课程都是去年的事了,一直预告着,盘算着年内完工的分类算法也拖了一年了。本来打算去年就完成分类算法,如果有人看的话也顺带提提关联分析,聚类神马的,可是,。借着新年新气象的借口来补完这一系列的文章,可是,这明明就是在发。尽管这个是预告里的最后一篇,但是我也没打算把这个分类原创 2014-01-06 20:56:42 · 31719 阅读 · 2 评论 -
R语言多元分析系列
不知道什么时候收集到的资料了,今天整理资料时发现了他,拿出来供大家参考。R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类转载 2013-10-22 23:20:54 · 4587 阅读 · 0 评论 -
回归分析作业1
作业内容:1、重现《线性统计模型》(王松桂等)例3.1.32、模拟最小二乘法,并根据模拟结果得出估计系数与估计方差的一些结论,如无偏性等作业实现(仅供参考)#1y<-c(10.98,11.13,12.51,8.40,9.27,8.73,6.63,8.50,7.82,9.14,8.24,12.19,11.8,9.57,10.94,9.58,10.09,8.11,6.83,8.88原创 2013-04-22 23:31:57 · 2650 阅读 · 2 评论 -
R语言与回归分析学习笔记(应用回归小结)(2)
三、异常点 所谓的异常点一般指有着很大残差(绝对值)的点,如果对模型的参数估计值影响出现了比例失衡,那么我们称之为强影响点。为了说明异常点与强影响点的判别,我们特意采用模拟的数据来证实它。 为了简单起见,我们采用一元模型来说明问题。 模拟数据:(模型:y=0.5+1.7*x+e)x<-rexp(100,0.2)e<-rnorm(100)y原创 2013-07-05 15:56:40 · 30410 阅读 · 3 评论 -
R语言与回归分析学习笔记(bootstrap method)
Bootstrap方法在之前的博文《R语言与点估计学习笔记(EM算法与Bootstrap法)》里有提到过,简而言之,bootstrap方法就是重抽样。为什么需要bootstrap方法呢?因为bootstrap方法使得我们无需分布理论的知识也可以进行假设检验,获得置信区间。当数据来自未知分布,或者存在严重异常点,又或者样本量过小,没有参数方法解决问题时,bootstrap方法将是一个很棒的方法。原创 2013-07-05 23:08:43 · 52286 阅读 · 10 评论 -
回归分析作业5
作业内容:完成《线性统计模型》(王松桂等)习题6.4,6.6,6.9参考实现(use R)battery<-data.frame(X=c(40,48,38,42,45,46,26,34,30,28,32,33,39,40,48,50,50,52),A=gl(3,6))summary(aov(X~A,battery))TukeyHSD(aov(X~A,battery))ma原创 2013-05-20 22:36:28 · 2927 阅读 · 0 评论 -
R语言与回归分析学习笔记(应用回归小结)(1)
回归分析是计量与统计的一个核心话题。我的博客在这篇之前也写过两篇关于回归的文章:《R 语言与简单的回归分析》、《R语言与回归分析几个假设的检验》。后者很清楚的告诉了我们回归模型假设的严苛:响应变量不仅需要数值型的,而且还必须来自正态分布。但是在很多情况情况下他们是很难得到满足的:比如抽样调查时,我们经常只得到虚拟变量;再比如正态性的假设的同方差性极其难得。 我的博客之前贴出过回归分析原创 2013-07-05 01:59:46 · 24939 阅读 · 0 评论 -
回归分析作业3
作业内容:研究用电高峰时居民家庭每小时的用电量Y 与每月总用电量X之间的关系。53户居民某月用电记录见\3-15.xlsx",试完成以下统计分析:(1) 应用最小二乘法求经验回归方程;(2) 以拟合值^yi为横坐标,学生化残差ri为纵坐标,作残差图,分析Gauss-Markov假设对本例的适用性;(3) 考虑因变量的变换U = Y 1=2,再对新变量U和X重复(1)和(2)原创 2013-05-08 22:16:15 · 7418 阅读 · 2 评论 -
回归分析作业4
作业内容:数据:yx1x2x3x4x5271.8783.3533.5340.5516.6613.2264748.4536.536.1916.4614.11238.8684.4534.6637.3117.6615.68230.7827原创 2013-07-04 18:10:48 · 4646 阅读 · 1 评论 -
R语言与回归分析几个假设的检验
一、从线性回归的假设说起 对于线性回归而言,若要求回归估计有一些良好性质比如无偏性,就需要加上一些假定条件。比如要达到估计的无偏性,我们通常需要加上高斯-马尔科夫条件:A1、对参数而言的线性性A2、样本的随机抽样性A3、误差的条件均值为0A4、不存在完全共线性A5、同方差假设 在上述条件上加上误差项服从正态分布,就得到了经典线性回归模型的6大原创 2012-11-10 16:27:31 · 41144 阅读 · 3 评论 -
R语言与显著性检验学习笔记
一、何为显著性检验 显著性检验的思想十分的简单,就是认为小概率事件不可能发生。虽然概率论中我们一直强调小概率事件必然发生,但显著性检验还是相信了小概率事件在我做的这一次检验中没有发生。 显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异,以及这种差异是否显著的方法。 常把一个要检验的假设记作H0,称为原假设(或零假设),与H0对立的假设原创 2013-07-03 12:36:16 · 58700 阅读 · 4 评论 -
回归分析作业2
作业内容:在http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/longley.html中对数据Longley's Economic Regression Data进行了介绍,仔细阅读后做如下分析:(1) 检查复共线性;(2) 使用主成分回归解决复共线性,选择适当个数的主成分;(3) 使用岭回归解决复共线性,并采原创 2013-04-30 12:30:10 · 4297 阅读 · 0 评论 -
R语言与区间估计学习笔记
鉴于区间估计的理论与方法可以在任意一本统计学教程中找到,故这里只是单纯的介绍R中区间估计的函数与一些自己编写的区间估计函数。有兴趣的朋友还是可以参阅王兆军编著的《数理统计讲义》一、单正态总体的参数估计1、 方差已知时的均值估计z.testresultmeanresult$intervalzpx)的办法寻找这个值。一般我们用默认的真就可以了result$zr原创 2012-11-17 23:22:26 · 11615 阅读 · 0 评论 -
R语言与非参数统计(核密度估计)
R语言与非参数统计(核密度估计)核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的:原创 2013-03-24 01:52:21 · 35594 阅读 · 20 评论 -
R语言与点估计学习笔记(矩估计与MLE)
众所周知,R语言是个不错的统计软件。今天分享一下利用R语言做点估计的内容。主要有:矩估计、极大似然估计、EM算法、最小二乘估计、刀切法(Jackknife)、自助法(Bootstrap)的相关内容。 点估计是参数估计的一个组成部分。有许多的估计方法与估计理论,具体内容可以参见lehmann的《点估计理论》(推荐第一版,第二版直接从UMVU估计开始的)一、矩估计原创 2012-10-13 03:07:18 · 37469 阅读 · 5 评论 -
R语言与点估计学习笔记(EM算法与Bootstrap法)
一、EM算法 EM算法是一种在观测到数据后,用迭代法估计未知参数的方法。可以证明EM算法得到的序列是稳定单调递增的。这种算法对于截尾数据或参数中有一些我们不感兴趣的参数时特别有效。 EM算法的步骤为: E-step(求期望):在给定y及theta=theta(i)的条件下,求关于完全数据对数似然关于潜在变量z的期望 M-step(求极值):求上原创 2012-10-13 12:56:39 · 14842 阅读 · 2 评论