- 博客(57)
- 收藏
- 关注
原创 数据科学学习笔记(use R)(3)
数据的导入 笔记的第一章:数据的导入已上传至github,欢迎访问以及对笔记不完善的地方提出修改完善意见。笔记主要内容:从网上获取数据读入本地数据读入Excel文件读入XML读入JSON数据连接SQL笔记链接:https://github.com/yujunbeta/data-science_studynote/blob/master/ch1
2014-08-15 18:43:36 2635 1
原创 R语言与函数估计学习笔记(样条方法)
样条估计如果函数在不同地方有不同的非线性度,或者有多个极值点,那么用多项式特别是低阶多项式来完成拟合是非常不合适的。一种解决办法是我们之前提到的近邻多项式(或者称局部多项式),另一种就是样条——用分段的低阶多项式逼近函数。关于样条,常用的有两类,一类是多项式样条,另一类是光滑样条。 多项式样条多项式样条的样条基有很多,最为著名的是我们之前在函数逼近中提到的truncated pow
2014-05-17 11:32:42 33955 7
原创 R语言与函数估计学习笔记(核方法与局部多项式)
非参数方法用于函数估计的非参数方法大致上有三种:核方法、局部多项式方法、样条方法。非参的函数估计的优点在于稳健,对模型没有什么特定的假设,只是认为函数光滑,避免了模型选择带来的风险;但是,表达式复杂,难以解释,计算量大是非参的一个很大的毛病。所以说使用非参有风险,选择需谨慎。非参的想法很简单:函数在观测到的点取观测值的概率较大,用x附近的值通过加权平均的办法估计函数\( f(x) \)
2014-05-17 11:31:44 30576 13
原创 R语言与函数估计学习笔记(函数展开)
函数估计说到函数的估计我们可以肯定的一点是我们很难得到原模型的函数,不过我们可以找到一个不坏的函数去逼近它,所以我们的函数估计从函数展开开始说起。函数展开首先不得不提的就是大名鼎鼎的Taylor展开,它告诉我们一个光滑的函数在x=t的一个邻域内有Taylor展式\[ f(x)\approx\sum_{j=0}^{p}\frac{f^{(j)}(t)}{j!}(x-t)^{j}=\sum
2014-05-17 11:29:04 9059
原创 R语言与函数估计学习笔记(函数模型的参数估计)
R语言与函数估计学习笔记毫无疑问,函数估计是一个比参数估计要复杂得多的问题,当然也是一个有趣的多的问题。这个问题在模型未知的实验设计的建模中十分的常见,也是我正在学习的内容的一部分。关于函数估计我想至少有这么几个问题是我们关心的:1、我知道函数的一个大概的模型,需要估计函数的参数;2、我不知道它是一个什么模型,但是我想用一个不坏的模型刻画它;3、我不知道它是一个什么模型,我也不太关心它的显
2014-05-17 11:20:58 24354 4
原创 R语言与抽样技术学习笔记(bootstrap)
R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap)Bootstrap方法 Bootstrap一词来源于西方神话故事“The adventures of Baron Munchausen”归结出的短语“to pull oneself up by one's bootstrap",意味着不靠外界力量,依靠自身提升性能。 Bootstrap的基
2014-04-19 22:43:25 76305 6
原创 R语言与抽样技术学习笔记(Jackknife)
R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap) 尽管二次抽样、重新抽样或者其他的对给定数据重新排序的方法并不能增加数据的信息,但是这些办法往往有助于我们提取信息。今天我们就来详细的讨论一下抽样技术在数据分析中的作用。主要包括随机化检验、Jackknife、bootstrap三个方面的内容。女士品茶实验与随机化检验 首先我们还是来回顾一下Fis
2014-04-19 22:22:19 14066
原创 R语言与抽样技术学习笔记(Randomize)
R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap)尽管二次抽样、重新抽样或者其他的对给定数据重新排序的方法并不能增加数据的信息,但是这些办法往往有助于我们提取信息。今天我们就来详细的讨论一下抽样技术在数据分析中的作用。主要包括随机化检验、Jackknife、bootstrap三个方面的内容。女士品茶实验与随机化检验首先我们还是来回顾一下fisher爵
2014-04-16 21:48:42 5134 4
原创 R语言与Markov Chain Monte Carlo(MCMC)方法学习笔记(1)
蒙特卡洛方法被誉为20世纪最伟大的十大算法之一。它由美国拉斯阿莫斯国家实验室的三位科学家John von Neumann, Stan Ulam 和 Nick Metropolis于1946年提出。 蒙特卡洛算法之所以那么有名,我的理解就是它利用随机模拟给出了一个十分普遍的求解许多问题近似解的办法。一个十分形象的例子是:在广场上画一个边长一米的正方形,在正方形内部随意用粉笔画一个不规
2014-03-16 00:34:29 39052 19
原创 R语言与分类算法的绩效评估
关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。 既然要对分类算法进行评价,那么我们自然得有评价依据。到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗?我们不妨考虑这么一个事实:一个样本集合里有95个正例,5个反例,分类器C1利用似然的
2014-01-11 15:43:26 17578 9
原创 R语言与机器学习学习笔记(分类算法)(6)logistic回归
写在前面的废话2014,又到了新的一年,首先祝大家新年快乐,也感谢那些关注我的博客的人。现在想想数据挖掘课程都是去年的事了,一直预告着,盘算着年内完工的分类算法也拖了一年了。本来打算去年就完成分类算法,如果有人看的话也顺带提提关联分析,聚类神马的,可是,。借着新年新气象的借口来补完这一系列的文章,可是,这明明就是在发。尽管这个是预告里的最后一篇,但是我也没打算把这个分类
2014-01-06 20:56:42 31719 2
原创 R语言与机器学习学习笔记(分类算法)(5)神经网络
算法五:神经网络(优化算法) 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。 人工神经网络从以下四
2013-12-13 00:32:02 29835 12
转载 R语言的常用函数速查
原帖地址:http://bbs.pinggu.org/thread-2264811-1-1.html基本一、数据管理vector:向量 numeric:数值型向量 logical:逻辑型向量character;字符型向量 list:列表 data.frame:数据框c:连接为向量或列表 length:求长度 subset:求子集seq,from:to,sequence:等差序列re
2013-12-07 19:35:29 9018
原创 R语言与机器学习学习笔记(分类算法)(4)支持向量机
算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。一、SVM的想法 回到我们最开始讨论的KNN算法,它占用的内存十分的大,而且需要的运算量也非常大。那么我们有没有可能
2013-11-29 13:26:48 23705 2
原创 R语言与机器学习学习笔记(分类算法)(3)朴素贝叶斯算法
算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分类特征统计不足,或者分类特征选择有误导致了错误的分类结果,哪怕是训练集也有可能出现不能正确分类的情形。这时,前两种方法都如同现实生活一样是用“少数服从多数”的办法来做出决策。正如帕斯卡指出的:“少数服从多数未必是因为多数人更正义,而是多数人更加强力”,所以为了保证“少数人的
2013-11-16 13:29:40 24285 20
原创 R语言与机器学习学习笔记(分类算法)(2)决策树算法
算法二:决策树算法 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是virginica(图中黑色的分类)
2013-11-10 16:34:06 27566 1
原创 R语言与机器学习学习笔记(分类算法)(1)K-近邻算法
前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现一下数据挖掘算法。 数据挖掘里我打算整理的内容有:分类,聚类分析,关联分析,异常检测四大部分。其中分类算法主要介绍:K-近邻算法,决策树算法,朴素贝叶斯算法,支持向量机,神经网络,logistic回归。 这篇文章是我博客数据挖掘系列的第一篇文章,介绍分类算法中最基本的
2013-11-09 16:59:50 30623 12
转载 R语言多元分析系列
不知道什么时候收集到的资料了,今天整理资料时发现了他,拿出来供大家参考。R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类
2013-10-22 23:20:54 4583
原创 Study note on Applied Econometrics with R(1)
这是我根据Applied Econometrics with R(springer)一书中线性回归(第三章)有关内容整理成的学习笔记,对书中的一些代码进行了解读,也根据我学到的回归知识添加了部分内容。笔记中的例子凡是书上给出过输出结果的,在这里一律省略,没给出结果的,附上结果及函数解读。这个并不是书内容的翻译,与原书有一定的出入。Chapter 3:线性模型需要加载函数包: AER
2013-10-20 18:06:36 2659 3
转载 根据Econometrics in R一书,将回归方法总结一下
文章出处:http://cos.name/cn/topic/3272/page/23、Cross Sectional Regression3.1 最小二乘法 有三种方式可以实现最小二乘法的简单线性回归,假设数据byu(1)lm(byu$salary ~ byu$age + byu$exper)(2)lm (salary ~ age + exper, data= b
2013-10-18 00:05:28 8169
原创 R语言与机器学习中的回归方法学习笔记
机器学习中的一些方法如决策树,随机森林,SVM,神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束,预测效果也比较不错,交叉验证结果也能被接受。下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法。一、数据集及交叉验证办法描述 Diabetes数据集包含在R的lars包中,数据分为x,y,x2三个部分,因变量为y,数据是关于糖尿病的血液化验
2013-10-12 11:18:39 18661 1
原创 两道概率题求解(半原创)
问题:任意投n个点在圆周上,问它们同时落在一个半圆上的概率是多少? 解: 用O表圆心,从投下的n个点中,任取一个点作起点,顺时针方向进行编号为P1,P2,. . . P n ,过P1,P2 . . . P n作n条半径,用X1,X2,. . . X n表相应的圆心角的值。易知有X1,X2,. . . X n > 0 ,且:
2013-09-24 15:43:47 4484
转载 用R做个带闹铃功能的钟
一个很有意思的小东西。t为闹铃运行时间,单位是秒,我们可以写一个简单的转换程序来使得t变为输入格式为hour:minute:second。原帖地址:http://bbs.pinggu.org/thread-2266932-1-1.html简单修改clock<-function(hour,minute,second,back,circle,hou,sec,min,method){#请事
2013-07-23 17:55:33 4167
原创 R语言与回归分析学习笔记(bootstrap method)
Bootstrap方法在之前的博文《R语言与点估计学习笔记(EM算法与Bootstrap法)》里有提到过,简而言之,bootstrap方法就是重抽样。为什么需要bootstrap方法呢?因为bootstrap方法使得我们无需分布理论的知识也可以进行假设检验,获得置信区间。当数据来自未知分布,或者存在严重异常点,又或者样本量过小,没有参数方法解决问题时,bootstrap方法将是一个很棒的方法。
2013-07-05 23:08:43 52277 10
原创 R语言与回归分析学习笔记(应用回归小结)(2)
三、异常点 所谓的异常点一般指有着很大残差(绝对值)的点,如果对模型的参数估计值影响出现了比例失衡,那么我们称之为强影响点。为了说明异常点与强影响点的判别,我们特意采用模拟的数据来证实它。 为了简单起见,我们采用一元模型来说明问题。 模拟数据:(模型:y=0.5+1.7*x+e)x<-rexp(100,0.2)e<-rnorm(100)y
2013-07-05 15:56:40 30406 3
原创 R语言与回归分析学习笔记(应用回归小结)(1)
回归分析是计量与统计的一个核心话题。我的博客在这篇之前也写过两篇关于回归的文章:《R 语言与简单的回归分析》、《R语言与回归分析几个假设的检验》。后者很清楚的告诉了我们回归模型假设的严苛:响应变量不仅需要数值型的,而且还必须来自正态分布。但是在很多情况情况下他们是很难得到满足的:比如抽样调查时,我们经常只得到虚拟变量;再比如正态性的假设的同方差性极其难得。 我的博客之前贴出过回归分析
2013-07-05 01:59:46 24939
原创 回归分析作业4
作业内容:数据:yx1x2x3x4x5271.8783.3533.5340.5516.6613.2264748.4536.536.1916.4614.11238.8684.4534.6637.3117.6615.68230.7827
2013-07-04 18:10:48 4640 1
原创 R语言与显著性检验学习笔记
一、何为显著性检验 显著性检验的思想十分的简单,就是认为小概率事件不可能发生。虽然概率论中我们一直强调小概率事件必然发生,但显著性检验还是相信了小概率事件在我做的这一次检验中没有发生。 显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异,以及这种差异是否显著的方法。 常把一个要检验的假设记作H0,称为原假设(或零假设),与H0对立的假设
2013-07-03 12:36:16 58691 4
原创 回归分析作业5
作业内容:完成《线性统计模型》(王松桂等)习题6.4,6.6,6.9参考实现(use R)battery<-data.frame(X=c(40,48,38,42,45,46,26,34,30,28,32,33,39,40,48,50,50,52),A=gl(3,6))summary(aov(X~A,battery))TukeyHSD(aov(X~A,battery))ma
2013-05-20 22:36:28 2921
原创 回归分析作业3
作业内容:研究用电高峰时居民家庭每小时的用电量Y 与每月总用电量X之间的关系。53户居民某月用电记录见\3-15.xlsx",试完成以下统计分析:(1) 应用最小二乘法求经验回归方程;(2) 以拟合值^yi为横坐标,学生化残差ri为纵坐标,作残差图,分析Gauss-Markov假设对本例的适用性;(3) 考虑因变量的变换U = Y 1=2,再对新变量U和X重复(1)和(2)
2013-05-08 22:16:15 7403 2
原创 回归分析作业2
作业内容:在http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/longley.html中对数据Longley's Economic Regression Data进行了介绍,仔细阅读后做如下分析:(1) 检查复共线性;(2) 使用主成分回归解决复共线性,选择适当个数的主成分;(3) 使用岭回归解决复共线性,并采
2013-04-30 12:30:10 4297
原创 回归分析作业1
作业内容:1、重现《线性统计模型》(王松桂等)例3.1.32、模拟最小二乘法,并根据模拟结果得出估计系数与估计方差的一些结论,如无偏性等作业实现(仅供参考)#1y<-c(10.98,11.13,12.51,8.40,9.27,8.73,6.63,8.50,7.82,9.14,8.24,12.19,11.8,9.57,10.94,9.58,10.09,8.11,6.83,8.88
2013-04-22 23:31:57 2650 2
原创 R语言与非参数统计(核密度估计)
R语言与非参数统计(核密度估计)核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的:
2013-03-24 01:52:21 35594 20
原创 多变量非线性方程求解问题(牛顿迭代法)
关于多变量的多元函数,我们求解考虑解的问题与单变量是极其类似的。考虑在x处的一阶泰勒展开,我们有0=f(x0)=f(x)+j(x)(x-x0)(后面的等号近似成立,j表示jacobian矩阵. 我们以一个例题来说明牛顿迭代法:考虑这个问题:求解方程组x^2+y^2-5=0 (x+1)*y-3*y-1=0假设给定初值(0,1),那么牛顿迭代法的R程序如下:f1
2013-03-09 15:37:45 14334
原创 优化与求解非线性方程组(单变量问题)
求函数极值的问题通常被化简为求解导数为0的点的问题。所以优化问题通常与解非线性方程组联系起来。在前面写点估计中的mle时,我们介绍了R中求解方程极值的函数nlm(),optim(). 我们以一元函数f(x)=ln(x)/(1+x)为例求解函数的极值。f<-function(x) -log(x)/(1+x) #(1)optimize(f,c(0,10))
2013-03-06 22:59:46 5303
原创 R语言与数据的预处理
在面对大规模数据时,对数据预处理,获取基本信息是十分必要的。今天分享的就是数据预处理的一些东西。一、获取重要数据 在导入大规模数据时,我们通常需要知道数据中的关键内容:最值,均值,离差,分位数,原点矩,离差,方差等。在R中常用的函数与作用整理如下:统计函数作用Max返回数据的最大值Min
2013-01-27 22:10:13 19010
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人