Cachel wood
这个作者很懒,什么都没留下…
展开
-
R语言抽样并验证总体分别为正态分布、均匀分布、指数分布时样本均值的抽样分布
文章目录正态分布均匀分布指数分布【练习一】对example1_1.Rdata中数据,利用R软件,完成分别有放回和无放回抽取10名学生的姓名组成一个随机样本,输出学生姓名分别有放回和无放回抽取10名学生的姓名和分数组成一个随机样本,同时输出学生姓名和分数。data<-read.csv("E:\\Rcode\\example.csv")print(data)sample(data$Name.Grade,10,replace=T)sample(data$Name.Grade,10,replace=原创 2021-03-10 11:52:12 · 3502 阅读 · 2 评论 -
R语言:ERGM指数随机图模型6:模型退化
当一个模型不能很好地表示观测到的网络时,在马尔可夫链蒙特卡洛链中产生的模拟网络可能与观测到的网络相差甚远,以至于估计过程受到影响。我们现在知道,某些类型的模型几乎永远无法产生一个有趣的网络,比如我们可能观测到的网络。请注意,在某些情况下,退化行为可能是现实的且是期望的(例如,在对确实会坍缩成团或其他规则结构的小群体进行建模时,或者在某些物理应用中),但在对中型到大型社交网络进行建模时并不经常遇到这些情况。如果你的系统没有退化但你的模型退化了,这表明你可能需要重新思考你选择模型项背后的理论动机。原创 2024-10-12 17:15:20 · 338 阅读 · 0 评论 -
R语言:ERGM指数随机图模型5:统计显著性评估GOF
采样值显示出很少的序列相关性,表明它们是独立的抽样,并且它们具有大致钟形的分布,中心在零处。在度数项偏差图中可见的锯齿图案是由于离散值和统计量中的小范围组合所致:观测到的度数为1的节点数量是3,并且模拟仅产生一些离散值。)过程生成的统计信息摘要,每一行总结了不同的统计量,并且每个统计量是根据其相对于相应值的值来衡量的。我们首先考虑一个简单的二元依赖模型,在该模型中,算法使用程序默认设置进行工作,其中有一个“”项,该项捕获的是在给定密度的情况下,度数为1的节点数量是否比我们预期的更多(或更少)。原创 2024-10-12 16:57:20 · 253 阅读 · 0 评论 -
R语言:ERGM指数随机图模型4:缺失值处理
现在让我们将那些缺失的联系赋值为(观测到的)“0”,并检查系数的值会如何变化。项是对构型的简单计数(例如,边、节点度、星型、三角形),但其他一些项是这些构型的更复杂函数(例如,几何加权度和共享伙伴)。如果你将数据作为边列表读取,这一点尤其重要,因为在这种情况下,所有没有边的二元组都会被隐式地设置为“0”。一个模型中可以使用的项也取决于所分析的网络类型:有向或无向、单模或双模(“二分图”)、二元边或赋值边。现在系数变小了,因为缺失的联系被计为“0”,这意味着条件联系概率为 6.67%,即 3/45。原创 2024-10-12 15:56:42 · 333 阅读 · 0 评论 -
R语言:ERGM指数随机图模型3:faux.mesa.high数据集
对于相互联系,边的系数和相互项的系数之和大致为零,所以相互联系的条件对数几率约为零。因此,在反向联系存在的情况下,联系存在的条件概率约为50%。该图现在显示了联系的方向,并且在这个网络中此模型的统计量为总共有 56 个联系和 15 个相互二元组。这意味着在 56 个联系中有 30 个是相互回应的,即它们是两个有向联系都存在的二元组的一部分。我们看到,在黑人和其他种族类别中,学生数量非常少,并且这少数学生在其组内没有形成联系。让我们尝试为有向网络建立一个模型,并研究联系被相互回应的倾向(“相互性”)。原创 2024-10-12 15:36:38 · 458 阅读 · 0 评论 -
R语言:ERGM指数随机图模型2:flomarriage数据集
财富对存在联系的概率有显著的正向影响。财富效应作用于节点对中的两个节点。两个参与者之间存在联系的条件对数几率是边数变化量乘以 2.59 加上节点 1 的财富乘以 0.01 加上节点 2 的财富乘以 0.01,或者是 -2.59 加上两个节点财富总和乘以 0.01。这个简单的模型为所有关系指定了一个单一的均匀概率,该概率由边项的系数所体现。让我们添加一个通常被认为是“聚类”度量的项:网络中完整三角形的数量,即。的模型都具有节点对之间在概率上不是相互独立的性质。这是一个节点对依赖项的例子,因为包含节点对。原创 2024-10-12 15:18:59 · 330 阅读 · 0 评论 -
R语言:ERGM指数随机图模型
ERGM模型()是一种统计模型,用于研究和描述网络中的关系模式。它基于指数家族的分布函数,并使用最大似然估计来估计模型的参数。ERGM模型可用于分析各种类型的网络,包括社交网络、组织网络、通信网络等。该模型的核心思想是,网络中的连接模式不仅受到节点的属性和网络的结构影响,还受到节点之间的相互作用影响。ERGM模型通过引入一系列的统计变量来描述网络中的关系模式。这些统计变量可以包括节点的度数、节点之间的路径长度、节点的属性等。模型通过调整这些统计变量的权重来拟合观察到的网络关系模式。ERGM。原创 2024-10-11 20:28:58 · 787 阅读 · 0 评论 -
R语言:主成分分析PCA
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。从载荷散点图可以看出,各变量与两个主成分之间的关系并不明显,使用主成分分析的效果并不够好。数据框包含有关32辆汽车的信息,包括它们的重量,燃油效率(以每加仑英里为单位),速度等。虽然在方差贡献率上主成分分析PCA表现良好,但是解释性(往往是最重要的)比较差。来确定主成分的个数K,并写出主成分表达式(一般是。,前两个主成分的累积方差贡献率达到。原创 2023-10-20 11:37:12 · 791 阅读 · 1 评论 -
R语言:因子分析 factor analysis
因子数取3,进行因子旋转之后,因子1的方差解释率下降到39.8%,前两个因子累积贡献率达到71.8%,发生变化。因子旋转之后,每个变量在某个因子上的载荷接近正负1,而在另一个因子上的载荷接近0,有助于我们进行解释分析。可以发现,因子数从3个减少到2个时,使用主成分法,前两个主成分的方差贡献率不会变化。(虽然改变很小),其中因子1达到58.6%,因子2达到22.4%,前两个因子累积方差贡献率为81%。相对来说,因子载荷矩阵中,各变量在第一个因子上的载荷都比较大,不好解释,需要进行因子旋转。原创 2023-10-20 13:52:09 · 910 阅读 · 0 评论 -
R语言:ca和MASS包实现对应分析 Correspondence Analysis
对应分析、因子分析和主成分分析虽然都是多变量统计分析,但对于分析的目的与因子分析或主成分分析的目的是完全不同的,前者是通过图像直观地表现变量所含类别间的关系,后者则是降维。对应分析研究的是两组分类型变量之间是否有相关性,如果卡方独立性检验通过,可以认为两组变量之间在统计学意义上不存在相关性,也就没有必要做对应分析。不能用于相关关系的假设检验,对应分析两个变量之间的联系,而不能说明这两个变量存在的关系是否显著,只是用来揭示这两个变量内部类别之间的关系。语言中进行对应分析的一个常用包。用来计算多重对应分析(原创 2023-10-19 23:43:10 · 544 阅读 · 0 评论 -
合作博弈:联盟、分配和核心core
文章目录合作博弈概念及其表示定义 8.1.1定义 8.1.2分配定义8.1.3定义8.1.4核心定义8.3.1定理8.3.1定理8.3.2核仁定理5.4定理5.5例8.5合作博弈概念及其表示合作博弈:非合作博弈的对称,一种博弈类型。参与者能够联合达成一个具有约束力且可强制执行的协议的博弈类型。合作博弈强调的是集体理性,强调效率、公正、公平。合作博弈最重要的两个概念是联盟和分配。每个参与者从联盟中分配的收益正好是各种联盟形式的最大总收益每个参与者从联盟中分配到的收益不小于单独经营所得收益。合作博弈的原创 2022-03-21 22:52:59 · 5313 阅读 · 0 评论 -
合作博弈:夏普利值(shapley value)性质与算法
文章目录简介定义性质举例1:手套博弈举例2简介沙普利值是合作博弈理论中的一个概念,由劳埃德-沙普利在1951年提出了这个概念,并因此在2012年获得了诺贝尔经济学奖。对于每个合作博弈,它为所有玩家的联盟产生的总盈余分配了一个独特的分配。沙普利值的特点是有一系列的理想属性。其设置如下:一个玩家联盟进行合作,并从合作中获得一定的整体收益。由于一些玩家对联盟的贡献可能大于其他玩家,或者可能拥有不同的讨价还价能力(例如威胁要破坏整个盈余),在任何特定的游戏中,所产生的盈余在玩家之间的最终分配应该是什么?或者换原创 2022-03-20 16:44:29 · 8974 阅读 · 2 评论 -
基于改进SEIR模型分析上海疫情
考察地区的总人数 N 不变,即不考虑生死或迁移;传统的SEIR人群分为易感者(S 类)、暴露者(E 类)、患病者(I 类)和康复者(R 类)四类;易感者(S 类)与患病者(I 类)有效接触即变为暴露者(E 类),暴露者(E 类)经过平均潜伏期后成为患病者(I 类);患病者(I 类)可被治愈,治愈后变为康复者(R 类);康复者(R类)获得终身免疫不再易感;将第 t 天时 S 类、E 类、I 类、R 类人群的占比记为 s(t)、e(t)、i(t)、r(t),数量分别为 S(t)、E(t)、I(t)、R(t原创 2022-06-04 15:56:39 · 3735 阅读 · 4 评论 -
数据挖掘:R语言关联规则挖掘
文章目录关联规则挖掘关联规则挖掘> data<-read.transactions('groceries.csv',sep = ',')> > summary(data) #可以查看输入信息的记录数,商品总数,最频繁的项集等数据transactions as itemMatrix in sparse format with 9835 rows (elements/itemsets/transactions) and 169 columns (items) and a原创 2022-05-01 19:45:39 · 1349 阅读 · 0 评论 -
数据挖掘:R语言支持向量机字符识别SVM
文章目录支持向量机(字符识别)支持向量机(字符识别)> #--------支持向量机进行光学字符的识别--------------------------------------------> > #读入数据> data<-read.csv('letterdata.csv')> > #训练集与测试集> > train_data<-data[1:16000,]> test_data<-data[16001:20000,原创 2022-05-01 19:46:53 · 748 阅读 · 0 评论 -
数据挖掘:R语言k均值聚类
文章目录k均值聚类(青少年)k均值聚类(青少年)> #==---K均值聚类-----------------------> > data<-read.csv('snsdata.csv')> > #查看某一特征的缺失值数量> table(data$gender,useNA = 'ifany') #或者可以用sum(is.na(data$gender)) F M <NA> 22054 5222 2724 >原创 2022-05-01 19:49:32 · 1153 阅读 · 0 评论 -
数据挖掘:R语言KNN算法
文章目录KNN算法KNN算法> #--------knn常用于:计算机视觉:面部识别,光学字符识别 一个人是否喜欢会喜欢推荐的电影或音乐> > #适用于分类任务,其中特征值和目标类之间的关系是众多的、复杂的,但是具有相似类的项目有非常接近> #加载class包:knn()算法 加载gmodels包:Crosstable()交叉表> > library(class)> # install.packages("gmodels")> libra原创 2022-05-01 19:50:21 · 1081 阅读 · 0 评论 -
数据挖掘:R语言决策树Tree_Kyphosis和Tree_Mileage
文章目录Tree_KyphosisTree_MileageTree_Kyphosis> # Classification Tree with rpart> library(rpart)> > # grow tree > fit <- rpart(Kyphosis ~ Age + Number + Start,+ method="class", data=kyphosis)> printcp(fit) # display th原创 2022-05-01 19:53:16 · 1177 阅读 · 0 评论 -
R语言正态记分检验和K-S单样本推断
文章目录正态记分推断基本思想示例,自己编写函数示例,调用函数K-S检验正态记分推断基本思想将数据∣𝑿𝒊−𝑴𝟎∣|𝑿_𝒊−𝑴_𝟎 |∣Xi−M0∣的秩按升幂排列,记为𝑹𝒊+𝑹_𝒊^+Ri+用相应的正态记分代替这些秩,并加上相应的𝑿𝒊−𝑴𝟎𝑿_𝒊−𝑴_𝟎Xi−M0的符号,称为符号正态记分,即si=Φ−1(12[1+Ri+n+1])sgn(Xi−M0)s_i = \Phi^{-1}(\frac{1}{2}[1+\frac{R_i^+}{n+1}])sgn(X_i-M_0)si=Φ−1(21原创 2022-03-28 18:46:32 · 1413 阅读 · 0 评论 -
R语言:Wilcoxon符号秩检验和Hodges-Lemmann估计量
文章目录单样本符号秩检验配对数据的wilcoxon检验example1example2Walsh平均值Hodges-Lemmann估计量example3单样本符号秩检验为解决垃圾邮件对大型公司决策层的工作影响程度,某网站收集了19家大型公司的CEO和他们邮箱里每天收到的垃圾邮件件数,得到如下数据(单位:封)310 350 370 377 389 400 415 425 440 295325 296 250 340 298 365 375 360 385从平均意义上看,垃圾邮件数量的中心位置是否超出原创 2022-03-22 21:09:40 · 2302 阅读 · 1 评论 -
R语言符号秩检验及其应用
文章目录符号秩检验连续性修正配对样本比较(双边检验)配对样本比较(单边检验)Cox-Staut趋势检验符号秩检验假设某城市16座预出售的楼盘均价(单位:百元/m2),该地平均楼盘价格是否与媒体公布的3700元/m^2的说法相符?build.price<-c(36,32,31,25,28,36,40,32,41,26,35,35,32,87,33,35)binom.test(sum(build.price>37),length(build.price),0.5)连续性修正pfun&l原创 2022-03-14 21:35:38 · 2313 阅读 · 0 评论 -
R语言决策树实现
文章目录决策树决策树函数优势决策树适用于分类型独立变量决策树函数ID3:information entropy 信息熵C4.5:information gain ratio 信息增益比CART:gini index 基尼系数Conditional inference decision tree: Chi-square test 条件推断决策树(原理是卡方检验)优势non-parametric 非参数统计multicollinearity 多重共线性small N large P原创 2022-01-06 20:20:43 · 1036 阅读 · 0 评论 -
R语言U统计量检验样本对称性
文章目录t分布指数分布t分布###generate data from t distributionUfun<-function(df=3,n=20,K=300){ USTAT<-NULL for (k in 1:K){ x<-rt(n,df) H<-NULL for (i in 1:(n-2)){ for (j in (i+1):(n-1)){ for (k in (j+1):n){ a1&l原创 2022-03-12 11:25:42 · 1645 阅读 · 0 评论 -
R语言对应分析
文章目录对应分析基本概念R语言示例对应分析基本概念Q型分析:样本之间的关系(聚类算法等)R型分析:变量之间的关系(主成分分析、因子分析等)。有时候我们不仅要弄清样本之间和变量之间的关系,还要弄清样本与变量之间的关系,而对应分析就是这样一种分析方法。(变量就是指特征)对应分析为我们可以提供三个方面的信息变量之间的信息样本之间的信息变量与样本之间的信息上述三方面信息都可以通过二维图呈现出来当对两个分类变量进行的对应分析称为简单对应分析;对两个以上的分类变量进行的对应分析称为多重对应分析原创 2021-12-30 17:41:50 · 2833 阅读 · 1 评论 -
R语言 逻辑回归logistic regression
文章目录普通OLS回归logistic回归模型拟合优度普通OLS回归普通OLS回归:对回归模型中的自变量、回归系数以及残差项的取值都没有任何限制,作为自变量函数的因变量就必须能够在(−∞,+∞)(-\infty,+\infty)(−∞,+∞)范围内自由取值。如果因变量只取分类值,或者只取两类值(0、1),就会严重违反因变量为连续型变量的假设。设:因变量yiy_iyi只取0、1两个数值的虚拟变量,是一个两点分布变量。在给定的条件下,记概率为:P(yi=1∣xi)=piP(yi=0∣xi)=1−pi原创 2021-12-24 21:00:29 · 1838 阅读 · 0 评论 -
R语言单因素、多因素方差分析ANOVA analysis of variance
假设检验的前提是要满足正态分布和方差齐性组内平方和SSE:同一组内的数据误差平方和组间平方和SSA:不同组之间的数据误差平方和F=MSA/MSE=SSA/k−1SSE/n−kF = MSA/MSE = \frac{SSA/k-1}{SSE/n-k}F=MSA/MSE=SSE/n−kSSA/k−1单因素方差分析一个分类型自变量例如四个班级学生的语文成绩,班级是分类型自变量,四个班级是自变量的四个水平independent or repeated双因素方差分析两个分类型自变量例如班级原创 2021-11-20 17:35:45 · 2867 阅读 · 0 评论 -
R语言S-W和K-S两种正态性检验
Shapiro-Wilk检验用来检验是否数据符合正态分布,类似于线性回归的方法一样,是检验其于回归曲线的残差。该方法作者推荐在样本量很小的时候使用,比如N<20。但是也有作者推荐在大数据集上使用。该作者将这种修改后的方法运用在R语言的stats包中的shapiro.test函数中。KaTeX parse error: Expected '}', got 'EOF' at end of input: …(y_i-\bar{y})^2yi为排序后的样本数据,ai为待估常量,假设样本数据确实符合一个未知原创 2021-10-29 17:08:10 · 2338 阅读 · 0 评论 -
R语言方差齐性检验bartlett.test()和leveneTest()函数
barrlett.testbartlett.test适合符合正态分布的数据作方差齐性检验。其函数用法如下:bartlett.test(x, g, ...) 其中x为数据框,g为分组变量> data<-read.csv(file=file.choose())> bartlett.test(data$grades,data$class) Bartlett test of homogeneity of variancesdata: data$grades and data$原创 2021-10-29 17:42:28 · 6545 阅读 · 0 评论 -
R语言绘制柱状图,饼图,直方图,箱型图,散点图以及使用ggplot2
文章目录柱状图饼图3D饼图直方图箱型图散点图使用ggplot2饼图散点图,增加回归线自己构造两份简单的文件test1.csvcareer,age,height,weightdoctor,32,170,110director,24,164,99teacher,43,156,110actor,22,177,93cook,44,166,140test2.csvcareer,gender,age,height,weightdoctor,f,32,170,110doctor,f,26,165原创 2021-10-22 19:33:33 · 1755 阅读 · 0 评论 -
R语言作业汇总
第一次作业2.x<-rnorm(100,0,1)result<-function(x){ len<-length(x) mean<-mean(x) median<-median(x) sd<-sd(x) min<-min(x) max<-max(x) skew<-sum((x-mean)^3/sd^3)/len kurt<-sum((x-mean)^4/sd^4)/len-3 JB<-(len/原创 2021-07-08 15:02:34 · 1734 阅读 · 2 评论 -
R语言第二次作业(OLS最小二乘估计、三种累积概率分布的比较)
1.2.请编程求解图中"红虚线,与水平虚线、垂直虚线"各自相交处的横坐标、纵坐标的具体数值。ts<-1e-5x<-0pextreme <- function(x) 1-exp(-exp(x)) while(pextreme(x)>0.5){ x<-x-ts}paste("x = ",x)paste("y = ",pextreme(0))[1] "x = -0.366520000000226"> paste("y = ",pext原创 2021-07-08 15:03:04 · 348 阅读 · 0 评论 -
R语言第一次作业(直方图、单变量描述性统计、深证成指分布)
2.x<-rnorm(100,0,1)result<-function(x){ len<-length(x) mean<-mean(x) median<-median(x) sd<-sd(x) min<-min(x) max<-max(x) skew<-sum((x-mean)^3/sd^3)/len kurt<-sum((x-mean)^4/sd^4)/len-3 JB<-(len/6)*(sk...原创 2021-07-08 15:03:37 · 381 阅读 · 0 评论 -
R语言第四次作业(股票、债券收益率计算)
1.library(quantmod)library(timeSeries) library(tseries) library(PerformanceAnalytics) setSymbolLookup(HUADONG = list(name="000963.sz", src="yahoo"))getSymbols("HUADONG", from ="2012-01-04", to="2013-12-31")assets &.原创 2021-07-08 15:04:38 · 3355 阅读 · 3 评论 -
R语言第三次作业(quantmod包在线读取股票数据)
## 预加载相关的R包library(timeSeries) library(tseries) library(quantmod) # 加载“金融量化建模包”### 1. 时序数据处理## 1) 输入并合并数据### 联网在线读取股票数据,利用quantmod包stock.names <- c('BABA','AMZN','FB.原创 2021-07-08 15:08:09 · 1892 阅读 · 0 评论 -
卡方分布、t分布、F分布的期望与方差的计算
文章目录卡方分布卡方分布的期望和方差t分布t分布的期望和方差F分布F分布的期望和方差卡方分布设X1,X2,……Xn独立同分布,且服从公共分布N(0,1),则Y=X12+X22+……Xn2服从自由度为n的卡方分布.设X_1,X_2,……X_n独立同分布,且服从公共分布N(0,1),则Y =X_1^2+X_2^2+……X_n^2服从自由度为n的卡方分布.设X1,X2,……Xn独立同分布,且服从公共分布N(0,1),则Y=X12+X22+……Xn2服从自由度为n的卡方分布.卡方分布的期望和方原创 2021-03-11 11:53:31 · 13898 阅读 · 1 评论 -
伽马函数和伽马分布
伽马函数伽马函数可以通过欧拉(Euler)第二类积分定义:Γ(x)=∫0∞xα−1e−xdx\Gamma(x) = \int_0^\infty x^{\alpha-1}e^{-x}dxΓ(x)=∫0∞xα−1e−xdx其中参数α>0\alpha>0α>0伽马函数的性质:1.Γ(1)=1,Γ(12)=π2.Γ(α+1)=αΓ(α)(可用分部积分法证得)当α为自然数n时,有Γ(n+1)=nΓ(n)=n!1.\Gamma(1)=1,\Gamma(\frac{1}{2})= \s原创 2021-03-11 22:32:12 · 3273 阅读 · 0 评论 -
R语言自主编写相关检验函数(pearson、spearman、kendall)
相关检验的函数有三种,我们尝试自己编写一下cor(x, y = NULL, use = "everything", method = c("pearson", "kendall", "spearman"))x<-c(40,42,50,55,65,78,84,100,116,125,130,140)y<-c(130,150,155,140,150,154,165,170,167,180,175,185)## pearson系数cor(x,y,method = "pearson"原创 2021-05-02 09:55:52 · 1443 阅读 · 1 评论 -
R语言假设检验两类错误的概率
Task 1Assume samples X1, · · · , Xn are independently identically distribution from P(λ), consider the hypothesistestH0:λ≥1vsH1:λ<1H_0 : λ ≥ 1 vs H_1 : λ < 1H0:λ≥1vsH1:λ<1and the test statistic isT(X1,⋅⋅⋅,Xn)=∑niXi=1T(X1, · · · , Xn) = \su原创 2021-04-27 23:36:04 · 1134 阅读 · 0 评论 -
R语言进行方差分析示例
方差分析的本质是研究分类变量对数值变量的影响总误差SST = 组内误差(SSE)+ 组间误差(SSA)组内误差:误差平方和,组间误差:处理平方和SST=∑i=14∑j=1ni(xij−xˉˉ)2SSE=∑i=14∑j=1ni(xij−xˉi)2SSA=∑i=14∑j=1ni(xˉi−xˉˉ)2=∑i=14ni(xˉi−xˉˉ)2SST = \sum_{i=1}^{4}\sum_{j=1}^{n_i}(x_{ij}-\bar{\bar{x}})^2\\SSE = \sum_{i=1}^{4}\su.原创 2021-04-26 23:33:01 · 1275 阅读 · 1 评论 -
R语言分布的卡方拟合优度检验
卡方拟合优度检验,用于衡量观测频数与期望频数之间的差异总体分布律已知x<-c(315,108,101,32)chisq.test(x,p=c(9,3,3,1)/16)Chi-squared test for given probabilitiesdata: xX-squared = 0.47002, df = 3, p-value= 0.9254p-value = 0.9254>0.05,则不应拒绝原假设,孟德尔的结论是成立的。同理,可以先计算出χ0.95(3)=7原创 2021-04-26 23:32:32 · 5456 阅读 · 0 评论