(生物信息学)R语言与统计学入门(六)—— Pearson和Spearman相关性分析

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。

相关性分析主要包括pearson和spearman相关分析。

比如比较两个基因之间的相关性,从而确定他们之间是否具有共表达关系。

之前分享的关于GEPIA网站的两个基因相似性分析就是相关性分析:

分享分析TCGA的数据库——GEPIA(一)_Lijingxian教你学生信的博客-CSDN博客_tcga数据库GEPIA——国产TCGA可视化网站https://lijingxian19961016.blog.csdn.net/article/details/123839795?spm=1001.2014.3001.5502

 那么下面我们看看代码如何实现。

首先,我们准备一个数据:

 来自TCGA数据库的某两个基因A和B,下面运行代码:
 

setwd("D:\\")
dir()
data <- read.csv("PCC.csv",header = T,sep = ",")
head(data)

 下面用几种方法来计算相关性:

a <- cor(data$GeneA,data$GeneB)
a

> a
[1] 0.376044

单纯用cor函数计算出来只有相关性,没有P值。

下面使用cor.test函数:


a <- cor.test(data$GeneA,data$GeneB,method = "pearson")
a

> a

	Pearson's product-moment correlation

data:  data$GeneA and data$GeneB
t = 8.1672, df = 405, p-value = 4.057e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.2894192 0.4565593
sample estimates:
     cor 
0.376044

可以看到P值4.057e-15,是有意义的,相关性0.37。这里用的是pearson相关系数法。

这只能说算是一个中度相关。

一般做生信,相关性的阈值是自己定义的,可以是0.6,可以是0.3,但是一篇文章就必须统一,要么0.6,要么0.3,当然也可以0.5, 0.4。

下面是spearman法:

a <- cor.test(data$GeneA,data$GeneB,method = "spearman")
a


> a

	Spearman's rank correlation rho

data:  data$GeneA and data$GeneB
S = 3361806, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.7008126 

可以看到两种方法相关性差别还是很大的,关于具体怎么选择这两种方法,我们下次再讲。

下面我们可以用一个散点图来展示一下相关性:

plot(data$GeneA,data$GeneB)

 

 但是这个图比较丑,放在文章里面不好看,下一期我们介绍一下做一张好看的散点图。

  • 5
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
R语言是一种用于统计分析和数据可视化的编程语言,由于其丰富的统计函数和强大的数据处理能力,成为统计学领域中常用的工具之一。其中,Pearson相关系数是一种衡量变量之间线性相关关系强度和方向的指标。 Pearson相关系数是一种常见的统计技术,用于分析两个连续变量之间的线性关系。它的取值范围为-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示没有线性关系。具体计算方法是通过计算两个变量之间的协方差和标准差,然后将协方差除以标准差的乘积得到。 在R语言中,计算Pearson相关系数非常简单。可以使用cor()函数来计算两个变量之间的相关系数。例如,使用cor(x, y)即可计算变量x和y之间的相关系数。此外,还可以通过设置method参数来选择计算的方法,例如method="pearson"表示使用Pearson相关系数。 除了计算相关系数,R语言还提供了可视化相关关系的方法。可以使用plot()函数绘制散点图来观察变量之间的线性关系。此外,还可以使用ggplot2包中的geom_point()函数来创建散点图,使用geom_smooth()函数添加拟合直线,以更直观地展示相关关系。 总之,R语言统计学入门提供了强大的工具,可用于计算和可视化变量之间的Pearson相关系数。通过学习和应用这些技术,可以更好地理解和分析数据中的相关关系,从而进一步推断和研究相关问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

楷然教你学生信

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值