R也可以计算保守性得分(phastCons100way.UCSC.hg19)

看文献时,翻到一张保守性得分图:

图片来源:Reducing the structure bias of RNA-Seq reveals a large number of non-annotated non-coding RNA

原文描述:As expected, the most conserved group of NA_RNAs are the tRNAs, tRNA fragments and pre-tRNAs, with most tRNA conserved at least as far as the opossum (Monodelphis domestica). This is to be expected as tRNAs are the most highly conserved ncRNA class across all domains of life

刚好需要计算保守性得分,搜了下,有R包支持。

OK,这就上手。

1、安装、加载 phastCons100way.UCSC.hg19 包

BiocManager::install("phastCons100way.UCSC.hg19")
library(GenomicRanges)
library(phastCons100way.UCSC.hg19)
ls("package:.UCSC.hg19")
phast <- phastCons100way.UCSC.hg19

注意,这个包是hg19版本的哦,也就是说你输入的基因组位置对应的版本也是hg19。别在这种小细节上犯错。

2、计算指定区域的平均保守性得分

比如计算7号染色体基因组区域117232380到117232384的平均保守性得分:

gscores(phast, GRanges("chr7:117232380-117232384"))

该命令也可以写成:
gscores(phast, GRanges(seqnames="chr7", IRanges(start=117232380, width=5)))

结果是一样的。

显示chr7:117232380-117232384区段平均保守性得分为0.92:

3、计算指定区域的保守性得分

计算7号染色体基因组区域117232380到117232384的保守性得分:

gscores(phast, GRanges(seqnames="chr7", IRanges(start=117232380:117232384, width=1)))

显示chr7:117232380-117232384区段每个碱基的保守性得分:

可以看到 (0.8+0.8+1+1+1)/5=0.92,与第2步计算出来的平均保守性得分是一致的。

4、计算多个区域的平均保守性得分

计算基因组区域chr7:117232380-117232384、chr2:115262390-115262395、chr3:19597000-19597005的平均保守性得分:

gscores(phast, GRanges(c("chr7:117232380-117232384","chr2:115262390-115262395","chr3:19597000-19597005")))

结果如下所示:

5、结果怎么看

分值越高,越保守咯~

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值