生信技能树课程记录笔记（七）20220531

最新推荐文章于 2023-12-10 14:13:40 发布

小饼干努力学习

最新推荐文章于 2023-12-10 14:13:40 发布

阅读量492

点赞数 1

分类专栏：生信技能树课程记录文章标签： r语言

本文链接：https://blog.csdn.net/weixin_62771643/article/details/125121756

版权

生信技能树课程记录专栏收录该内容

7 篇文章 4 订阅

订阅专栏

一、数据框排序

法一：sort函数

默认升序。

例：sort(test$Sepal.Length)

法二：order函数

默认升序，返回数据下标组成的数组。

可以给向量排序，也可以给数据框排序

例：test[order(test$Sepal.Length),] ##升序
test[order(test$Sepal.Length,decreasing = T),] ##降序

法三：arrange函数

语法优化，实现更加灵活的排序

library(dplyr)
arrange(test, Sepal.Length) ##升序
arrange(test, desc(Sepal.Length)) ##desc实现降序
arrange(test, desc(Sepal.Width),Sepal.Length) ##先按Width降序，Width取值相同的数据，按照Length升序排列

注：注意取列名时没有引号也没有$。且这里加引号也不会报错，只是不会排序

二、数据框更改

新增：mutate函数

例：mutate(test,new=xx*yy)

筛选列：select函数

筛选行：filter函数

管道函数：%>%，将处理返回值传递给管道符号后面的函数的第一个参数

例：dat = t(exp) %>%
as.data.frame() %>%
rownames_to_column() %>%
mutate(group = rep(c("control","treat"),each = 3))

三、表达矩阵画箱线图

由于ggplot2处理的数据是一个数据框，横纵坐标是单独的一行/列，所以需要对表达矩阵做处理

例：set.seed(10086)
exp = matrix(rnorm(18),ncol = 6)
exp = round(exp,2) ##保留小数点后两位
rownames(exp) = paste0("gene",1:3)
colnames(exp) = paste0("test",1:6)
exp[,1:3] = exp[,1:3]+1
exp

注： ##rnorm取出的值是随机的，每次运行结果都不相同，设置set.seed()可以让随即结果固定，里边的数字随便填

数据处理过程：转置把原来的列变成行

例：

library(tidyr)
library(tibble)
library(dplyr)
dat = t(exp) %>%   ##转置
as.data.frame() %>%    ##将矩阵转为数据框
rownames_to_column() %>%    ##将行名变为一列
mutate(group = rep(c("control","treat"),each = 3))    ##新增一列

pdat = dat%>%   ##宽变长函数
pivot_longer(cols = starts_with("gene"),   ##gene1,gene2,gene3合并成一列
               names_to = "gene",
               values_to = "count")

四、文件连接

法一：merge()函数

法二：join函数

注：join函数需要加载dplyr包，left_join左连接（以左数据框为模板），right_join右连接（以右数据框为模板）full_join全连接（取并集）inner_join(取交集)，没有的值为NA

五、字符串