dplyr包的用法

最新推荐文章于 2023-01-12 20:54:06 发布

Affiny_L

最新推荐文章于 2023-01-12 20:54:06 发布

阅读量411

点赞数

分类专栏： R语言

本文链接：https://blog.csdn.net/weixin_47912083/article/details/114488673

版权

前言

面德勤的时候被要求用R的dplyr包处理数据（题做的不是很好所以被拒了orz），了解了一下发现和SQL的基础操作还蛮像，🐎上来供以后参考。

首先加载dplyr库，这里使用iris数据集

library(dplyr)
test <- iris[c(1:2,51:52,101:102),]

iris数据集的中文名是安德森鸢尾花卉数据集，英文全称是Anderson’s Iris data set。iris包含150个样本，对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息，所以iris数据集是一个150行5列的二维表。
通俗地说，iris数据集是用来给花做分类的数据集，每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征（前4列）我们需要建立一个分类器，分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾（这三个名词都是花的品种）。iris的每个样本都包含了品种信息，即目标属性（第5列，也叫target或label）。

1.mutate新增列

使用方法：mutate(原数据集，新列的名字=公式)
使用效果：在原有数据集最后添加一列

> mutate(test, new = Sepal.Length * Sepal.Width)
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species   new
1          5.1         3.5          1.4         0.2     setosa 17.85
2          4.9         3.0          1.4         0.2     setosa 14.70
3          7.0         3.2          4.7         1.4 versicolor 22.40
4          6.4         3.2          4.5         1.5 versicolor 20.48
5          6.3         3.3          6.0         2.5  virginica 20.79
6          5.8         2.7          5.1         1.9  virginica 15.66

2.select按列筛选

> select(test,1)  #筛出第一列
    Sepal.Length
1            5.1
2            4.9
51           7.0
52           6.4
101          6.3
102          5.8

> select(test,c(1,5))   #同时筛出第一列和第五列
    Sepal.Length    Species
1            5.1     setosa
2            4.9     setosa
51           7.0 versicolor
52           6.4 versicolor
101          6.3  virginica
102          5.8  virgi