一、数据框的概念
数据框是一种表格式的数据结构。数据框旨在模拟数据集,与其他统计软件例如SAS或者SPSS中的数集合概念一致,可以直接将其当成Excel中表格就行
数据集通常是数据构成的一个矩阵数组,行表示观测,列表示变量,不同的行业对于数据集的行和列叫法不同
数据框的特点,数据框实际上是一个列表。列表中的元素是向量,这些向量构成数据框的列,每一列必须具有相同的长度,所以数据框是矩形结构,而且数据框的列必须命名
二、创建数据框
我们可以使用data.frame()可以创建数据框,采用“列名+数据”的形式列出数据
我们可以根据str()函数来查看数据框结构保存的数据类型
针对定义好的数据框,如果我们想要更新某一列的数据,使用d$colname(列名)<-数据
我们也可以利用该语句添加新序列
我们也可以使用rownames(),colnames()来指定行名和列名,names()更改列名
例如:
更改指定列名
当然,也可以使用rename来进行更改,需要安装dplyr包,同时在函数中参数为新列名="旧列名"即可
三、访问数据框
(1)我们通过列名访问数据框各列,比如d$colname。使用行或列的索引也可以访问数据框中数据。
(2)跟矩阵一样,如果想排除某行或列,使用-即可
(3)我们可以使用向量来指定索引
(4)我们也可以列名来访问数据框中的数据
当然,这样输出的结构很像向量,为了避免认错,我们可以将drop参数设置为FALSE,让其返回数据框
(5)使用%in%运算符用于判断给定值是否存在于指定向量,配合names()函数可以实现选取工作,例如这边需要选取B和C
(6)使用!也可以排除特定列,而只选取其它列
四、实用工具函数
与数据相关的函数
(1)head(对象,n=返回结果值大小,默认为6)函数,用于返回对象的开头n个数据,用于数据很大的情况,例如x=1:1000的时候会直接输出1~1000的值,这边直接通过head输出流前六行数值
(2)tail(对象,n=返回结果值的大小,默认为6),跟和head同理,这是返回末尾的数据
(3)view(对象),用于调出视图查看数据