我跳过了导入数据这一course,进入到了clean。
C1 Introduction and exploring raw data
- Explore raw data: class(),dim(),names(),str(),glimpse(),summary()
- look at your data:head/tail(data,n=)
- visualize your data:hist(),plot()
C2 Introduction to tidy data
什么叫做messy data?比如表头有Y1920 Y1981-gather
总结:
- gather,spread,separate,unite
- arrange,select,mytate,filter
Gather
gather函数类似于Excel(2016起)中的数据透视的功能,能把一个变量名含有变量的二维表转换成一个规范的二维表(类似数据库中关系的那种表,具体看例子)
第一个参数放的是原数据,数据类型要是一个数据框;
下面传一个键值对,名字是自己起的,这两个值是做新转换成的二维表的表头,即两个变量名;
第四个是选中要转置的列,这个参数不写的话就默认全部转置;
后面还可以加可选参数na.rm,如果na.rm = TRUE,那么将会在新表中去除原表中的缺失值(NA)。
Spread
spread用来扩展表,把某一列的值(键值对)分开拆成多列。
spread(data, key, value, fill = NA, convert = FALSE, drop =TRUE, sep = NULL)
key是原来要拆的那一列的名字(变量名),value是拆出来的那些列的值应该填什么(填原表的哪一列)
再重