R语言基础之第六部分分类（史上最全含ddply、aggregate、split、by）

最新推荐文章于 2024-07-29 01:00:00 发布

置顶

Jenny与统计

最新推荐文章于 2024-07-29 01:00:00 发布

阅读量1w

点赞数 19

本文链接：https://blog.csdn.net/zhouxiaojieaaa/article/details/100158874

版权

本文介绍了R语言中用于数据分类的四个关键函数：ddply、aggregate、split和by。通过实例展示了如何利用这些函数处理日期数据，提取年月信息，并计算特定条件下的均值。内容涵盖了函数的使用方法和参数解释。

摘要由CSDN通过智能技术生成

R语言基础之第六部分分类（史上最全含ddply、aggregate、split、by）

数据：
某市2014年-2018年空气质量指数日数据，需要按年分类计算每年 warm值为1和 0的均值。
数据长这个样子：

目标：求下列的均值

一、数据处理（提取年月）

首先需要处理一下日期数据，拿到想要的年月。
这里先看一下R语言自带的和 lubridate包的提取年月季度的函数的区别

> sjz = read.csv('C:/Users/Administrator/Desktop/简书/sjz.csv')
> head(sjz)     #读取的日期格式不是R可以处理的             
         date AQI quality_level PM2.5 PM10 SO2  CO NO2 O3_8h level
1    2014/1/1  85            良    46  120  98 0.9  53    56     2
2    2014/1/2 205      重度污染   155  261 221 2.5 106    23     5
3    2014/1/3 138      轻度污染   106  210 178 1.6  74    50     3
4    2014/1/4 229      重度污染   179  333 171 3.0  87    27     5
5    2014/1/5 274      重度污染   224  376 150 3.3  85    30     5
6    2014/1/6 372      严重污染   322  467 150 4.3  85    22     6

> sjz$date = as.Date(sjz$date)    #R可以处理的日期格式是：y-m-d或者y/m/d
> head(sjz)
        date AQI quality_level PM2.5 PM10 SO2  CO NO2 O3_8h level
1 2014-01-01  85            良    46  120  98 0.9  53    56     2
2 2014-01-02 205      重度污染   155  261 221 2.5 106    23     5
3 2014-01-03 138      轻度污染   106  210 178 1.6  74    50     3
4 2014-01-04 229      重度污染   179  333 171 3.0  87    27     5
5 2014-01-05 274      重度污染   224  376 150 3.3  85    30     5
6 2014-01-0