R语言笔记四：因子、缺失数据、字符串、时间序列

最新推荐文章于 2023-05-13 02:07:40 发布

取个name太难

最新推荐文章于 2023-05-13 02:07:40 发布

阅读量3.6k

点赞数 20

分类专栏： R语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44384631/article/details/107250162

版权

本文介绍了R语言中因子的创建与频数统计，包括名义型变量和有序型变量的概念；讲解了如何处理缺失数据，如NA的使用和缺失值的检查与剔除；探讨了字符串操作，包括长度计算、连接与转换；最后讨论了时间序列数据，包括Date类的使用、时间序列生成与分析。

摘要由CSDN通过智能技术生成

1.变量分类
- 名义型变量：比如省份
- 有序型变量：如：good、better、best
- 连续型变量：如年龄

2.因子
在R中名义型变量和有序型变量称为因子(factor)。这些分类变量的可能值称为一个水平(level)，例如good、better、best，都称为一个level。有这些水平值构成的向量就称为因子。

创建因子：
f <- factor(c(“red”,“red”,“green”,“blue”,“green”,“blue”,“blue”))
week <- factor(c(“Mon”,“Fri”,“Thu”,“Wed”,“Mon”,“Fri”,“Sun”),ordered = T,levels=c(“Mon”,“Tue”,“Wed”,“Thu”,“Fri”,“Sat”,“Sun”)) #指定level，并对其排序

table函数进行频数统计，如：
mtcars$cyl #mtcars中的cyl列
table(mtcars$cyl) #对mtcars中的cyl列进行频数统计，第一行是level，第二行显示频数。

num <-1:100
cut(num,c(seq(0,100,10))) #十个数为一级别

3.缺失数据
在R中，NA代表缺失值，NA是不可用，not available的简称，用来存储缺失信息。
这里缺失值NA表示没有，但注意没有并不一定就是0，NA是不知道是多少，也能是0，也可能是任何值，缺失值和值为

最低0.47元/天解锁文章

取个name太难

关注

20
点赞
踩
71

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。