R语言数据分析(一)

R语言数据分析(一)



前言

R语言入门系列,我们已经学习了R语言的基本用法,这节开始我们将进一步学习使用R语言进行数据分析的更多方法。学习这部分内容推荐参考书籍:《R for Data Science》

一、整体介绍

在进行数据分析的时候往往有多种工具可以使用,编程语言中的Python、Julia也都是非常优秀的工具。大多数数据科学团队也都在使用混合语言。但做事情不能贪多,最好一次掌握一种工具,R是一个很好的起点。 接下来的学习中,我将介绍在R处理数据时强有力的实用工具。典型的数据科学研究项目步骤如下图所示:

图1

在进行数据分析时,首先应该先将要分析的数据导入R中。然后根据数据情况进行预处理(整理),将数据整理成方便进行处理的形式。然后会对数据进行转换,可能是缩小数据范围,也可能是根据当前数据来计算新的数据值等。之后就是可视化和建模,这都是解决数据问题的利器(本阶段学习暂不介绍R建模的知识,后续会专门进行专栏介绍)。最后数据处理结果要分享给他人,这是很关键的一步,如何给他人展示自己的数据分析过程和结果,这都是需要学习的。

假设你已经提前对R语言有了一定的了解,知道了R的基本用法(安装了R、RStudio、以及会安装R包),那么就可以开始下面的学习了(相信学习过R语言入门系列的都已经掌握了R基础了)。

二、tidyverse

tidyverse是一个强大的数据分析R包,提供了很多实用的R函数。它是一个组合包,里面包含了9个实用的包。当你加载的时候就会出现:

# 如果没安装该包需要先进行安装:
# install.packages("tidyverse")
library(tidyverse)
#> ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
#> ✔ dplyr     1.1.3     ✔ readr     2.1.4
#> ✔ forcats   1.0.0     ✔ stringr   1.5.1
#> ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
#> ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
#> ✔ purrr     1.0.2     
#> ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
#> ✖ dplyr::filter() masks stats::filter()
#> ✖ dplyr::lag()    masks stats::lag()
#> ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

注意看加载这个包后会显示函数名与先前加载的包是否冲突(Conflicts)。比如根据冲突显示,在加载该包之前调用fliter()函数会执行stats包中的函数,加载后执行的是同名函数dplyr::fliter()

处理这些冲突可以实用命名空间来指定包(如:stats::fliter())。或者实用conflicted包设置一个在R对话结束前的规则:

library(conflicted)
conflict_prefer("fliter", winner = "dplyr")

后续学习中,当用到新的包时要学会安装和调用。该阶段学习可能会用到的包有:

install.packages(
  c("arrow", "babynames", "curl", "duckdb", "gapminder", 
    "ggrepel", "ggridges", "ggthemes", "hexbin", "janitor", "Lahman", 
    "leaflet", "maps", "nycflights13", "openxlsx", "palmerpenguins", 
    "repurrrsive", "tidymodels", "writexl")
  )

三、内容安排

本栏目内容将介绍数据导入(Import)、数据整理(Tidy)、数据转换(Transform)和数据可视化(Visualize)的内容。由于内容较多,每个部分将会分一节或多节进行介绍,另外我们还会在其中穿插介绍R工作流的知识,力求大家写出来的R代码专业简洁好读。

四、参考书目推荐

本部分内容将参考《R for Data Science》进行展开,网站上可以查看该书的全文,对照学习一定会大有裨益 。另外关于数据可视化,再推荐三本书《Fundamentals of Data Visualization》《R Graphics Cookbook》《ggplot2: Elegant Graphics for Data Analysis》。大家有时间可以进行查看学习,没时间可以当作工具书,用到相关知识想要进一步理解时可以进行查询。后续有好书还会持续推荐学习。

总结

从这里开始,我们后续将学习使用R进行数据分析处理的方法。数据科学的学习是永无止境的,面对前路漫漫,唯有脚踏实地。虽然当前看来学习的东西可能非常基础,但慢慢地就会发现只有基础打的牢后面才会少走弯路,当你学习的越来越深入,忽然回首会发现轻舟已过万重山。所以,一起加油吧!新年要到了,祝大家新年快乐,龙年大吉!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值