大数据分析如何使用ggplot2在R中进行数据可视化?很多人同学问我使用ggplot2在R中进行数据可视化出点教程,今天详细的讲如何使用ggplot2在R中进行数据可视化, 例如好的草图总比讲话要长。 该建议可能来自战场,但也适用于许多其他领域,包括数据科学。通过简单地在R中使用ggplot2可视化数据来“简化”我们的数据,比简单地描述发现的趋势更具影响力。
勾画出房屋的设计要比用文字描述要清晰得多。数据通常也是如此—这就是使用ggplot2进行数据可视化的地方!
这就是我们可视化数据的原因。我们将数据可视化,是因为它使我们更容易从可见的内容中学习而不是阅读。对于使用R的数据分析师和数据科学家来说,值得庆幸的是,有一个名为ggplot2的tidyverse程序包使数据可视化变得轻而易举!
在此大数据分析如何使用ggplot2在R中进行数据可视化文章中,我们将学习如何使用R来获取一些数据并产生可视化效果。要对其进行处理,最好是如果您已经对R编程语法有所了解,但是您不需要成为专家或有使用ggplot2的任何经验。
资料介绍
在全国卫生统计中心一直在跟踪美国死亡率的趋势自1900年以来,他们已经编制数据对预期寿命和美国公民的死亡率。
我们想知道预期寿命是如何随着时间变化的。随着医学和技术的进步,我们期望人们的预期寿命会增加,但是直到一看就无法确定!
如果您想复制我们将在此大数据分析如何使用ggplot2在R中进行数据可视化文章中创建的图形,请在此处下载数据集并继续学习!
不确定如何在个人计算机上使用R?请查看如何开始使用RStudio!
图中有什么?
在我们深入探讨该职位之前,需要一些背景信息。那里有很多类型的可视化,但是其中大多数可以归结为以下内容:
我们可以将此图分解成其基本构建块:
1、用于创建图的数据:
2、绘图的轴:
3、用于可视化数据的几何形状。在这种情况下,一行:
4、有助于读者理解图解的标签或注释:
将图分成几层很重要,因为这是ggplot2程序包理解和构建图的方式。该ggplot2包是在一个程序包tidyverse,它是负责可视化。在继续阅读文章时,请牢记这些层次。
导入数据
为了开始可视化,我们需要将数据放入我们的工作区。我们将引入tidyverse软件包并使用该read_csv()函数导入数据。我们将数据命名为life_expec.csv,因此您需要根据文件命名方式对其进行重命名。
让我们看看我们正在处理哪些数据:
通过该Year列我们可以看到时间以年为单位编码。有两列可让我们区分不同的种族和性别类别。最后,最后两列对应于预期寿命和死亡率。
让我们快速浏览一下数据,以查看特定年份的数据:
对于2000年,有九个数据点:
一年有九个不同的行,每行对应一个不同的人口统计部门。对于此可视化,我们将重点放在整个美国,因此我们需要相应地过滤数据:
数据存放在合适的位置,因此我们可以将其ggplot()传送到函数中以开始创建图形。我们使用该ggplot()函数来表示我们要创建一个图。
这段代码产生了一个空白图表(如下所示)。但是life_expec,即使我们尚未看到图表,它现在也“知道”使用数据。
建造斧头
现在我们已经准备好数据,我们可以开始构建可视化了。我们需要建立的下一层是轴。我们感兴趣的是看预期寿命随时间如何变化,所以这指明了我们的两个轴分别是:Year和Avg_Life_Expec。
为了指定轴,我们需要使用该aes()功能。aes“美学”的缩写,是在这里告诉我们要在图表的不同部分使用ggplot哪些列。我们试图通过时间来看看寿命,因此,这意味着Year将去x-axis,并Avg_Life_Expec会去y轴。
通过添加aes()功能,图形现在可以知道哪些列可归因于轴:
但是请注意,情节上仍然没有任何内容!我们仍然需要告诉ggplot()使用什么样的形状,以可视化之间的关系Year和Avg_Life_Expec。
指定几何
通常,当我们想到可视化时,通常会考虑图形的类型,因为它实际上是我们看到的形状可以告诉我们大多数信息。该ggplot2软件包在选择形状绘制数据方面为我们提供了很大的灵活性,但值得花一些时间来考虑哪种问题最适合我们的问题。
我们正在尝试将预期寿命随时间变化的形象化。这意味着我们应该有一种方法可以将过去与未来直接进行比较。换句话说,我们想要一个有助于显示连续两年之间的关系的形状。为此,折线图很棒。
要使用创建折线图ggplot(),我们使用geom_line()函数。A geom是我们要用来可视化数据的特定形状的名称。用于绘制这些形状的所有功能都geom位于它们的前面。geom_line()创建折线图,geom_point()创建散点图等。
注意使用该ggplot()功能后,如何开始使用+符号向其添加更多层。请务必注意这一点,因为我们通常%>%会告诉您ggplot()要使用哪些数据。使用之后ggplot(),我们使用+来添加更多图层。
这张图正是我们想要的!从总体趋势来看,预期寿命随着时间的推移而增长。
如果我们只是快速查看数据,可以在此处停止绘图,但是这种情况很少发生。更为常见的是,您将为报告或团队中的其他人创建可视化文件。在这种情况下,情节是不完整的:如果我们将其交给没有上下文的队友,他们将不会理解情节。理想情况下,所有情节都应该能够通过注释和标题来说明自己。
添加标题和轴标签
当前,该图将列名称保留为两个轴的标签。对于Year,这已经足够了,但是我们想改变y轴。为了更改图的轴标签,我们可以使用该labs()函数并将其作为图层添加到图上。labs()可以同时更改轴标签和标题,因此我们将其合并在此。
我们最终的抛光图是:
结论:ggplot2功能强大!
仅用几行代码,我们就产生了出色的可视化效果,它告诉我们我们需要了解的有关美国一般人口的预期寿命的所有信息。可视化是所有数据分析师的一项必不可少的技能,R使其易于使用。
如果您有兴趣了解更多信息,请查看我们在R路径中的数据分析师!R路径中的Data Analyst包括使用R进行R数据可视化的课程ggplot2,您将在其中学习如何:
1)使用折线图可视化随时间变化。
2)使用直方图了解数据分布。
3)使用条形图和箱形图比较图形。
4)使用散点图了解变量之间的关系。