如何选择最能描述数据的图表类型
> Image by the author (made using Canva)
在进行任何数据科学项目时,探索和解释结果的基本步骤之一就是可视化数据。 在项目开始时,可视化数据有助于您更好地理解数据,查找模式和趋势。
在项目结束时,您完成分析并应用了不同的机器学习模型后,数据可视化将帮助您更有效地传达结果。
人类天生就是视觉生物。当它以易于理解的可视化形式呈现时,对我们来说才有意义。解释条形图比查看电子表格中的大量数字要容易得多。
高效的数据可视化可以创建或破坏您的项目。如果您花费大量精力来分析和建模数据,但最终使用了错误的图表类型来显示结果,那么您的听众将无法理解您所付出的努力或如何使用这些结果。
图表类型很多,选择正确的图表的过程可能会令人不知所措。 希望本文将为您提供一种简单明了的方法,以选择能够完美代表您的数据并最有效地进行交流的最佳图表类型。
如何开始?
在开始查看图表类型之前,您需要问自己5个关于数据的关键问题。 这些问题将帮助您更好地理解数据,因此,选择理想的图表类型来表示它。
№1。 数据试图传达什么故事?
数据只是一个用数字讲述的故事。
因此,您需要了解的关于数据的第一件事是,它试图传达什么故事? 为什么收集这些数据,以及如何收集?
是否收集您的数据以查找趋势? 比较不同的选择? 它显示出一些分布吗? 还是用来观察不同值集之间的关系?
了解数据的起源故事并了解要提供的数据将使选择图表类型对您而言变得容易得多。
№2。 向谁展示结果?
弄清数据背后的故事后,接下来,您需要知道将向谁显示结果。 如果您要分析股市趋势,并将发现的结果呈现给某些商人,则使用的图表类型可能与代表股市开始的人们使用的图表类型不同。
使用数据可视化的全部目的是使数据通信更加有效。
因此,您需要了解您的受众,以便您选择向他们展示数据时要使用的最佳图表类型。
№3。数据有多大?
数据的大小将严重影响您将使用的图表类型。某些类型的图表打算与海量数据集一起使用,而另一些则非常适合大数据。
例如,饼图最适合少数数据集。 但是,如果您使用大量数据集,则使用散点图将更有意义。
您需要选择最适合您数据大小的图表类型,并清楚地表示它,而不会造成混乱。
№4。数据类型是什么?
有几种类型的数据,描述的,连续的,定性的或分类的。 您可以使用数据类型来消除某些图表类型。 例如,如果您有连续数据,则条形图可能不是最佳选择。 您可能需要改用折线图。
同样,如果您具有分类数据,则使用条形图或饼图可能是个好主意。 您可能不希望将折线图与分类数据一起使用,因为根据定义,您不能具有连续的类别。 必须是数量有限的类别。
№5。数据的不同元素之间如何相互关联?
最后,您需要问问自己,数据的不同元素之间的关系如何。您的数据顺序是否基于某种因素-时间,大小,类型?不代表基于某些变量的排名吗?还是不同变量之间的相关性?
您的数据是时间序列的吗?数据会随时间变化吗? 还是更多的分布?
数据集中值之间的关系可能决定使用哪种图表类型更简单。
排名前7位的图表类型
有超过40种图表类型; 有些比其他的更常用,因为它们更易于构建和解释。 我们来谈谈使用率最高的7种图表类型以及何时使用每种图表。
条形图
> Image by the author (made using Canva)
何时使用:
· 比较大量数据的一部分,突出显示不同的类别,或显示随时间的变化。
· 带有长类别标签-它提供了更多空间。
· 如果要说明数据集中的正值和负值。
什么时候避免:
· 如果您使用多个数据点。
· 如果类别很多,请避免使图形过载。 您的图表不应超过10条。
饼形图
> Image by the author (made using Canva)
何时使用:
· 显示整个数据集的相对比例和百分比时。
· 最好与小型数据集一起使用-也适用于甜甜圈图。
· 比较一个因素对不同类别的影响时。
· 如果您有多达6个类别。
· 当您的数据是名义数据而不是序数数据时。
什么时候避免:
· 如果数据集很大。
· 如果要在值之间进行精确或绝对比较。
折线图
> Image by the author (made using Canva)
何时使用:
· 如果您有一个连续的数据集,该数据集会随着时间而变化。
· 如果您的数据集对于条形图而言太大。
· 如果要为同一时间线显示多个系列。
· 如果要可视化趋势而不是精确值。
什么时候避免:
· 折线图与较大的数据集配合使用效果更好,因此,如果数据集较小,则使用条形图。
散点图
> Image by the author (made using Canva)
何时使用:
· 在大型数据集中显示相关性和聚类。
· 如果您的数据集包含具有一对值的点。
· 如果数据集中的点顺序不是必需的。
什么时候避免:
· 如果数据集较小。
· 如果数据集中的值不相关。
面积图
> Image by the author (made using Canva)
何时使用:
· 如果要显示零件之间的关系。
· 如果要描绘数据量,而不仅仅是时间关系。
什么时候避免:
· 不能与离散数据一起使用。
气泡图
> Image by the author (made using Canva)
何时使用:
· 如果要比较独立值。
· 如果要显示分布或关系。
什么时候避免:
· 如果数据集较小。
组合图
> Image by the author (made using Canva)
何时使用:
· 如果要比较具有不同测量值的值。
· 如果值的范围不同。
什么时候避免:
· 如果要显示2?3种以上的图形。 在这种情况下,最好有单独的图表,以便于阅读和理解。
图表选择提示
每当您决定创建一些数据可视化时,都应使用这些最佳实践来使其更加直接和有效。
· 如果您具有分类数据,则如果类别超过5个,则使用条形图,否则使用饼图。
· 如果您有名义数据,则如果数据是离散的,则使用条形图或直方图;如果数据是连续的,则使用折线/面积图。
· 如果要显示数据集中值之间的关系,请使用散点图,气泡图或折线图。
· 如果要比较值,请使用饼图(用于相对比较)或条形图(用于精确比较)。
· 如果要比较体积,请使用面积图或气泡图。
· 如果要显示数据中的趋势和模式,请使用折线图,条形图或散点图。
结论
在选择使用哪种图表类型之前,您需要更好地了解您的数据,其背后的故事以及您的目标受众/媒体。 每当您尝试创建可视化文件时,请选择简单的颜色和字体。
始终致力于简单的可视化而不是复杂的可视化。 可视化数据的目的是使其更易于理解和阅读。 因此,请避免图形过载和混乱。 具有多个简单图总是比一个复杂的图更好。
本文是有关可视化101的三部分系列文章的第一篇。接下来的文章将介绍有效数据可视化的技巧以及Python中不同的可视化库,以及如何根据数据和图形类型选择最佳的可视化技巧。