构建数据科学工作流时有许多不同的场景。无论数据分析多么复杂,每个数据科学家都需要处理一个重要的最后一步:将他们的发现传达给不同的利益相关者——决策者、经理或客户。这最后一步至关重要,因为如果无法理解、信任或重视调查结果,那么整个分析将被丢弃和遗忘。
除了通常的软技能外,数据科学家还可以使用数据可视化在几张幻灯片中传达清晰的信息。数据可视化使用颜色、形状、位置和其他视觉通道对信息进行编码,这样人类可以比阅读一些文本或查看 Excel 电子表格更快地理解数据。
您将在下面找到我个人最喜欢的五个可视化数据图表。这些图表是使用KNIME 分析平台生成的 。
1. 散点图
散点图将输入数据行表示为二维图中的点。它对于二元视觉探索很有用,因为您可以轻松地在二维空间中显示数据中两个特征(列)之间的强关系。在 xy 轴上使用不同的输入列和不同的图形属性进行交互试验可能是找到这些关系的有效策略。
2. 旭日图
旭日图通过环的层次结构显示分类特征。每个环都根据相应特征中的标称值和所选层次进行切片。这是用于多变量分析的强大图表。
3.堆叠面积图
堆积面积图使用前一行作为基础参考在彼此之上绘制多个数字特征。线条之间的区域被着色,以便于比较。此图表通常用于可视化趋势主题。
4 .条形图
条形图将不同数据分区的一个或多个聚合指标可视化,其中矩形条的高度与指标值成正比。分区由分类特征中的值定义。
5. 线图
线图将一个或多个数据特征(y 轴)中的数值映射到参考特征(x 轴)中的值。数据点通过彩色线连接。如果 x 轴上的参考列包含排序的时间值,则线图以图形方式表示时间序列的演变。
我已经向您展示了我个人喜欢的用于可视化数据的图表:散点图、旭日图、堆积面积图、条形图和折线图。它们是非常基本的图表,但非常强大。从这些图表中可以了解有关双变量分析和输入特征对之间的关系(散点图)、名义输入特征的多变量分析(旭日图)、特征随时间演变(堆积面积图)的有趣信息,例如主题趋势、比较聚合指标,而不是调查单个数据点(条形图),最后是随时间序列的演变(线图)。