数据可视化之树形图(原理+Python代码)

本文介绍了树形图在可视化分析中的作用,主要用于比较分类变量的数量差异。通过Python代码,展示了如何利用上市企业数据绘制树形图,揭示不同行业企业数量的显著差距,其中制造业占比最多,教育行业最少。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、原理介绍

树形图常用于对分类变量进行可视化分析,树形图的面积代表了所对应类别的数量,常用于比较各类别在数量上的差异。

二、代码实现

数据来源于上市企业数据,通过绘制树形图,来比较不同行业的企业数量分布差异。

import squarify 
from pyforest import *
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
#读入数据
data=pd.read_csv("F:/data1/class.csv",encoding='gbk')
data.head()
行业名称
0金融业
1房地产业
2制造业
3水利、环境和公共设施管理业
4房地产业
#图片显示中文
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] =False #减号unicode编码
df = data.groupby('行业名称').size().reset_index(name='counts')
labels = df.apply(lambda x: str(x[0]) + "\n (" + str(x[1]) + ")", axis=1)
sizes = df['counts'].values.tolist()
colors = [plt.cm.Spectral(i/float(len(labels))) for i in range(len(labels))]
# 画图
plt.figure(figsize=(12,8), dpi= 80)
squarify.plot(sizes=sizes, label=labels, color=colors, alpha=.8)

plt.title('上市企业行业分布情况')
plt.axis('off')
plt.show()

在这里插入图片描述

三、结果解释

从图中可以看出,不同行业的上市企业数量差别明显。其中,制造业的上市企业为多数类,有26339家;教育行业的上市企业数量最少,仅有43家。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值