分布分析 → 研究数据的分布特征和分布类型,本文中介绍定量数据、定性数据分布分析的基本方法
分布分析涉及的基本统计量:极差 / 频率分布情况 / 分组组距及组数
选择深圳罗湖二手房信息数据为例:
1.数据导入,查看数据基本情况:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_csv(r'深圳罗湖二手房信息.csv',engine = 'python')
data.head()
数据中包含房屋编码、小区、朝向、房屋单价、参考首付、参考总价、经度、纬度等信息。
先通过散点图,以经纬度为横纵坐标画出房源的分布情况,以房屋单价代表点的大小,房屋总价代表点的颜色深浅。
plt.figure(figsize = (10,6))
plt.scatter(data['经度'],data['纬度']
,s = data['房屋单价']/500
,c = data['参考总价']
,cmap = 'Reds'
,alpha = 0.8
)
plt.grid()#设置网格
plt.colorbar()#颜色条
2.极差(只针对定量字段)
定义函数d_range(max-min)查看特定列数据的极差
# 极差
def d_range(df,*cols):
krange = []
for col in cols:
krange.append(df[col].max