Pandas描述性分析分类变量及连续变量,Matplotlib简易制图

本文介绍了使用Pandas进行数据描述性分析的方法,包括单分类变量的频数统计,单连续变量的统计量计算,如通过value_counts(), agg()函数。同时展示了如何用直方图和柱形图进行可视化。此外,还涉及分类变量与分类变量、分类变量与连续变量之间的描述性分析,如crosstab(), groupby()和pivot_table()。通过实例讲解了如何处理中文数据并创建新列。" 125760086,14431842,AI语音人脸识别实践:CC3200加解密与数据通信协议详解,"['计算机视觉', '语音识别', '人工智能', '机器学习', '嵌入式开发']
摘要由CSDN通过智能技术生成

一 单分类变量描述频数,例如:value_counts()描述分类变量 柱形图
二 单连续变量描述统计量(均值,中位数,四分位数,总和等),例如:聚合函数agg()描述价格变量 直方图
三 分类变量与分类变量描述频数,例如:交叉表crosstab()描述各地区与是否学区房 交叉表——堆叠柱状图
四 单分类变量与单连续变量描述连续变量统计值,例如,分组groupby()描述各地区的房价分布
五 双分类变量与连续变量描述连续变量统计值,透视表pivot_table()描述各地区房价与地域,学区房的关系

# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

data_file = r'F:\python_data_analysis\data_04\sndHsPr.csv'

#读取文件,如果csv文件有中文 data_df = pd.read_csv(data_file, enconding=‘gbk’)

data_df = pd.read_csv(data_file)
#预览数据,默认5行
print(data_df.head())

对地区列的拼音进行重新编码,创建地区新列district

district = {'chaoyang': '朝阳区', 
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值