csv格式数据清洗 根据表格得出知友全国地域分布情况,分析出TOP20

操作环境:Jupyter Notebook
清洗知乎数据csv格式文件分析知乎Top20知友数量全国分布情况和知友密度情况
利用Numpy模块,Pandas模块进行数据清洗,Matplotlib模块将数据可视化
成功得到知友数量全国分布情况和知友密度情况图表数据

附件

目的:

① 按照地域统计 知友数量、知友密度(知友数量/城市常住人口)
② 知友数量,知友密度,标准化处理
③ 图表可视化

标准化计算方法 = (X - Xmin) / (Xmax - Xmin)

困难及解决方案:
1、获取数据后对数据格式排列没有清洗的概念,不知道如何两个表格数据进行合并;查询利用Numpy模块中的merge函数。
2、可视化标签设置错误;查阅matplotlib.pyplot相关阅读指导进行改正。

结果:

在这里插入图片描述
在这里插入图片描述

改进计划:

1、优化代码结构逻辑
2、将函数封装成模块

Code:

import numpy as ny
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
%matplotlib inline 
#设置图形内嵌
import matplotlib.style as stl
stl.use('ggplot') #自带样式美化

mpl.rcParams['font.sans-serif']=['SimHei']  # #指定默认字体 SimHei为黑体
#mpl.rcParams['axes.unicode_minus']=False  # #用来正常显示负号

#读取数据
data1 = pd.read_csv('知乎数据_201701.csv',engine='python')
data2 = pd.read_csv('六普常住人口数.csv',engine='python')

def 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值