前言
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
什么是数据分析
明确目的–获得数据(爬虫,现有,公开的数据)–数据预处理——数据可视化——结论
准备
环境使用:
在开始写我们的代码之前,我们要准备好运行代码的程序
-
Anaconda (python3.9)
–> 识别我们写的代码
开发工具:
-
jupyter notebook
–> 代码编辑功能敲代码的工具
不会安装的可以文末名片+我获取哦 😎
数据准备:
代码展示
导入模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
加载字体
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
显示负号
plt.rcParams['axes.unicode_minus'] = False
data = pd.read_csv('医疗数据.csv',engine='python')
data.head()
import missingno as msno
msno.matrix(data)
RYQH(入院区划)存在85个(data.info())缺失值
data.RYQH[data.RYQH.isnull()] = data.JZQH[data.RYQH.isnull()]
年龄NL存在缺失值,运用众数补全,其实这里最好应该用患病种类的年龄的中位数来补全最好
data.NL.fillna(data['NL'].mode()[0],inplace=True)
性别XB有两条缺失值,直接拿众数补上
data.XB.fillna('女',inplace=True)
接下里做一些可视化分析
区域分布,这里的划分比较乱,需要把他们统一划分到镇或者街道,这个应该是临沂市的区划
qh_mapping = {
'费县':'费县','兰山区':'兰山区','双堠镇':'沂南县','长城镇':'兰陵县','流峪镇':'平邑县','兰陵县':'兰陵县','夏蔚镇':'沂水县','四十里镇':'沂水县','沂水县':'沂水县','市本级':'市本级','郑城镇':'平邑县','山东省临沂市':'市本级','新庄镇':'费县','大兴镇':'临沭县','依汶镇':'沂南县','郯城县港上镇':'郯城县','温水镇':'平邑县','朱田镇':'费县','高新开发区':'高新区','上冶镇':'费县','姚店子镇':'沂水县','汤河':'河东区','临港产业区':'莒南县','孙祖镇':'沂南县','沂南县':'沂南县','圈里乡':'沂水县','平邑镇':'平邑县','郯城县马头镇':'郯城县','临沭县':'临沭县','莒南县':'莒南县','南桥镇':'兰陵县','高都街道办事处':'罗庄区','砖埠镇':'沂南县','青云镇':'临沭县','河东区':'河东区','湖头镇':'沂南县','车辋镇':'兰陵县','郯城县郯城镇':'郯城县','探沂镇':'费县','平邑县':'平邑县','费城镇':'费县','马庄镇':'费县','郯城县胜利乡':'郯城县','郯城县泉源乡':