用python进行简单的数据分析和数据可视化
本篇文章主要是初步探索数据分析,简单了解数据分析大致流程
数据来源 : 来自于Kaggle平台上的一个项目:Explore San Francisco city employee salary data
源代码与原数据 : https://github.com/yb705/SF-Salaries
首先我们需要导入一些第三方库numpy,pandas等,对数据可视化进行一些初始设置以及对原始数据的导入:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline#在ipython或者是jupyter notebook上可以显示图片
plt.style.use("fivethirtyeight")
sns.set_style({'font.sans-serif':['SimHei','Arial']})
original=pd.read_csv('C:\\Users\\1994y\\Desktop\\Salaries.csv')
数据初探
那么首先我们需要观察数据看看是否有缺失值,以及数据的格式:
original.info()
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507164818270.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzU4MDMzOQ==,size_16,color_FFFFFF,t_70#pic_center)
可以看到有缺失值,那么在接下来的操作中要注意一下有缺失值的部分。
还可以看到在dtype一栏中的数据格式,要提醒大家,有的数据看起来是数字,实际上本身是字符串格式,如果接下来我们有算数或其他数字操作的话就需要把这些数据转换成int型或float型。
objlist = ['BasePay', 'OvertimePay', 'OtherPay', 'Benefits']
for obj in objlist:
original[obj] = pd.to_numeric(original[obj], errors = 'coerce')
original.info()
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507165321220.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzU4MDMzOQ==,size_16,color_FFFFFF,t_70#pic_center)
这样就好