用python进行简单的数据分析和数据可视化

用python进行简单的数据分析和数据可视化

本篇文章主要是初步探索数据分析,简单了解数据分析大致流程
数据来源 来自于Kaggle平台上的一个项目:Explore San Francisco city employee salary data

源代码与原数据 : https://github.com/yb705/SF-Salaries

首先我们需要导入一些第三方库numpy,pandas等,对数据可视化进行一些初始设置以及对原始数据的导入:

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    %matplotlib inline#在ipython或者是jupyter notebook上可以显示图片
    plt.style.use("fivethirtyeight")
    sns.set_style({'font.sans-serif':['SimHei','Arial']})
    original=pd.read_csv('C:\\Users\\1994y\\Desktop\\Salaries.csv')

数据初探
那么首先我们需要观察数据看看是否有缺失值,以及数据的格式:

    original.info()

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507164818270.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzU4MDMzOQ==,size_16,color_FFFFFF,t_70#pic_center)
可以看到有缺失值,那么在接下来的操作中要注意一下有缺失值的部分。
还可以看到在dtype一栏中的数据格式,要提醒大家,有的数据看起来是数字,实际上本身是字符串格式,如果接下来我们有算数或其他数字操作的话就需要把这些数据转换成int型或float型。

    objlist = ['BasePay', 'OvertimePay', 'OtherPay', 'Benefits']
    for obj in objlist:
        original[obj] = pd.to_numeric(original[obj], errors = 'coerce')
    original.info()

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200507165321220.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzU4MDMzOQ==,size_16,color_FFFFFF,t_70#pic_center)
这样就好

  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值