成绩单分析

前言

怎么硕呢, 我就挺%…&*#%&()&…的吧.今天还下雪了, 不想出去了.家里写作业吧…

好了 开始写 Excel 了
1

CSV 写好了.

真 他星星麻烦

--------分割线--------


好了,开始写代码了

3
看起来还不错… 继续…

数据处理

5
谷歌搜的答案好像还不错… 继续…
4

散点

5
6

箱体

7

8

异常值处理

9

所有代码:

#!/usr/bin/env python
# coding: utf-8

# In[1]:


import pandas as pd 
import numpy as np 


# (1)导入D盘下的数据chengjidan.csv到R软件。
# (3)用R软件进行初步的数据探索,大致了解数据的结构和组成。
# (4)进行相关的数据清洗(缺失值处理,异常值识别)。
# 

# In[2]:


CJD_Df = pd.read_csv('/Users/baba/Desktop/Root_Jupyter/Data_Fuck/S1/chengjidan.csv')


# In[31]:


CJD_Df.head(5)


# (3)对缺失值、异常值和冗余属性的成绩单进行数据清洗, 缺失值用均值填充

# In[10]:


# 查看每列缺失值数量
CJD_Df.isnull().sum()


# In[11]:


# 用均值填充
for column in list(CJD_Df.columns[CJD_Df.isnull().sum() > 0]):
    mean_val = CJD_Df[column].mean()
    CJD_Df[column].fillna(mean_val, inplace=True)


# In[12]:


CJD_Df.tail(5)


# 绘制散点图

# In[15]:


import matplotlib.pyplot as plt 
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号


# In[16]:


x = CJD_Df['数学']
y = CJD_Df['姓名']
plt.scatter(x, y, alpha=0.6)  # 绘制散点图,透明度为0.6(这样颜色浅一点,比较好看)
plt.show()


# In[30]:


# 箱体图
plt.title("Math")
plt.grid(linestyle="--", alpha=0.3)
#vert=False:水平箱线图;showmeans=True:显示均值
plt.boxplot(CJD_Df['数学'], vert=False,showmeans=True )
plt.show()


# In[47]:


# 修改异常值
CJD_Df.iloc[3,3] = 91
CJD_Df.head()


Smile
如果文章对你有帮组的话,记得留个赞👍哦!!
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值