前言
怎么硕呢, 我就挺%…&*#%&()&…的吧.今天还下雪了, 不想出去了.家里写作业吧…
好了 开始写 Excel 了
CSV 写好了.
真 他星星麻烦
--------分割线--------
好了,开始写代码了
看起来还不错… 继续…
数据处理
谷歌搜的答案好像还不错… 继续…
图
散点
箱体
异常值处理
所有代码:
#!/usr/bin/env python
# coding: utf-8
# In[1]:
import pandas as pd
import numpy as np
# (1)导入D盘下的数据chengjidan.csv到R软件。
# (3)用R软件进行初步的数据探索,大致了解数据的结构和组成。
# (4)进行相关的数据清洗(缺失值处理,异常值识别)。
#
# In[2]:
CJD_Df = pd.read_csv('/Users/baba/Desktop/Root_Jupyter/Data_Fuck/S1/chengjidan.csv')
# In[31]:
CJD_Df.head(5)
# (3)对缺失值、异常值和冗余属性的成绩单进行数据清洗, 缺失值用均值填充
# In[10]:
# 查看每列缺失值数量
CJD_Df.isnull().sum()
# In[11]:
# 用均值填充
for column in list(CJD_Df.columns[CJD_Df.isnull().sum() > 0]):
mean_val = CJD_Df[column].mean()
CJD_Df[column].fillna(mean_val, inplace=True)
# In[12]:
CJD_Df.tail(5)
# 绘制散点图
# In[15]:
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
# In[16]:
x = CJD_Df['数学']
y = CJD_Df['姓名']
plt.scatter(x, y, alpha=0.6) # 绘制散点图,透明度为0.6(这样颜色浅一点,比较好看)
plt.show()
# In[30]:
# 箱体图
plt.title("Math")
plt.grid(linestyle="--", alpha=0.3)
#vert=False:水平箱线图;showmeans=True:显示均值
plt.boxplot(CJD_Df['数学'], vert=False,showmeans=True )
plt.show()
# In[47]:
# 修改异常值
CJD_Df.iloc[3,3] = 91
CJD_Df.head()
如果文章对你有帮组的话,记得留个赞👍哦!! |