整理作业用的
# coding=utf-8
#第一步,导出相关函数库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math
import scipy.stats as st
import statsmodels.api as sm
import seaborn as sns
from pylab import mpl
from matplotlib.font_manager import FontProperties
#中文显示
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定SimHei字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
第一步:导入函数库+中文显示
#第二步,加载数据
def loaddata():
datapath=r'C:\Users\安航正\Desktop\athlete_events.csv'
#路径datapath,编码方式gbk(用utf-8可能出现中文编码问题),允许空格
athletedata=pd.read_csv(datapath,encoding='gbk', skipinitialspace=True)
sex = {
'F':'女性','M':'男性'}
athletedata['Sex'] = athletedata.Sex.map(sex)
#因为原数据中的性别用“F”和“M”表示,不好看,用sex表示对应关系,将athletedata中的Sex中的W和M替换为中文,替换关系为sex,为方便理解特此用sex和Sex区别
return athletedata
第二步骤:将csv文件导入到python中并用athletedata表示(并将性别替换为中文)
def datadescirbe():
#读取数据(可以取一样的名字athletedata)
athletedata=loaddata()
#打印数据的列的名字
print(athletedata.columns)
#打印各列数据个数/是否有空缺值/字段类型
print(athletedata.info())
#打印前五行数据
print(athletedata.head())
#数据描述各个变量
#这一列中一共有多少个数据,这些数据中出现了多少类,出现最多的类别是什么,出现了多少次
print(athletedata['Sex'].describe())
print(athletedata['Age'].describe())
print(athletedata['Height'