120年奥运会数据分析和可视化

整理作业用的

# coding=utf-8

#第一步,导出相关函数库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math
import scipy.stats as st
import statsmodels.api as sm
import seaborn as sns
from pylab import mpl
from matplotlib.font_manager import FontProperties

#中文显示
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定SimHei字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

第一步:导入函数库+中文显示

#第二步,加载数据
def loaddata():
    datapath=r'C:\Users\安航正\Desktop\athlete_events.csv'
    #路径datapath,编码方式gbk(用utf-8可能出现中文编码问题),允许空格
    athletedata=pd.read_csv(datapath,encoding='gbk', skipinitialspace=True)
    sex = {
   'F':'女性','M':'男性'}
    athletedata['Sex'] = athletedata.Sex.map(sex)
    #因为原数据中的性别用“F”和“M”表示,不好看,用sex表示对应关系,将athletedata中的Sex中的W和M替换为中文,替换关系为sex,为方便理解特此用sex和Sex区别
    return athletedata

第二步骤:将csv文件导入到python中并用athletedata表示(并将性别替换为中文)

def datadescirbe():
    #读取数据(可以取一样的名字athletedata)
    athletedata=loaddata()
    #打印数据的列的名字
    print(athletedata.columns)
    #打印各列数据个数/是否有空缺值/字段类型
    print(athletedata.info())
    #打印前五行数据
    print(athletedata.head())

    #数据描述各个变量
    #这一列中一共有多少个数据,这些数据中出现了多少类,出现最多的类别是什么,出现了多少次
    print(athletedata['Sex'].describe())
    print(athletedata['Age'].describe())
    print(athletedata['Height'
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值