数据科学入门与实战:玩转pandas实战项目分析航班晚点情况

引入相关包

import numpy as np
import pandas as pd
from pandas import DataFrame,Series

读取数据文件

df = pd.read_csv('usa_flights.csv')

看看数据个数

print(df.size)#计算总数
print(df.shape)#计算矩阵行列大小

在这里插入图片描述
查看数据

print(df.head())#一个月的数据..
#主要看看arr_delay才知道是否延误

数据情况,包含航班日期,航空公司,航班号,数据源,目的地,到达延迟时间,取消,距离,carrier_delay weather_delay late_aircraft_delay nas_delay security_delay actual_elapsed_time
在这里插入图片描述
按照到达目的延迟时间从小到大排序,-74说明早到达74分钟

#排序。。
#按照航班延误时间从小到大排序
print(df.sort_values('arr_delay'))

在这里插入图片描述
最长延误时间TOP十

#最长延误时间Top Ten
print(df.sort_values('arr_delay',ascending=False)[:10])

在这里插入图片描述
计算延误航班和没有延误航班的比例

#计算延误和没有延误航班的比例
print(df['cancelled'])

在这里插入图片描述
就算延误和没有延误航班的个数分别为

print(df['cancelled'].value_counts())

在这里插入图片描述
生成一列新的数据delay,通过applay吧arr_delay转否delay的标志

df['delayed'] = df['arr_delay'].apply(lambda x:x > 0)
print(df.head())

在这里插入图片描述
计算一下delayed False和True的值的数量

delay_data = df['delayed'].value_counts()#引用delay_data时候就直接delay_data[0]...即可
print(delay_data)
print(type(delay_data))

在这里插入图片描述

计算延误比例

#延误比率
print(delay_data[1] / (delay_data[0] + delay_data[1]) )

在这里插入图片描述
每个公司的延误情况如何?通过groupby分组

#每个公司延误的情况,两级索引:'unique_carrier','delayed'
delay_group = df.groupby(['unique_carrier','delayed'])
print(delay_group)
print(delay_group.size())

在这里插入图片描述
在这里插入图片描述

不要堆叠

df_delay = delay_group.size().unstack()#不要堆叠
print(df_delay)

在这里插入图片描述
画图

import matplotlib.pyplot as plt
df_delay.plot()

在这里插入图片描述

df_delay.plot(kind = 'barh',stacked = True, figsize = [16,6],colormap = 'winter')

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值