Python实现数据分析(六)数据字典的建立

数据字典

分析数据首先要搞清楚数据字段的含义。

博主费劲千辛万苦,终于在FAA上找到了各种字段的解释

数据来源:ACAIS(航空公司活动信息系统-FFA(美国联邦航空管理局))
https://www.faa.gov/airports/planning_capacity/passenger_allcargo_stats/passenger/previous_years/
选用表:cy18-all-enplanements.xlsx

字段解释
Rank按旅客人数的排名(降序)
RO美国的区域(缩写) Region
ST美国的洲的编码(State Code)
Locid机场缩写
City机场所在的城市
Airport Name机场名称
S/L服务水平(Service Level)【类型:CS、P、GA】
Hub枢纽类型(Hub Type(Large hub,Medium hub,Small hub,Non-hub))
CY 18 Enplanements2018年登机的旅客
CY 17 Enplanements2017年登机的旅客
% Change2017年~2018年旅客人数的的变化率

说明:

FAA将旅客吞吐量占全美吞吐总量1%以上的机场定义为大型枢纽(primary large hub),旅客吞吐量占全美吞吐总量0.25%-1%的机场定义为中型枢纽(primary medium hub),旅客吞吐量占全美吞吐总量0.05-0.25%的机场定义为小型枢纽(primary small hub)。旅客吞吐量占全美吞吐总量达到1万人次,但低于旅客吞吐量占全美吞吐总量0.05的机场定义为主要非枢纽机场(primary nonhub)。年客运量至少2500人次,但不超过10000人次。定义为非主要机场(non-primary nonhub)。

现在已经知道了总表的每个字段的含义,接下来就是把原来的表进行拆分,变成一个个的子表,然后从不同方向去分析这些表。

待处理的表

我们可以将所需要的数据抽离出来,变成视图,这样方便操作

不同城市-不同机场-2017、2018乘客的人数(city_airportID_peoples.xls)

create view v_city_airportID_peoples
as
select city,Locid airportID, CY_17_Enplanements,CY_18_Enplanements
from t_passengerInfo

枢纽类型-2017、2018乘客的人数(HubType_peoples.xls)

create view v_HubType_peoples
as
select isnull(Hub,'未知') HubType,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by  Hub

不同机场2017、2018的游客人数(airportID_peoples.xls)

create view v_airportID_peoples
as
select Locid airportID,CY_17_Enplanements,CY_18_Enplanements 
from t_passengerInfo

美国不同区域2017、2018游客的分布(ro_peoples.xls)

create view v_ro_peoples
as
select RO,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements 
from t_passengerInfo group by RO

美国不同洲2017、2018游客的分布(st_peoples.xls)

create view v_st_peoples
as
select ST,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements 
from t_passengerInfo group by ST

不同机场的服务水平(airportID_serviceLevel.xls)

create view v_airportID_serviceLevel
as
select Locid airportID,S_L serviceLevel from t_passengerInfo

不同机场的枢纽类型(airportID_HubType.xls)

create view v_airport_HubType
as
select Locid airportID,Hub HubType from t_passengerInfo where Hub is not null

表字典

在这里插入图片描述

表名含义
city_airportID_peoples.xls不同城市-不同机场-2017、2018乘客的人数
HubType_peoples.xls枢纽类型-2017、2018乘客的人数
airportID_peoples.xls不同机场2017、2018的游客人数
ro_peoples.xls美国不同区域2017、2018游客的分布
st_peoples.xls美国不同洲2017、2018游客的分布
airportID_serviceLevel.xls不同机场的服务水平
airportID_HubType.xls不同机场的枢纽类型

最后,我们可以通过Pandas包的函数进行读表操作

import pandas as pd
# import xlrd
# 每个区域的2017、2018的游客人数
# airportID_serviceLevel.xls,airportID_serviceLevel
# airport_HubType.xls,airport_HubType
# city_airportID_peoples.xls,city_airportID_peoples

df4 = pd.read_excel('./DataResource/HubType_peoples.xls', 'HubType_peoples')
print(df4)

结果如下:
在这里插入图片描述
到这里,对数据的整理部分就结束了,后期就开始学习统计学的基础知识了!

具体正式提交报告还有1个月,迫在眉睫啊!

【git源码地址】:https://gitee.com/sienhao/data-analysis-python.git

(看了一下自己之前的准备工作,成就感满满,期待出成果)
在这里插入图片描述
求三连!!!

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值