一、预处理航空客户数据
数据源:https://pan.baidu.com/s/1JVW5K6OJjZnp9Huz5dpGkA
1 实训目标
对航空客户数据进行预处理 。
2 实训环境
(1) 使用 3.6 版本的 Python 。
(2) 使用 jupyter notebook 编辑器。
(3) os , pandas , N umPy , sklearn 。
3 实训内容
(1) 处理数据缺失值与异常值。
(2) 结合 RFM 模型筛选特征。
(3) 标准化筛选后的数据。
4 实训步骤
4.1 处理数据缺失值与异常值
航空客户价值分析缺失值与异常值均使用删除法进行处理,如 代码 所示。
In[1]:
import os
import numpy as np
import pandas as pd
os.chdir('/course/Python 数据分析与应用 /data')
# 导入航空数据
airline_data = pd.read_csv("./air_data.csv",encoding="gb18030",engine = 'python')
print(' 原始数据的形状为: ',airline_data.shape)
## 去除票价为空的记录
airline_notnull = airline_data.loc[airline_data["SUM_YR_1"].notnull() &
airline_data["SUM_YR_2"].notnull(),:]
print(