项目介绍:
A、pandas 进行数据处理
1、读取数据
import pandas as pd
pd.set_option('display.max_columns', None)
load_data = pd.read_csv(r'C:\Users\lab-635\Desktop\A3C\shixizhunbei\PD\price_of _house\LoanStats3a1.csv', encoding='ISO-8859-1')
这部分出现了一些问题:
1)针对pycharm不能将Dataframe列全部显示的问题,在读取之前加入代码
pd.set_option('display.max_columns', None)
2)针对csv文件读取错误的问题,在pd.read_csv参数中加入
encoding='ISO-8859-1'
2、删除冗余列
针对数据中整列都是Nan的列,进行删除操作
load_data = load_data.dropna(axis = 1, how = 'all')
load_data.dropna参数解析:
axis: 0 表示行; 1 表示列
how: all 表示整列删除
3、数据清洗
1)首先选中其中的一些重要的列
load_data_clean = load_data[['loan_amnt',&#