1.导入数据库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
2.导入数据
file_data = pd.read_csv('./2.code/data/链家北京租房数据.csv')
file_data.head(10)
file_data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8223 entries, 0 to 8222
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 区域 8223 non-null object
1 小区名称 8223 non-null object
2 户型 8223 non-null object
3 面积(㎡) 8223 non-null object
4 价格(元/月) 8223 non-null int64
dtypes: int64(1), object(4)
memory usage: 321.3+ KB
3.数据预处理
3.1 重复值和空值处理
file_data.duplicated()
file_data.drop_duplicates(inplace=True)
np.all(pd.notnull(file_data))
file_data = file_data.dropna()
3.2 数据类型转换