本篇文章主要学习对数据的预处理和K-Means聚类算法,代码很详细,下面直接附代码。
缺失值与异常值处理
import numpy as np
import pandas as pd
DJIA_data=pd.read_csv('./data/DJIA_data.csv',encoding="gb18030") #导入美国股票数据
print('原始数据形状为:',DJIA_data.shape)
DJIA_data.info() #查看是否存在缺失值 与形状有存在差异,则存在缺失值 根据输出结果判断出存在缺失值
#去除为空的记录
exp1=DJIA_data['Date'].notnull()
exp2=DJIA_data['High'].notnull()
exp3=DJIA_data['Volume'].notnull()
exp2=DJIA_data['Close'].notnull()
exp=exp1 & exp2 & exp3
DJIA_notnull=DJIA_data.loc[exp,:]
print('删除缺失记录后的形状为:',DJIA_notnull.shape)
结果:
原始数据形状为: (1989, 7)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1989 entries, 0 to 1988
Data columns (total 7 columns):
Date 1969 non-null object
Open 1989 non-null float64
High 1988 non-null float64