美国股市分析——数据预处理、K-Means聚类算法

本篇文章主要学习对数据的预处理和K-Means聚类算法,代码很详细,下面直接附代码。

缺失值与异常值处理

import numpy as np
import pandas as pd
DJIA_data=pd.read_csv('./data/DJIA_data.csv',encoding="gb18030")  #导入美国股票数据
print('原始数据形状为:',DJIA_data.shape)  
DJIA_data.info()  #查看是否存在缺失值  与形状有存在差异,则存在缺失值    根据输出结果判断出存在缺失值

#去除为空的记录
exp1=DJIA_data['Date'].notnull()
exp2=DJIA_data['High'].notnull()
exp3=DJIA_data['Volume'].notnull()
exp2=DJIA_data['Close'].notnull()
exp=exp1 & exp2 & exp3
DJIA_notnull=DJIA_data.loc[exp,:]
print('删除缺失记录后的形状为:',DJIA_notnull.shape)  

结果: 

原始数据形状为: (1989, 7)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1989 entries, 0 to 1988
Data columns (total 7 columns):
Date         1969 non-null object
Open         1989 non-null float64
High         1988 non-null float64
  • 3
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
很抱歉,我作为一个语言模型,无法直接进行代码运行。但是,我可以为您提供一些实现的思路和步骤: 1. 数据收集:从公共数据源收集1990年美国人口普查数据,常用的数据源有UCI Machine Learning Repository和Kaggle等。 2. 数据预处理:对数据进行清洗和预处理,包括数据缺失值的处理、数据标准化等。 3. K-means聚类:使用K-means算法进行聚类,该算法的实现可以使用Python的scikit-learn库。具体的步骤如下: - 导入数据,对数据进行预处理,包括数据清洗、特征选择等。 - 对数据进行标准化处理,使所有特征的值在相同的尺度上。 - 确定K值,即聚类的类别数。 - 使用K-means算法进行聚类,并输出聚类结果。 4. DBSCAN聚类:使用DBSCAN算法进行聚类,该算法的实现也可以使用Python的scikit-learn库。具体的步骤如下: - 导入数据,对数据进行预处理,包括数据清洗、特征选择等。 - 对数据进行标准化处理,使所有特征的值在相同的尺度上。 - 确定DBSCAN算法的参数,包括eps和min_samples。 - 使用DBSCAN算法进行聚类,并输出聚类结果。 5. 结果分析:比较K-means和DBSCAN的聚类效果,并根据实际需求选择最优的聚类算法。 如果您需要具体的代码实现和运行结果,建议您参考一些相关的教程和案例,如下所示: - 教程:https://www.datacamp.com/community/tutorials/k-means-clustering-python - 教程:https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html - 案例:https://towardsdatascience.com/clustering-us-census-data-6e6a8d22dc46

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值