数据挖掘
文章平均质量分 79
八岁爱玩耍
个人博客:https://aishangcengloua.github.io/
展开
-
Adult数据集分析及四种模型实现
文章目录一、数据集数据集介绍数据集预处理及分析二、四种模型对上述数据集进行预测深度学习决策树支持向量机随机森林三、结果分析一、数据集数据集介绍Adult数据集是一个经典的数据挖掘项目的的数据集,该数据从美国1994年人口普查数据库中抽取而来,因此也称作“人口普查收入”数据集,共包含48842条记录,年收入大于 50k$ 的占比23.93%年收入小于 50k$ 的占比76.07%,数据集已经划分为训练数据32561条和测试数据16281条。该数据集类变量为年收入是否超过 50k$ ,属性变量包括年龄、工原创 2021-12-23 20:36:42 · 16562 阅读 · 32 评论 -
LSTM预测股票
tushare是一个开源的金融数据源,目前维护的数据非常丰富,质量也很高,对于一般的分析已经足够,可以省去自己到处去爬数据。我这里下载沪深300指数数据进行预测每日的最高价首先使用pip install tushare安装tushare工具包github地址https://github.com/aishangcengloua/MLData/blob/master/PyTorch/NLP/Forecast_stock/LSTM.ipynbimport tushare as tscons = ts.原创 2021-12-16 17:53:59 · 1044 阅读 · 0 评论 -
对含有奇异值和高斯噪声的数据进行处理
分别用平均滑动窗口、指数滑动窗口、SG滤波法对含有奇异值和高斯噪声的两列数据进行去奇异值和降噪,最终拟合曲线推测函数表达式。去噪方法理论知识参考对第一列数据:import matplotlib.pyplot as pltimport numpy as npfrom scipy import optimizeimport scipy.io as scio%matplotlib#防止中文乱码plt.rcParams["font.sans-serif"] = ["Simhei"]plt.rcP原创 2021-10-24 14:28:35 · 736 阅读 · 0 评论 -
决策树练习
原始数据:计算第一次决策如果分别对在14天各个属性下是否进行施肥的统计情况且计算该属性的基尼指数:天气:#encoding = utf-8import pandas as pdBase_file = pd.read_excel('Data.xlsx')Base_file.head(15)#Base_file.head()Weather_Sunny = Base_file[Base_file['天气'] == '晴天']['是否施肥'].value_counts()#print(Wea原创 2021-10-16 17:21:20 · 4872 阅读 · 0 评论