Python数据挖掘
文章平均质量分 75
Python数据挖掘
Day-3
与君共勉
展开
-
Kaggle猫狗分类Pytorch CNN
猫狗分类来源于Kaggle上的一个入门竞赛。原创 2023-05-20 22:03:22 · 1937 阅读 · 0 评论 -
Python牛客刷题笔记
本文是本人好友大海所作。详细记录在刷题过程中遇到的问题,为做数据分析打好基础。原创 2022-11-02 16:33:03 · 1749 阅读 · 0 评论 -
台湾地区信用卡客户贷款违约预测
数据集地址:链接:https://pan.baidu.com/s/1vQgkQs1aTC-zm6zcDH4kKQ提取码:6ois。原创 2022-08-23 18:26:17 · 3303 阅读 · 6 评论 -
Python安装imblearn库
pip默认将Python包安装到系统目录(例如/usr/local/lib/python3.4).这需要root访问权限.出现该错误信息是因为pip源连接证书验证失败,将pip源调整为国内的源就可以了,比如要下载psutil。–user会在您的主目录中生成pip安装包,而不需要任何特殊权限.原创 2022-08-22 22:26:30 · 2193 阅读 · 0 评论 -
Kaggle房价预测问题
下一个分类器把上一个分类器分类得不好的地方加上更高的权重,这样下一个分类器就能在这个部分学得更加“深刻”。Bagging把很多的小分类器放在一起,每个train随机的一部分数据,然后把它们的最终结果综合起来(多数投票制)。注意,我们在部署Bagging的时候,要把它的函数base_estimator里填上你的小分类器(ridge)注意:我们这里也是可以继续使用Log的,我只是给大家展示一下多种“使数据平滑”的办法。在这里,我们用CV结果来测试不同的分类器个数对最后结果的影响。查看一下数据集是什么样子的。..原创 2022-08-13 16:00:14 · 503 阅读 · 0 评论 -
机器学习流程概述
建模的流程原创 2022-08-12 15:02:04 · 333 阅读 · 0 评论 -
Python数据挖掘(2)简单的分类问题
接下来将使用著名的Iris植物分类数据集。这个数据集共有150条植物数据,每条数据都给出了四个特征:sepal length、sepal width、petal length、petal width(分别表示萼片和花瓣的长与宽),单位均为cm。这是数据挖掘中的经典数据集之一。该数据集共有三种类别:Iris Setosa(山鸢尾)、Iris Versicolour(变色鸢尾)和Iris Virginica(维吉尼亚鸢尾)。我们这里的分类目的是根据植物的特征推测它的种类。数据集中各特征值为连续型,也就原创 2022-07-08 14:09:07 · 674 阅读 · 0 评论 -
Python数据挖掘(1)亲和性分析
亲和性分析根据样本个体之间的相似度,确定他们的亲疏。首先下载数据集affinity_dataset.txt。数据集的内容如下:我们使用NumPy中的二维数组来表示数据。代码如下:运行结果如图所示:数据集中每一行的数据代表着顾客购买的商品的种类,五种商品分别是面包、牛奶、奶酪、苹果和香蕉,第一行代表的含义是顾客购买了奶酪苹果和香蕉但没有购买面包和牛奶。我们的目标是“如果顾客购买了X,那么顾客也会购买Y”.简单粗暴地做法是找出所有同时购买的两件物品。找出规则后然后再判断它的好坏,常用的评判标准是支持原创 2022-07-07 15:34:51 · 747 阅读 · 0 评论