python 数据分析与挖掘
文章平均质量分 75
爱遛弯的布谷
这个作者很懒,什么都没留下…
展开
-
Python数据分析与挖掘——泰坦尼克号
Python数据分析与挖掘——泰坦尼克号本文利用已给特征属性和存活与否标签的训练集和只包含特征信息测试集数据,通过决策树等模型来预测测试集数据乘客的生存情况#导包import numpy as npimport pandas as pdfrom sklearn.tree import DecisionTreeClassifier as DTC #决策树from sklearn.model_selection import GridSearchCV # 超参数自动搜索模块from skle原创 2021-09-05 15:56:11 · 1472 阅读 · 1 评论 -
爬虫——豆瓣电影top250
爬虫——豆瓣电影top250无论是动态网页爬虫和静态网页爬虫,实现的思路基 本上都是获取页面 html、页面解析、数据保存或输出。虽然获取页面 html 以及数据保存都 已经封装为通用函数,但依然编写繁琐。使用爬虫框架可以很好的解决这些问题,让我们在 编写爬虫的过程中专注于页面解析,大大简化编写爬虫的工作量,并能提高爬虫运行的效率。所谓的爬虫框架,是一个半成品的爬虫,已经实现了工作队列、下载器、保存处理数据 的逻辑以及日志、异常处理、反反爬虫等通用功能。对于使用者来说,更多的工作是通过更 改配置调整需要原创 2021-01-10 14:26:24 · 999 阅读 · 1 评论 -
频繁项集算法实现-商品购物篮
商品购物篮购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业研究的重点问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究客户的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。本章使用Apriori关联规则算法实现购物篮分析,发现超市不同商品之间的关联关系,并根据商品之间的关联规则制定销售策略。购物篮关联规则挖掘主要步骤如下:1)对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。2)对原始数据进行数据预处理,转换数据形式,使之符合Apr原创 2020-12-18 17:31:09 · 1289 阅读 · 2 评论 -
python数据分析与挖掘——航空数据模型
航空数据模型数据探索# 导入需要的库import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False plane=pd.read_excel('./航空数据.xls') #读取数据plane.head()plane.info()des=plane.原创 2020-12-18 17:06:57 · 1064 阅读 · 1 评论 -
决策树-红酒分析
决策树是一种非参数的有监督学习方法决策树算法的核心是要解决两个问题:1)如何从数据表中找出最佳节点和最佳分枝?2)如何让决策树停止生长,防止过拟合?不纯度越低,决策树对训练集的拟合越好Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:输入”entropy“,使用信息熵(Entropy)输入”gini“,使用基尼系数(Gini Impurity)from sklearn.tree import DecisionTreeClassifier as DT原创 2020-11-20 22:20:52 · 3903 阅读 · 0 评论 -
逻辑回归(一) 乳腺癌的数据集
逻辑回归回归,用于处理和预测连续型标签的算法线性回归完成的是回归拟合任务,而对于分类任务,我们同样需要一条线,但不是去拟合每个数据点,而是把不同类别的样本区分开来。正则化L1范式表现为参数向量中的每一个参数的绝对数之和L2范式表现为参数向量中的每一个参数的平方和的开方值正则化强度逐渐增大,参数的取值会逐渐变小,L1正则化会将参数压缩为0,L2正则化只会让参数尽量小,不会取到0导入所需要的的库from sklearn.linear_model import LogisticRegressi原创 2020-11-06 21:56:05 · 2951 阅读 · 0 评论 -
多元线性回归——加利福尼亚房屋预测
导入需要的模块和库import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号from sklearn import linear_model #导入线性模型模块model=linear_model.Lin.原创 2020-11-06 21:37:14 · 1311 阅读 · 0 评论 -
多元线性回归——波士顿房屋价值模型预测
波士顿房屋价值模型预测import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False from sklearn import linear_model model=linear_model.LinearRegression() 导入数据from s原创 2020-11-01 21:39:25 · 1454 阅读 · 0 评论 -
matplotlib 思维导图
matplotlib 思维导图原创 2020-09-27 16:04:18 · 293 阅读 · 0 评论