![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 93
帅泽泽
夏虫不可语冰
展开
-
机器学习-数据预处理与特征工程
1.概述1.1.数据挖掘的五大流程:获取数据数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小数据预处理的目的:让数据适应模型,匹配模型的需求特征工程:特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造原创 2021-01-25 21:38:51 · 2148 阅读 · 0 评论 -
机器学习-调参的基本思想
1. 调参思路。模型调参,第一步是要找准目标:我们要做什么?一般来说,这个目标是提升某个模型评估指标,比如对于随机森林来说,我们想要提升的是模型在未知数据上的准确率(由score或oob_score_来衡量)。找准了这个目标,我们就需要思考:模型在未知数据上的准确率受什么因素影响?在机器学习中,我们用来衡量模型在未知数据上的准确率的指标,叫做泛化误差(Genelization error)。泛化误差当模型在未知数据(测试集或者袋外数据)上表现糟糕时,我们说模型的泛化程度不够,泛化误差大,模型的效果原创 2021-01-06 19:58:08 · 346 阅读 · 0 评论 -
sklearn-随机森林
1.随机森林1.1 集成算法概述集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成算法的身影也随处可见,可见其效果之好,应用之广集原创 2021-01-04 22:05:26 · 625 阅读 · 0 评论 -
sklearn - 决策树
前言简要记录分类树的参数和属性,回归树与分类树区别主要是criterion参数,回归树参照分类树1 sklearn中的决策树tree.DecisionTreeClassifier分类树tree.DecisionTreeRegressor回归树tree.export_graphviz将生成的决策树导出为DOT格式,画图专用tree.ExtraTreeClassifier高随机版本的分类树tree.ExtraTreeRegressor高随原创 2021-01-04 20:37:33 · 416 阅读 · 0 评论 -
sklearn与XGBoost库xgboost算法参数总结
1 sklearn与XGBoost1.2 xgboost库与XGB的sklearn API1.3 XGBoost的三大板块2 梯度提升树2.1 提升集成算法:重要参数n_estimators2.2 有放回随机抽样:重要参数subsample2.3 迭代决策树:重要参数eta3 XGBoost的智慧3.1 选择弱评估器:重要参数booster3.2 XGB的目标函数:重要参数objective3.3 求解XGB的目标函数3.4 参数化决策树 :参数alpha, lambda3.5 寻原创 2020-12-27 16:49:40 · 4429 阅读 · 0 评论 -
机器学习-xgboost
看了几篇博客,比较好的博客如下:https://blog.csdn.net/program_developer/article/details/103655906(感觉最好)https://blog.csdn.net/program_developer/article/details/79405822https://blog.csdn.net/tyhj_sf/article/details/84954120https://blog.csdn.net/meihao5/article/details/8原创 2020-12-23 22:01:21 · 121 阅读 · 0 评论 -
机器学习-K-近邻算法
学习目标掌握K-近邻算法实现过程知道K-近邻算法的距离公式知道K-近邻算法的超参数K值以及取值问题知道kd树实现搜索的过程应用KNeighborsClassifier实现分类知道K-近邻算法的优缺点知道交叉验证实现过程知道超参数搜索过程应用GridSearchCV实现算法参数的调优1 K-近邻算法简介1.1 什么是K-近邻算法K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果原创 2020-11-27 20:33:28 · 455 阅读 · 0 评论 -
机器学习-模型评估与选择
1. 过拟合过拟合是指学习模型对训练样本预测得很好,但对新样本预测很差的现象。这通常是由于学习模型能力过于强大,以至于把训练样本自身的一些特点当做了一般性质。过拟合是无法彻底避免的,只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。2. 评估方法通常用测试误差来近似模型的泛化误差。下面介绍几种常用的评估方法:2.1 留出法(hold-out)留出法直接将数据集D DD划分为两个互斥的部分,其中一部分作为训练集S SS,另一部分用作测试集T TT。通常训练集和测试集的比例为70%:30原创 2020-11-24 20:04:14 · 248 阅读 · 0 评论 -
机器学习-线性回归原理推导与算法描述
1. 概念线性回归(LinearRegression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。2. 特点优点:结果具有很好的可解释性(w直观表达了各属性在预测中的重要性),计算熵不复杂。 缺点:对非线性数据拟合不好适用数据类型:数值型和标称型数据3. 原理推导给定数据集 D={(xi,yi)}i=1,mD=\left\{\left(x_{i}, y_{i}\right)\right\}_{转载 2020-11-20 21:45:47 · 148 阅读 · 0 评论 -
机器学习-贝叶斯公式
1. 贝叶斯公式在已知B事件发生的情况下A事件发生的概率。本身最直观的形式是即AB两事件的交集除以B事件发生的概率最简单的理解方法就是画图:如图所示,A和B为样本空间S中两个存在交集的事件。假设面积对应事件发生的概率,P(S)=1, P(A)= 0.3,P (B) = 0.4,P(A∩B)=0.1前提为B事件发生,那么我们只需要关注B事件发生后的情况,如图阴影部分是A和B事件的交集。它占B事件的比例即为贝叶斯公式所描述的概率 0.1/0.4=1/42.个人理解:P(A∩B)=P(B|原创 2020-11-20 19:58:59 · 669 阅读 · 0 评论 -
机器学习-决策树算法
1. 学习目标掌握决策树实现过程知道信息熵的公式以及作用知道信息增益的作用知道信息增益率的作用知道基尼指数则作用知道id3,c4.5,cart算法的区别了解cart剪枝的作用应用DecisionTreeClassifier实现决策树分类2. 决策树算法简介决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树(决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构原创 2020-10-29 21:30:22 · 781 阅读 · 0 评论