![](https://img-blog.csdnimg.cn/20210811125645526.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 51
机器学习相关知识点
thisissally
这个作者很懒,什么都没留下…
展开
-
xgboost知识点总结+代码调参
1. xgboost与GBDT的区别:(1)xgboos相比GBDT的优点(1)精度更高:GBDT只用到一阶泰勒, 而xgboost对损失函数进行了二阶泰勒展开, 一方面为了增加精度, 另一方面也为了能够自定义损失函数,二阶泰勒展开可以近似大量损失函数。(2)灵活性更强:GBDT以CART作为基分类器,而Xgboost不仅支持CART,还支持线性分类器,另外,Xgboost支持自定义损失函数,只要损失函数有一二阶导数。(3)正则化:xgboost在目标函数中加入了正则,用于控制模型的复杂度。有助于降原创 2021-11-14 20:20:07 · 2634 阅读 · 0 评论 -
李沐实用机器学习——数据标注
一、半监督学习(一)无标签数据的假设相似特征同label同一类同label流行假设:数据的复杂度往往比呈现出的小得多,因此可以做降维处理(二)怎样处理无标签数据?1、self-trainingself-training是一种典型的半监督学习算法先训练,再预测,再融合。关键在于保证高置信度,可以用到复杂的模型。2、Active Learning+Self-training...原创 2021-09-24 23:23:51 · 588 阅读 · 0 评论 -
李沐实用机器学习
一、机器学习在工业应用中的挑战上线复杂模型不光需要大数据量,也需要大量的GPU支持已有数据可能只是对大多数人群效果好,对小部分群体却效果不好当用户群体发生改变,分布改变,模型需要调整模型部署上线会考虑性能,并选择模型的精华部分,做到更小更快...原创 2021-09-23 22:17:11 · 338 阅读 · 0 评论 -
激活函数:sigmoid、softmax、Relu
一、目标希望识别正确的概率越大越好,与其他类的差别越大越好。概率的表示用softmax函数。概率的差别的表示用交叉熵。原创 2021-09-22 23:29:59 · 3091 阅读 · 0 评论 -
更深入地认识逻辑回归&神经网络
逻辑回归的运算过程:01-wx+b;02-sigmoid函数逻辑回归没有分布假设逻辑回归的损失函数是cross entrypy,衡量两个分布的差异有多大。逻辑回归可用于二分类或多分类问题,区别在于激活函数。二分类问题,其激活函数是sigmoid函数(多分类问题的激活函数用softmax函数)。softmax函数:逻辑回归的缺点:只能线性分类解决只能线性分类的方法——特征提取:连续做多次逻辑回归,相当于多个NN神经网络(非线性转化),也就是连续多次wx+b后取sigm..原创 2021-09-22 23:21:29 · 226 阅读 · 0 评论 -
李宏毅机器学习——Classification(分类)
1. 因变量的输出函数:2. 因变量输出形式:√:one-hot(0-1)×:如果仅仅根据class1、2、3就标记为1、2、3,隐含class1和2更加靠近,这是不符合事实的3. 损失函数:cross-entry原创 2021-08-25 21:32:33 · 108 阅读 · 0 评论 -
李宏毅机器学习——梯度下降Gradient Descent
一、自适应学习率在梯度下降的过程中,一般情况下,希望开始开始的时候学习率(学习的速度)快一些,后面慢慢接近局部最低的时候,学习率逐渐减小,移动的幅度更小且精确。(一)普通的梯度下降学习率的调整受到t和g的影响(g是微分),步长受到初始学习率、当前微分、当前时刻点的影响(二)Adagrad学习率的调整受到微分占比的影响(相当于把t和g整合成了占比这一个统计量),步长受到初始学习率、当前微分占比的影响。二、Adagrad的使用场景适用于单参数模型,这是其最大的缺点。原因有二:不同参数需要不原创 2021-08-20 23:59:49 · 171 阅读 · 0 评论 -
李宏毅机器学习——误差
一、误差的构成Error=Bias+VarianceBias和Variance之间是此消彼长的关系,其本质是机器计算与先验之间的battle如果依赖先验,就会对model施加限制,限制其复杂度,从而Bias相对大;但是model因为简单所以更加稳定,方差较小。如果依赖机器计算,就会使model尽可能贴合数据,model复杂度很高,Bias低,但是模型的不确定性很高,应用到实际中的模型方差会很大。二、怎样降低误差?1. 模型复杂,Bias小复杂模型:Bias小,Variance大;容易造成过原创 2021-08-20 21:56:57 · 106 阅读 · 0 评论 -
李宏毅机器学习——回归
一、步骤1. 构造损失函数:评估模型的好坏2. 梯度下降:筛选出最好的模型(1)初始化w0和b(2)更新w和b,根据偏导和学习率局部最优or全局最优?- 线性回归的损失函数是凹形曲线- 局部最优就是全局最优- 但是在其他模型中需要考虑局部最优和全局最优的区别二、优化过度——过拟合(一)什么是复杂的模型?自变量过多用自变量的高次方形式拟合某些自变量的权重过大Q:形式复杂的曲线是非线性模型么?A:还是线性模型。整体化变量后,本质就是线性模型。(二)怎样解决过拟合?——正原创 2021-08-17 21:31:37 · 88 阅读 · 0 评论 -
李宏毅机器学习——机器学习概论
Learning map【类型】(一)监督学习1. Model(1)Regression(2)Classification,非线性模型包括Deep Learning(3)Structured Learning结构化学习(二)半监督学习解决问题:需要分类器判别是猫是狗,只有少量的labelled猫狗,剩下的样本都是unlabelled猫狗,需要通过人工标注label。(三)迁移学习Transfer Learning解决问题:需要分类器判别是猫是狗,只有少量的labelled猫狗,原创 2021-08-16 23:24:45 · 98 阅读 · 0 评论 -
SVM(Support Vector Machines)
SVM(支持向量机)类型:二分类模型针对:线性不可分问题方法:通过核函数将实例中的特征映射为空间中的一些点,目标:画出一条线,最好的区分两类点适用情况:中小型数据、非线性、高维、分类问题思想:在无法线性分割高维数据的非线性问题中,希望用超平面这样一种类线性的方法来分割高维数据。这需要将数据一、相关概念-01-决策面/超平面:用于确定方向,样本特征是高维的-02-最优决策面:能完全分类的决策面-03-分类间隔:最优决策面前提下的虚线间隔-04-SVM最优解:最大的分类间隔下的情况,m原创 2021-07-29 13:29:54 · 105 阅读 · 0 评论 -
KNN(k近邻算法)
一、思想物以类聚,人以群分。给定训练集,对于给定的测试集,计算它与训练集集中每个对象的距离。圈定距离最近的k个训练对象,作为测试对象的近邻。根据k个近邻的主要类别,确定测试对象的分类。(一)k(划分的类数)的确定k小:训练误差小,泛化误差大,对噪声敏感,模型复杂,容易发生过拟合过拟合:参数多,样本少,过度训练k大:训练误差大,泛化误差小,模型简单,容易发生欠拟合欠拟合:参数少,训练不到位try [3,20](二)距离的度量默认情况:欧氏距离文本分类:夹角余弦(三)类别的判原创 2021-07-28 21:23:03 · 89 阅读 · 0 评论 -
kmeans聚类分析——Python实现
注意点:一定要处理异常值和去量纲导入库import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline一、数据概况异常值缺失值二、单变量分析创建新变量airbnb['year_since_account_created']=airbnb['date_account_created'].apply(lambda x:2019-x.year)类别型变量处理stor原创 2021-07-26 17:50:34 · 1390 阅读 · 0 评论 -
《西瓜书》决策树
一、决策树基本概念(一)组成部分:1.根节点:2.内部节点:属性测试3.叶节点:决策结果(二)基本思想:1.分而治之?2.递归?二、基本流程(一)根据属性划分样本(影响决策树尺寸,对泛化性能影响小)目标:1.选择划分属性的准则(1)信息增益(2)增益率(3)基尼系数2. 选择每个节点的最优划分属性3.根据每个节点的属性划分样本(二)剪枝处理(对决策树泛化性能影响大)1.目的2.类别三、其他-连续值与缺失值四、其他-多变量决策树...原创 2021-07-20 23:37:12 · 610 阅读 · 2 评论 -
《西瓜书》集成学习
《西瓜书》集成学习总结一、认识集成学习1.集成怎样被个体影响?个体分类器的数目越多,集成的错误率越低2.目标:找到尽可能多的“好而不同”的个体学习器二、集成学习的类型1.Boosting(强依赖)【以AdaBoost为例】(1)思路:迭代计算损失函数,每一步都更新权重和样本分布,最终最小化指数损失函数。(2)侧重点:降低偏差。2.Bagging&Random Forest(非强依赖)(1)思路:自助采样(bootstrap sampling),基于每个采样集训练出一个学原创 2021-07-18 18:21:55 · 343 阅读 · 0 评论