机器学习
机器学习笔记
大数据知识搬运工
这个作者很懒,什么都没留下…
展开
-
机器学习整理-随机森林、GBDT
标题1. Bagging和Boosting的定义相同点:Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。Bagging(Bootstrap aggregating,引导聚集算法/套袋法):其算法过程如下:给定一个大小为n的训练集D,Bagging算法从中均匀、有放回地(即使用自助抽样法)选出m个大小...原创 2020-08-21 22:10:08 · 326 阅读 · 0 评论 -
机器学习十大算法--K邻近算法(KNN)
K-近邻算法(k-Nearest Neighbor,KNN)出现的原因最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢?其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。K-近邻算法(KN...原创 2020-08-21 22:09:47 · 412 阅读 · 0 评论 -
机器学习十大算法--8.随机森林
标题1.十大算法1.线性回归 (Linear Regression)2.逻辑回归 (Logistic Regression)3.决策树 (Decision Tree)4.支持向量机(SVM)5.朴素贝叶斯 (Naive Bayes)6.K邻近算法(KNN)7.K-均值算法(K-means)8.随机森林 (Random Forest)9.降低维度算法(Dimensionality ...转载 2020-08-21 22:09:32 · 949 阅读 · 0 评论 -
机器学习--决策树
决策树学习过程特征选择决策树生成: 递归结构, 对应于模型的局部最优决策树剪枝: 缩小树结构规模, 缓解过拟合, 对应于模型的全局选择决策树的优缺点优点:决策树易于理解和解释,可以可视化分析,容易提取出规则。可以同时处理标称型和数值型数据。比较适合处理有缺失属性的样本。能够处理不相关的特征。测试数据集时,运行速度比较快。在相对短的时间内能够对大型数据源做出可行且效果良好...原创 2020-08-21 22:08:18 · 146 阅读 · 0 评论 -
机器学习--神经网络
标题1.神经网络中激活函数的作用?增加非线性激活函数是神经网络的一个重要组成部分。如果不用激活函数(即相当于激活函数为f(x)=x),在这种情况下,网络的每一层的输入都是上一层的线性输出,因此,无论该神经网络有多少层,最终的输出都是输入的线性组合,与没有隐藏层的效果相当,这种情况就是最原始的感知机。正因为上面的原因,才需要引入非线性函数作为激活函数,这样深层神经网络才有意义,输出不再是输入的...原创 2020-08-21 22:07:51 · 86 阅读 · 0 评论 -
机器学习十大算法--1.线性回归 (Linear Regression)
线性回归优缺点优点:结果易于理解,计算上不复杂缺点:对非线性数据拟合不好适用数据类型:数值型和标称型数据。目的:预测数值型的目标值线性回归算法简介1.1 什么是回归分析回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小。...原创 2020-08-21 22:07:04 · 1122 阅读 · 0 评论 -
机器学习面试题汇总
1.大概说一下机器学习的建模思路2.讲一下分类算法有哪些? 简单说一下SVM?3.kmeans建模流程原创 2020-08-18 16:06:09 · 267 阅读 · 0 评论 -
机器学习-XGBoost
腾讯问题如何计算xgboost的feature importance详细说三点rf和xgboost不同的地方原创 2020-08-18 16:05:48 · 116 阅读 · 0 评论