spark mllib
算法的学习需要注重算法公式的推导,多拿笔,分析源码的实现
一只学技术的狮子
这个作者很懒,什么都没留下…
展开
-
协同过滤_概念
摘自百度百科:协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。 协同过滤又可分为评比(rating)或者群体过滤(social filtering)协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热...原创 2020-04-14 10:31:15 · 1114 阅读 · 0 评论 -
决策树算法_基本思想
决策树学习的本质是从训练数据集上归纳出一组分类规则,通常采用启发式的方法,即局部最优。通常分为三个步骤:特征选择、决策树生成和决策树的修剪。 特征选择 ...原创 2020-04-13 21:34:55 · 4231 阅读 · 0 评论 -
算法_逻辑回归算法
逻辑回归是用来做分类算法。 这个函数叫Sigmoid函数,无论自变量取什么值,函数的值域都是在0-1之间,我们可以设定0.5为分界线,那么分类就出来; ,两个情况,要么是0,要么是1,阀值可以自己控制。 ...原创 2020-04-13 21:00:33 · 101 阅读 · 0 评论 -
K-Means聚类算法_基本思想
核心思想:“物以类聚,人以群分” 假设在一个平面内有n多个点,这些点都是随机分布,随机设置两个点x1,x2,那么这n个点各自到x1,x2都会有一个距离d1,d2,那么每次将距离较小的选择出来。 既然我们已经了解了基本的流程原理,那么在运用时,我们可以改进,初始点我们怎么选,选的不合适,迭代次数会增加,所以我们有了下面的方法kmeans++介绍。 ...原创 2020-04-09 16:03:10 · 3315 阅读 · 0 评论 -
算法_线性回归_基本思想
算法的作用即:输入数据——>模型——>输出数据 假设数据就是x,结果是y,那中间的模型其实就是一个方程。 假设模型是一元一次模型,例如拟合的情况如下图所示: 我们可以发现,该模型的拟合情况并不是特别好,因为模型的预测结果和实际结果的偏差较大,这时候我们会引入一个叫损失函数的东西(个人更喜欢偏差函数这个名字),可以如名字我们知道,损失的函数的值相对越小越好。 在拟合的情况下会出现欠...原创 2020-03-27 21:34:54 · 906 阅读 · 0 评论 -
mllib算法模块分类
原创 2020-03-26 22:01:32 · 425 阅读 · 0 评论