spark
文章平均质量分 84
yinglish_
是一名喜欢运动和打游戏的妹子欸
展开
-
Spark Mllib 回归学习笔记三(java):决策树
决策树简单地理解决策树呢,就是通过不断地设置新的条件标准对当前的数据进行划分,最后以实现把原始的杂乱的所有数据分类。就像下面这个图,如果输入是一大堆追求一个妹子的汉子,妹子内心里有个筛子,最后菇凉也就决定了约不约得出来(举栗而已哦,不代表什么~大家理解原理重要~~)不难看出,构造决策树的关键就在于划分条件和终止条件的决定一个属性能不能作为划分条件要看用他来分类好不好,我们说原始信息是无序的,那么他能原创 2016-10-01 21:53:21 · 3861 阅读 · 0 评论 -
Spark Mllib 回归学习笔记一(java):线性回归(线性,lasso,岭),广义回归
本博使用spark2.0.0版本,对于每一个回归这里不详讲原理,附上链接,有兴趣的伙伴可以点开了解。 其他参考资料: 官方文档 官方接口文档线性回归线性拟合,就是预测函数是一条直线,对于眼前一堆分布貌似有规律的点,我们假定一条直线拟合这些点: h(x)=a0+a1x1+a2x2+..+anxnh(x)=a_0+a_1x_1+a_2x_2+..+a_nx_n方程系数aia_i是我们要求的原创 2016-10-01 16:13:56 · 4905 阅读 · 2 评论 -
Spark Mllib 回归学习笔记二(java):保序回归
spark2.0.0保序回归(isotonic regression)保序回归属于回归算法,对于一个有限的实数集合Y表示观测相应,X集合表示未知的相应值,进行拟合找到一个最小化函数: x是排序的,w是大于0的权重,最终函数被称为保序回归,并且是唯一的。可以看作排序限制下的最小二乘问题。观察上面的公式,发现减数已不再是y而是x,事实上,保序回归并不假定一条函数,他是将原来的x进行调整,看下面这个动画原创 2016-10-01 21:51:28 · 2359 阅读 · 0 评论 -
java实现spark
这篇博客简要回顾一下我对spark的认识,主要记录的是对spark的两个转换操作aggregate() combineByKey()的运用。下载配置完spark后,注意要把spark的jar导入项目中。在spark中两个重要的概念就是RDD和操作。 RDD也即弹性分布式数据集。是一个不可变的分布式对象集合。简单地理解,就把它看成数据的容器就好了,我们所有的操作都是在这上面进行的。 除了数据容器我原创 2017-02-16 16:41:21 · 901 阅读 · 0 评论 -
Ubuntu系统:分布式spark环境搭建
三台机子,系统为ubuntu14.01,公用一个路由器组成一个小型局域网。首先配置固定的ip地址。点击屏幕右上方的网络连接,Edit Connections -> Add -> 类型选Ethernet -> Create -> 选择IPv4 Setting -> Method选择 Manual(手动)-> Add对于可原创 2019-01-17 18:45:52 · 1409 阅读 · 1 评论