Spark MLlib入门学习和Wordcount实战
机器学习语言主要有python,c++(万金油),scala,而scala主要得益于spark框架。
1. Spark MLlib数据格式
本地向量
本地向量是存储在本地结点上的,基本数据类型是Vector,有俩个子集,分别是密集和稀疏集,我们一般使用Vectors工厂类生成:
Vectors.dense(1.0,2.0,3.0),
Vector.sparse(3,(0,1),(1,2),(2,3)),(稀疏向量了解即可)
标签数据
监督学习是(x,y)数据形式,y是标签,x是特征向量
LabeledPo
原创
2020-05-10 22:04:36 ·
181 阅读 ·
0 评论