准备用一周左右的时间来整理下sparkmllib的相关知识
首先是导入mllib的源码 , 当下载完spark的源码后,例如spark-1.6.2这个文件夹
然后把这个文件夹复制到当前的workspace中,新建一个scala项目,项目名也叫spark-1.6.2这,总之要保持名字一致。
之后也许会有个错 说 找不到scala的libary,直接buildpath --》 add libary ,手动添加下libary即可
也许也会报个错说 scala compile的问题,说明scala编译的版本不对,可以在右键项目的properties
也许会报scala的libary的版本过多,只要在properties的java build path 中的libaries中把非源码里包含的jar包删除即可,删后的样子是这样的
然后打开mllib包下看看结构
就是这个样子了
将mllib的源码导入eclipse之后,分析下几个常用的算法包