根据老师的部署,寒假之后有项目要跟进,所以本假期的任务就是熟悉MLlib以及如何使用自己的机器学习算法在Spark上编程(主要用Scala语言),任务主要分为以下模块:
1. 理解扩展性——见另一篇博客,这篇博客也对Spark实现的配置细节进行了总结;
2. 熟悉MLlib里面每一个算法的原理和源码;
3. 使用Spark Summit的Hans-on练习(如电影推荐系统);
4. 用自己对机器学习算法的理解进行Scala的编程并且与MLlib进行比较。
5.阅读李老师之前的那篇关于spark的文章