Spark大数据分析实战
1、Spark简介
- 初识Spark
- Sp ark生态系统BDAS
- Sp ark架构与运行逻辑
- 弹性分布式数据集
2、Spark开发与环境配置
- Spark应用开发环境2置
- 使用Intelli i开发Spark
- 远程调试Spark程序
- Spark编译
- 配置Spark源码阅读环境
3、BDAS简介
- SQL on Spark
- Spark Streaming
- Gr aphX
- MIlib
4、Lamda架构日志分析流水线
- 日志分析概述
- 日志分析指标
- Lamda架构
- 构建日志分析数据流水线
5、基于云平台和用户日志的推荐系统
- Azure云平台简介
- 系统架构
- 构建Node. js应用
- 数据收集与预处理
- Spark Str eamine实时分析用户日志
- MLlib离线训练模型
6、Twi ter情感分析
- 系统架构
- Twitter数据收集
- 数据预处理与Cassandr a存储
- Spark Streami ng热点Twitter分析
- Spark Str eaming在线情感分析
- Spark SQL进行Twi tter分析
- Twitter可视化
7、热点新闻分析系统
- 新闻数据分析
- 系统架构
- 爬虫抓取网络信息
- 新闻文本数据预处理
- 新闻聚类
- Spark Elastic Sear ch构建全文检索引擎
8、构建分布式的协同过滤推荐系统
- 推荐系统简介
- 协同过滤介绍
- 基于Spark的矩阵运算实现协同过滤算法
- 基于Spark的MI1ib实现协同过滤算法
- 案例:使用MLlib协同过滤实现电影推荐
9、基于Spark的社交网络分析
- 社交网络介绍
- 社交网络中社团挖掘算法
- Spark中的K均值算法
- 案例:基于Sp ark的F acebook社团挖掘
- 社交网络中的链路预测算法
- Spark MLlib中的Logistic回归
- 案例:基于Spark的链路预测算法
10、基于Spark的大规模新闻主题分析
- 主题模型简介