数据分析平台架构从以下四个方面着手:
1.数据分析流程(重点)
(1)数据采集
- 数据源:
文件:csv,tsv 格式文件
数据库:用户表,订单表,商品表
数据流
- 来源:
服务器数据:日志服务器(用户行为数据),应用服务器(用户访问)
业务数据:用户信息表、订单表、商品表
爬虫数据:招聘网站、视频网站、论坛、豆瓣等
- 实现工具:
flume、
sqoop
kafka、
kettle、
logstash(ETK):
E:ElasticSearch(存储,分析)
L:Logstash(数据采集)
K:Kibana(展示)
(2)数据存储
HDFS、HIVE 、HBase、Redis
(3)数据处理
- 离线ÿ