本文只是将阿里大数据之路做了个人读书笔记整理,如果与原版有偏差,以原版为准,仅供学习参考。
关于总述
数据采集-数据计算-数据服务-数据应用
1.数据采集层
日志采集体系包含两大体系:
Aplus.JS: Web端日志采集技术方案
UserTack:App端日志采集技术方案
传输方面:
TimeTunnel(TT):数据库的增量传输,日志数据的传输,支持实时流式计算,也支持各种时间窗口的批量计算
数据同步:DataX 直连异构数据库来抽取各种时间窗口的数据
2.数据计算层
数据存储及计算云平台(离线计算平台Maxcomputer 和实时计算平台 SteamComputer)
数据整合及管理体系(OneData)
OneData:数据整合及管理的方法体系和工具
数据仓库的加工链路遵守业界分层的原理:
ODS:operational Data Store 操作数据层
DWD:明细数据层
DWS:汇总数据层
ADS:应用数据层
元数据模型整合及应用:
数据源元数据
数据仓库元数据
数据链路元数据
工具类元数据
数据质量类元数据
主要面向数据发现,数据管理如:存储,计算和成本等。
3.数据服务层
数据服务层数据源架构在多种数据库上,如Mysql ,Hbase,后续逐渐迁移至阿里云云数据库ApsaraDB for RDS(RDS)和表格存储(Table Store)
oneService 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单的/复杂的数据查询服务,(集团用户识别,用户画像)实时数据推送三大特色。
4.数据应用层
对数据应用表现方面:搜索,推荐,广告,金融,信用,保险,文娱,物流等
本书选择对外数据产品–生意参谋
实时数据监控
自助式的数据网站或产品构建的数据小站
宏观决策分析支撑平台
对象分析工具
行业数据分析数据门户
流量分析平台
日志采集
日志采集体系包含两大体系:
Aplus.JS: Web端日志采集技术方案
UserTack:App端日志采集技术方案
浏览器的页面日志采集
1.页面浏览日志采集:
PV:页面浏览量
UV:访客数
2.页面交互日志采集:
通过量化获知用户的兴趣点或者优化点
采集流程
1.网页浏览的过程:
用户输入–>发送请求–>服务器返回响应–>解析渲染
HTTP请求
HTTP响应
用户输入–>发送请求–>服务器返回响应–>解析渲染
由于前三步骤无法采集用户浏览的日志,需要在第四步,浏览器开始解析文档时才能进行
采集思路:在HTML文档内的适当位置增加日志采集节点,当浏览器解析到这个节点的时候将会自动触发一个特定的HTTP请求到日志采集服务器,服务器收到这请求就确定浏览器成功接收打开页面,各类网页日志采集的解决方案只是在实施的细节,自动采集的内容的广度以及部署有点差异
几个简单的过程:
客户端的日志采集
客户端日志发送
服务器端日志收集
服务器端日志解析存档
页面浏览日志采集框架涉及:
1.采集技术方案
2.PV日志采集标准规范,关于PV应采集和可采集的数据项,并对数据格式做了规定。