大数据之路-阅读笔记

最新推荐文章于 2024-05-14 21:26:44 发布

Chachi Chan

最新推荐文章于 2024-05-14 21:26:44 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/weixin_43810584/article/details/113774121

版权

本文只是将阿里大数据之路做了个人读书笔记整理，如果与原版有偏差，以原版为准，仅供学习参考。

关于总述

数据采集-数据计算-数据服务-数据应用
1.数据采集层
日志采集体系包含两大体系：
Aplus.JS: Web端日志采集技术方案
UserTack：App端日志采集技术方案
传输方面：
TimeTunnel(TT):数据库的增量传输，日志数据的传输，支持实时流式计算，也支持各种时间窗口的批量计算
数据同步：DataX 直连异构数据库来抽取各种时间窗口的数据

2.数据计算层
数据存储及计算云平台（离线计算平台Maxcomputer 和实时计算平台 SteamComputer）
数据整合及管理体系(OneData)
OneData:数据整合及管理的方法体系和工具

数据仓库的加工链路遵守业界分层的原理：
ODS：operational Data Store 操作数据层
DWD：明细数据层
DWS：汇总数据层
ADS：应用数据层

元数据模型整合及应用：
数据源元数据
数据仓库元数据
数据链路元数据
工具类元数据
数据质量类元数据
主要面向数据发现，数据管理如：存储，计算和成本等。

3.数据服务层
数据服务层数据源架构在多种数据库上，如Mysql ,Hbase,后续逐渐迁移至阿里云云数据库ApsaraDB for RDS(RDS)和表格存储（Table Store）
oneService 以数据仓库整合计算好的数据作为数据源，对外通过接口的方式提供数据服务，主要提供简单的/复杂的数据查询服务，（集团用户识别，用户画像）实时数据推送三大特色。

4.数据应用层
对数据应用表现方面：搜索，推荐，广告，金融，信用，保险，文娱，物流等
本书选择对外数据产品–生意参谋
实时数据监控
自助式的数据网站或产品构建的数据小站
宏观决策分析支撑平台
对象分析工具
行业数据分析数据门户
流量分析平台

日志采集

日志采集体系包含两大体系：
Aplus.JS: Web端日志采集技术方案
UserTack：App端日志采集技术方案

浏览器的页面日志采集

1.页面浏览日志采集：
PV：页面浏览量
UV：访客数
2.页面交互日志采集：
通过量化获知用户的兴趣点或者优化点

采集流程

在这里插入图片描述
1.网页浏览的过程：
用户输入–>发送请求–>服务器返回响应–>解析渲染

HTTP请求
在这里插入图片描述
HTTP响应

在这里插入图片描述
用户输入–>发送请求–>服务器返回响应–>解析渲染
由于前三步骤无法采集用户浏览的日志，需要在第四步，浏览器开始解析文档时才能进行
采集思路：在HTML文档内的适当位置增加日志采集节点，当浏览器解析到这个节点的时候将会自动触发一个特定的HTTP请求到日志采集服务器，服务器收到这请求就确定浏览器成功接收打开页面，各类网页日志采集的解决方案只是在实施的细节，自动采集的内容的广度以及部署有点差异
几个简单的过程：
客户端的日志采集
客户端日志发送
服务器端日志收集
服务器端日志解析存档