大数据之路-阅读笔记

本文只是将阿里大数据之路做了个人读书笔记整理,如果与原版有偏差,以原版为准,仅供学习参考。

关于总述

数据采集-数据计算-数据服务-数据应用
1.数据采集层
日志采集体系包含两大体系:
Aplus.JS: Web端日志采集技术方案
UserTack:App端日志采集技术方案
传输方面:
TimeTunnel(TT):数据库的增量传输,日志数据的传输,支持实时流式计算,也支持各种时间窗口的批量计算
数据同步:DataX 直连异构数据库来抽取各种时间窗口的数据

2.数据计算层
数据存储及计算云平台(离线计算平台Maxcomputer 和实时计算平台 SteamComputer)
数据整合及管理体系(OneData)
OneData:数据整合及管理的方法体系和工具

数据仓库的加工链路遵守业界分层的原理:
ODS:operational Data Store 操作数据层
DWD:明细数据层
DWS:汇总数据层
ADS:应用数据层

元数据模型整合及应用:
数据源元数据
数据仓库元数据
数据链路元数据
工具类元数据
数据质量类元数据
主要面向数据发现,数据管理如:存储,计算和成本等。

3.数据服务层
数据服务层数据源架构在多种数据库上,如Mysql ,Hbase,后续逐渐迁移至阿里云云数据库ApsaraDB for RDS(RDS)和表格存储(Table Store)
oneService 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单的/复杂的数据查询服务,(集团用户识别,用户画像)实时数据推送三大特色。

4.数据应用层
对数据应用表现方面:搜索,推荐,广告,金融,信用,保险,文娱,物流等
本书选择对外数据产品–生意参谋
实时数据监控
自助式的数据网站或产品构建的数据小站
宏观决策分析支撑平台
对象分析工具
行业数据分析数据门户
流量分析平台

日志采集

日志采集体系包含两大体系:
Aplus.JS: Web端日志采集技术方案
UserTack:App端日志采集技术方案

浏览器的页面日志采集

1.页面浏览日志采集:
PV:页面浏览量
UV:访客数
2.页面交互日志采集:
通过量化获知用户的兴趣点或者优化点

采集流程

在这里插入图片描述
1.网页浏览的过程:
用户输入–>发送请求–>服务器返回响应–>解析渲染

HTTP请求
在这里插入图片描述
HTTP响应

在这里插入图片描述
用户输入–>发送请求–>服务器返回响应–>解析渲染
由于前三步骤无法采集用户浏览的日志,需要在第四步,浏览器开始解析文档时才能进行
采集思路:在HTML文档内的适当位置增加日志采集节点,当浏览器解析到这个节点的时候将会自动触发一个特定的HTTP请求到日志采集服务器,服务器收到这请求就确定浏览器成功接收打开页面,各类网页日志采集的解决方案只是在实施的细节,自动采集的内容的广度以及部署有点差异
几个简单的过程:
客户端的日志采集
客户端日志发送
服务器端日志收集
服务器端日志解析存档

页面浏览日志采集框架涉及:
1.采集技术方案
2.PV日志采集标准规范,关于PV应采集和可采集的数据项,并对数据格式做了规定。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值