《阿里巴巴大数据实践》读书笔记2——数据技术篇_2.日志采集

致力全面、高性能、规范得完成海量数据的采集,传输

——By 阿里巴巴日志采集体系方案


目录

1.体系中位置

2.浏览器的页面日志采集

2.1页面浏览日志采集流程

2.2 页面交互日志采集

2.3 页面日志的服务器端清洗和预处理


1.体系中位置

阿里巴巴两大日志采集体系:

1.Web端Aplus.JS

2.APP端UserTrack

2.浏览器的页面日志采集

浏览器的页面日志采集可分为两大类:

  • 1.浏览器的页面日志采集

页面被浏览器加载呈现时采集的日志,可用进行页面流量和流量来源统计,目前成熟度、完备度最高,最具挑战性(本章重点);

  • 2.页面交互日志采集

用户与页面的互动行为,量化获知用户的兴趣点或体验优化点。

2.1页面浏览日志采集流程

一次网页请求-响应流程:

 

 在一次网页请求过程中,只有完成第四步,才能保证用户实现了页面浏览,基于这一过程可以得到浏览日志的采集流程

 

相关主要过程如下:

 

2.2 页面交互日志采集

当需要了解用户在访问某个页面时具体互动行为特征:鼠标,输入焦点移动变化,某些页面交互的反应等,这些行为特征又不会触发浏览器加载新页面,阿里巴巴通过“黄金令箭”的采集方案解决交互日志采集问题。

交互日志无统一的采集内容,不同的业务所需记录的行为类型、行为数据、数据结构化程度截然不同,呈现高度自定义的业务特征。因此在日志采集实践中,交互日志的采集以技术服务的形式呈现。过程如下图所示:

 

3 页面日志的服务器端清洗和预处理

上游数据还需要进一步清洗修正,结构化变形处理后,web页面日志的采集流程才算完成

1.识别流量攻击:识别虚假或恶意流量日志,依托算法,归纳过滤规则集,加以过滤,是一个长期艰苦的对抗过程;

2.数据缺项补正:保证数据统计口径一致,对重要数据进行取值归一、标准处理、反向补正(新日志对稍早日志数据项做回补或修订);

3.无效数据提出:业务变更或配置不当,产生无意义日志或冗余数据项;

4.日志隔离分发:基于数据安全或业务特性,对某些日志进入公共数据环境之前需做隔离。

3 无线客户端日志采集

无线客户端日志采集根据不同用户行为分成不同的事件,常用事件:页面事件(同 页面浏览)、控件点击事件(页面交互)等。为更好的进行日志数据分析需要考虑:事件分类、H5 & Native 日志统一、设备标识、日志传输等方面内容。

3.1页面事件

页面事件日志记录三类信息:

1.设备及用户的基本信息;

2.被访问页面的信息,主要是一些业务参数(商品详情页的商品id、所属店铺等);

3.访问路径(页面来源,来源的来源);

4.为了平衡采集和计算分析的成本,如需要透传参数(将当前页面的某些信息,传递到下一个页面甚至下下个页面的日志中)。

3.2控件点击及其他事件

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

——未完待续,祝大家一切顺利!

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值