致力全面、高性能、规范得完成海量数据的采集,传输
——By 阿里巴巴日志采集体系方案
目录
1.体系中位置
阿里巴巴两大日志采集体系:
1.Web端Aplus.JS
2.APP端UserTrack
2.浏览器的页面日志采集
浏览器的页面日志采集可分为两大类:
- 1.浏览器的页面日志采集
页面被浏览器加载呈现时采集的日志,可用进行页面流量和流量来源统计,目前成熟度、完备度最高,最具挑战性(本章重点);
- 2.页面交互日志采集
用户与页面的互动行为,量化获知用户的兴趣点或体验优化点。
2.1页面浏览日志采集流程
一次网页请求-响应流程:
在一次网页请求过程中,只有完成第四步,才能保证用户实现了页面浏览,基于这一过程可以得到浏览日志的采集流程:
相关主要过程如下:
2.2 页面交互日志采集
当需要了解用户在访问某个页面时具体互动行为特征:鼠标,输入焦点移动变化,某些页面交互的反应等,这些行为特征又不会触发浏览器加载新页面,阿里巴巴通过“黄金令箭”的采集方案解决交互日志采集问题。
交互日志无统一的采集内容,不同的业务所需记录的行为类型、行为数据、数据结构化程度截然不同,呈现高度自定义的业务特征。因此在日志采集实践中,交互日志的采集以技术服务的形式呈现。过程如下图所示:
3 页面日志的服务器端清洗和预处理
上游数据还需要进一步清洗修正,结构化变形处理后,web页面日志的采集流程才算完成
1.识别流量攻击:识别虚假或恶意流量日志,依托算法,归纳过滤规则集,加以过滤,是一个长期艰苦的对抗过程;
2.数据缺项补正:保证数据统计口径一致,对重要数据进行取值归一、标准处理、反向补正(新日志对稍早日志数据项做回补或修订);
3.无效数据提出:业务变更或配置不当,产生无意义日志或冗余数据项;
4.日志隔离分发:基于数据安全或业务特性,对某些日志进入公共数据环境之前需做隔离。
3 无线客户端日志采集
无线客户端日志采集根据不同用户行为分成不同的事件,常用事件:页面事件(同 页面浏览)、控件点击事件(页面交互)等。为更好的进行日志数据分析需要考虑:事件分类、H5 & Native 日志统一、设备标识、日志传输等方面内容。
3.1页面事件
页面事件日志记录三类信息:
1.设备及用户的基本信息;
2.被访问页面的信息,主要是一些业务参数(商品详情页的商品id、所属店铺等);
3.访问路径(页面来源,来源的来源);
4.为了平衡采集和计算分析的成本,如需要透传参数(将当前页面的某些信息,传递到下一个页面甚至下下个页面的日志中)。
3.2控件点击及其他事件
——未完待续,祝大家一切顺利!