8个指标:
AvgDeep 平均访问深度,深度值越高越好
- 海量数据存储问题 Hadoop.HDFS,S3亚马逊
- 海量数据收集加工(清洗) flume+log4j
- 分析平台:
- 离线分析平台 Hadoop.MapReduce(基于破网络破机器,基于文件)
- 实时分析平台 Spark(内存,机器学习,吞吐量大)/Storm(流,速度最快)
- 从看似无用的海量数据中提炼出有价值数据(数据挖掘)机器学习
-
两条线:
- 离线分析
-
Log4j -> flume -> Hadoop.HDFS -> Hive -> Mysql(结果数据量小)/ HDFS /Hbase
- 实时分析
-
Log4j -> flume -> kafka -> storm -> Mysql/HDFS/kafka/es
-
Storm流式处理数据平台
- 流式,数据是永不停止(对多余数据扔掉)
- 流式数据,波峰波谷,消峰平谷Kafka(队列)
- PV (page view)点击率,点击率越高越高
- UV(unique view)独立访客,不同浏览器产生不同uv
- VV(visit view)访客访问的次数
- BR(break/bounce rate)跳出率,用户对网页黏着度。瑕疵(最后一个页面不统计)
- NewIP 每日新增的IP地址
- NewCust 每日新增的用户
- AvgTime 平均访问时间,时间越长越好