![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
行为日志
闻香识代码
这个作者很懒,什么都没留下…
展开
-
数仓 DW层 用户固定漏斗分析主题
数仓 DW层 用户固定漏斗分析主题 1. 背景 在app业务和流程设计中,页面和页面之间,流程和流程之间的每个环节并不是100%流转下去的。例如大家使用购物App,从商品详情页到下单页面,到支付页面,中间可能随时因为各种原因跳出。这时候就涉及到漏斗分析,也就是分析这些环节之间的转换率。 在当今快节奏开发,推崇敏捷开发时代,不管是什么app,都不会一开始就做成尽善尽美,反而只会有核心功能,然后接入比较完整的数据分析和观察工具后,每个迭代周期根据线上数据分析和用户反馈进行迭代优化。这样就可以使用2周一个迭代的原创 2020-10-23 21:35:21 · 431 阅读 · 0 评论 -
数仓 DW层 用户留存分析主题
数仓 DW层 用户留存分析主题 1. 背景 在app运营和产品设计中,一般都是拉新和留存2个最关键指标来衡量对用户的吸引力程度。 拉新,顾名思义, 拉新用户进来 留存,顾名思义,让用户留下来,这里面有老用户也有新用户。从运营策略和效果来看,其实留住老用户的效果和成本都会比留住新用户更高,但在资本冲击之下,如果资本足够,往往会将资源往新用户上倾斜,这也是目前大数据杀熟被很多人吐槽的原因–老用户不再被重视和尊重。 PS:在互联网的今天,固定类型的互联网群体其实已经差不多到顶了,也就是中国所有可以上网的人基本固原创 2020-10-23 20:53:23 · 968 阅读 · 1 评论 -
数仓 DW层 用户活跃度分析主题
数仓 DW层 用户活跃度分析主题 1. 背景 在大数据分析行为日志数据中,很多时候需要分析用户活跃度,这是判断业务健康程度和发展趋势的一个重要指标。 当用户活跃度低的时候,就需要分析原因,改善或者添加功能,让用户活跃起来。这也是为什么支付宝一直想做社交的原因,也是为什么现在开始在支付宝内做各种业务,做小程序平台的原因。 其实从侧面来看,运营一个app就跟运营一个商场一样,先把名气打起来,增加用户流入(新增用户,DAU等指标),然后留住用户(用户漏斗),然后想办法增加订单交易额(GMV)。如果可以,还需要建原创 2020-10-23 20:24:54 · 436 阅读 · 0 评论 -
数仓 DW层中主题表之站外广告分析主题
数仓 DW层中主题表之站外广告分析主题 1. 背景 在大数据开发中,本身的数据处理分析目的一般就是2类,一个是基于现有数据找出规律,做总结和分类统计。一个是基于现有数据找出规律,然后训练出模型,最后预测未来变化。 前者就是传统的大数据分析和处理 后者就是近几年火起来的机器学习 大数据处理中,数据来源一般是三大类,爬虫数据,行为日志埋点数据,业务数据。当然特殊场合还会有购买来的线程数据。 行为日志数据中,顾名思义,一般就是对用户行为记录的数据,由于目前都是互联网迭代敏捷开发,一个功能出现后,并不能很原创 2020-10-23 19:51:49 · 310 阅读 · 0 评论 -
数仓 DW层中主题表之广告分析主题
数仓 DW层中主题表之广告分析主题 1. 背景 在大数据分析中,爬虫数据,行为日志数据, 2. 案例 所需要指标原创 2020-10-23 17:15:39 · 922 阅读 · 0 评论 -
数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)
数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏) 1. 背景 在大数据开发中,本身的数据处理分析目的一般就是2类,一个是基于现有数据找出规律,做总结和分类统计。一个是基于现有数据找出规律,然后训练出模型,最后预测未来变化。 前者就是传统的大数据分析和处理 后者就是近几年火起来的机器学习 大数据处理中,数据来源一般是三大类,爬虫数据,行为日志埋点数据,业务数据。当然特殊场合还会有购买来的线程数据。 行为日志数据中,顾名思义,一般就是对用户行为记录的数据,由于目前都是互联网迭代敏捷开发,原创 2020-10-23 16:27:06 · 515 阅读 · 0 评论 -
数仓之新老访客标记实现
数仓之新老访客标记实现 1. 背景 在数仓的处理需求中,当对数据做了设备和账号绑定处理,也就是id mapping处理之后。接下来的一个基础需求之一就是新老访客标记。 注意,将用户设备和用户账号绑定,想办法形成一个全局id是后续所有数据分析的基础。不管是已登录账号和未登录账号使用设备访问,都需要形成一个唯一的全局通用id,有的公司称之为guid guid处理好之后,就是统计基础指标,如新老访客等 注意,在大数据或者任何其他技术岗位的开发中,了解清楚需求并且跟需求方二次确认无误后,再进行开发,这样是避免需求原创 2020-10-20 19:51:24 · 929 阅读 · 0 评论 -
Flume 总结(十)monitoring监控-1.9.0新版
Flume 总结(九)monitoring监控-1.9.0新版 1. 监控 JMX Reporting Ganglia Reporting JSON Reporting Custom Reporting Reporting metrics from custom components 自定义监控原创 2020-10-11 10:03:51 · 156 阅读 · 0 评论 -
Flume 总结(七)interceptors类型-1.9.0新版
Flume 总结(七)interceptors类型-1.9.0新版 1. interceptors Timestamp Interceptor Host Interceptor Static Interceptor Remove Header Interceptor UUID Interceptor Morphline Interceptor Search and Replace Interceptor Regex Filtering Interceptor Regex Extractor原创 2020-10-10 23:29:42 · 178 阅读 · 1 评论 -
Flume 总结(九)Serializers类型-1.9.0新版
Flume 总结(九)Serializers类型-1.9.0新版 1. Serializers Body Text Serializer “Flume Event” Avro Event Serializer Avro Event Serializer原创 2020-10-10 23:24:11 · 236 阅读 · 0 评论 -
Flume 总结(八)sink processor类型-1.9.0新版
Flume 总结(八)sink processor类型-1.9.0新版 1. sink processor Default Sink Processor Failover Sink Processor 使用这个结合agent级联,可以搭建高可用HA agen网络 Load balancing Sink Processor Custom Sink Processor原创 2020-10-10 23:22:01 · 961 阅读 · 0 评论 -
Flume 总结(六)selectors类型-1.9.0新版
5. interceptors原创 2020-10-10 23:16:13 · 269 阅读 · 0 评论 -
Flume 总结(五)channels类型-1.9.0新版
Flume 总结(五)channels类型-1.9.0新版 1. channels Memory Channel JDBC Channel 可以通过JDBC对外进行数据缓存 Kafka Channel File Channel 顾名思义,采用文件channel是相对最稳定的,当然,如果有稳定的kafaka集群,稳定性更高,且速度更高。 Spillable Memory Channel Pseudo Transaction Channel 不用用于生产环境原创 2020-10-10 23:13:50 · 307 阅读 · 0 评论 -
Flume 总结(四)sinks类型-1.9.0新版
Flume 总结(四)sinks类型-1.9.0新版 1. sinks HDFS Sink 注意,日志数据放到hdfs或者其他地方,一般都是根据时间进行文件管理分类,一般都是天,也有以小时进行存储的 当以时间进行存放时,可以时间建立目录,这时候时间可以从日志中取(需要在拦截器中取出时间戳放进event的header中) 当以时间进行文件命名或者参与命名时,可以对时间进行的间隔进行设计,例如以小时,则可以设计10小时建立下一个目录 由于日志较多,存入hdfs时,可以设计以存入条数,存入文件大小,存原创 2020-10-10 23:05:31 · 421 阅读 · 0 评论 -
Flume 总结(三)sources类型-1.9.0新版
Flume 总结(三)sources类型 1. 官网 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 注意区分flume版本 2. sources avro sources 这里可以看出,这里使用的avro通用序列化协议,可以组成agent之间的级联 参数最重要就是黑色的, 端口和ip地址 注意这里涉及到拦截器和选择器 拦截器可以对数据做清洗,筛选,打标记 选择器可以根据event的标记,对数据做分发处理原创 2020-10-10 22:28:01 · 261 阅读 · 1 评论 -
Flume 总结(二)flume概念
Flume 总结(二)flume概念 1. agent 代理 flume作为分布式日志采集框架,需要从各种分布式集群中进行日志文件采集 这时候,flume就需要在各个节点上运行一个程序进行数据采集,这个程序就叫做agent。(可以理解flume就是一个抽水机系统,agent就是挂在各个池塘,河流中的一个一个抽水机,agent抽水之后,通过管道将水汇聚到一个地方) flume 采集系统就是由agent互相连接组合起来的,和抽水机一样,agent也可以互相连接起来,组合成一个负载的级联网络,就跟大家在生活遇到原创 2020-10-10 20:38:52 · 210 阅读 · 0 评论 -
Flume 总结(一)flume简介、安装、使用、监控
Flume简介 1. flume是什么 官网 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hdfs-sink Flume 简单结构 2. flume解决什么问题 在海量数据处理中,日志数据是很重要一类数据 如何从集群中将日志文件采集出来,并且考虑各种失败重试等机制是比较复杂的问题,要代码实现也比较消耗精力。这时候各种第三方框架就应运而生。 flume作为hadoop母公司cloudera出品的分布式日志采集框原创 2020-10-10 19:49:15 · 156 阅读 · 0 评论 -
前端行为日志技术架构漫谈
前端行为日志技术架构漫谈 1. 什么是行为日志 2. 行为日志可以解决什么问题 2.1商业价值挖掘 2.2安全风控检查 银行、金融机构需要更详尽的数据来判断一个用户是否有风险,特别是在目前黑产行业猖獗,技术迭代越来越快情况下,很多用户可能都是群控软件操作的机器人用户。 安全软件机构,需要通过采集行为数据,判断一个用户的行为和实际遭受的攻击是否是有意还是无意,进而来筛选肉鸡、攻击者等。这个相对更小众,但作用更大,属于互联网的防火墙级别。国内360就有使用各种大数据技术来分析用户的行为日志数据,各类安全机构也原创 2020-08-31 22:58:06 · 1550 阅读 · 1 评论