bigdata
新奇酷
这个作者很懒,什么都没留下…
展开
-
ES空字符串和null值查询
1. **不是""也不是null**{ "query": {在这里插入代码片 "bool": { "must": [ { "bool": { "must_not": { "term": { "id": "" } }, "must": { "exists"...原创 2022-05-24 13:38:06 · 6894 阅读 · 0 评论 -
升级flink1.12.4
java.lang.NoSuchMethodError: org.apache.flink.api.common.state.OperatorStateStore.getSerializableListState将 flink-connector-filesystem_${scala.binary.version} jar 包由1.10.1升级到1.11.2原创 2021-08-16 14:57:57 · 488 阅读 · 0 评论 -
用户画像项目笔记3
用户画像标签的设计需求简单明了: 用户标签的数量多少(以权重来表示) 为方便管理 不同的标签分类(以模块来表示)字段 gid, 模块名,标签名,标签值,权重主题分类人口属性模块、注册信息、终端设备、消费订单属性、消费商品退拒属性、生命周期、活跃属性、事件行为属性、商品偏好属性、价值属性、DSP属性、APP属性、兴趣类关键字、活跃地域标签主题和标签由字典表构成商城系统行为日志数...原创 2019-09-21 22:36:15 · 287 阅读 · 0 评论 -
用户画像项目笔记2
DSP业务背景当今时代,广告业务已经进入到RTB程序化实时竞价时代,公司扩展了一块DMP的业务DSP(Demand-Side Platform):广告需求方平台!代各种广告主,去ADX(advertising Exchange ADX 广告实时竞价交易平台 )参与程序化竞价!DMP:数据管理平台;为DSP提供用户画像数据服务!数据分类1 DSP需求平台(本公司)行为日志 业务数据...原创 2019-09-17 23:18:32 · 192 阅读 · 0 评论 -
用户画像项目笔记1
项目立项为了更好更高效的管理、利用公司各条业务线产生的以及所需要的数据以更好地支撑公司主营业务以及其他各条业务线的运营项目核心模块数据采集数据预处理数仓ETL系统任务调度系统(azkaban|oozie)元数据、数据治理系统(atlas)数据可视化(javaee -> springboot+echarts)项目整体架构首先考虑数据来源 行为日志 业务数据 广告竞...原创 2019-09-17 21:28:22 · 290 阅读 · 0 评论 -
数据仓库项目笔记9
用户订单画像报表分析– 订单指标表 dm_user_order_tagdrop table if exists ads_user_order_tag;create table ads_user_order_tag(user_id bigint ,--用户first_order_time string ...原创 2019-09-11 21:47:12 · 229 阅读 · 0 评论 -
数据仓库项目笔记8
路径分析-转化率概念业务背景:公司有很多很多的各种类型的业务,而每一项业务往往能分成若干个操作环节,用户在业务的各个操作环节上进行操作,一步步走向业务目标(比如买单,比如注册成功,比如充值完成,比如进入充值页)那么,一个业务的操作环节链条,就叫做这个业务的转化路径!转化率,漏斗模型: 路径中,每一个环节上的事件发生次数或人数,都会不同,一般是前面的环节上人数多,越往后越少,这样就引出一个概念...原创 2019-09-08 21:23:43 · 166 阅读 · 0 评论 -
数据仓库项目笔记7
用户活跃度用户连续活跃情况所需字段 : 日期 当日活跃总数 连续活跃天数 连续活跃人数select‘2019-06-09’ dt,datediff(‘2019-06-09’,first_login)+1 continue_days,count(1) act_cntsfromdemo_user_continue_actwhere continue_end = ‘9999-12-3...原创 2019-09-08 21:08:49 · 191 阅读 · 0 评论 -
数据仓库项目笔记6
用户活跃留存:求出当日以前的所有日期在(当日-每个日期)天后留存可以用当日的日活join所有的日期日活获取用户活跃留存这样join表数巨多, 另辟蹊径 如果有一张表记录了每个用户的活跃状态的日期区间 就能解决以前历史表不能获取所有日期用户是否活跃的问题用户活跃记录拉链表 状态的固定区间然后形成链记录了每个用户的活跃状态的日期区间拉链表设计: 需要uid , 用户首登日期, 用户连续活跃...原创 2019-09-05 20:47:23 · 181 阅读 · 0 评论 -
数据仓库项目笔记5
用户留存分析用户留存含义: 当日的新增用户在所求日期也活跃用户留存解析: 所需字段日期新增用户数1天后留存数2天后留存数因为日期的不同, 几天后的列数不固定, 因此转为横表更有利于设计日期新增用户数天后(留存天数)留存数根据历史表日期用户id用户首登日期最后登录日期首登日期的用户即为新增用户 以首登日期分组count即为日...原创 2019-09-02 01:00:30 · 175 阅读 · 0 评论 -
数据仓库项目笔记4
知识点:sparksession.createDataset 需要对元素序列化(发送到task), import sparksession.implicits_ 只支持基本数据类型和case class 序列化自定义序列化 Encoders.kryo(clazz)hive本地运行:set hive.exec.mode.local.auto=true 本地模式with view as(sel...原创 2019-09-02 23:27:13 · 218 阅读 · 0 评论 -
数据仓库项目笔记3
知识点:spark DSL风格:表示column方式: $“field” 'field col(“field”) dataframe(“field”)每遇到select 方法生成一张新的表,后续方法 相当于子查询agg 聚合函数 同时聚合多个字段 参数用map表示 字段->函数名where 条件 score > 80 把score类型转为int 比较seq:* 返...原创 2019-09-05 20:28:18 · 350 阅读 · 0 评论 -
数据仓库项目笔记2
业务需求:1 清洗过滤: 去除不必要的字段和无效数据2 数据解析: 解析数据为扁平格式3 数据集成: 根据经纬度添加省市县信息4 数据存储: 存储为parquet格式所用技术:sparkjson解析广播变量所学:shuffle : 一批数据需要分配到不同地方才能完成任务spark运行机制: rdd的遇到action算子, 开始汇总rdd 从最后一个rdd往前推, 是否与前一个...原创 2019-09-05 20:28:01 · 146 阅读 · 0 评论 -
数据仓库项目笔记1
Created with Raphaël 2.2.0前端埋点(js)nginx分布式收集存储到日志服务器供数据分析日志数据清洗: ODS(数据操作层)->DWD(数据明细层)日志数据格式:id, pid, address, add_type, longitude, latitude业务需求: 提取地理位置信息生成字典表所用技术: geohash编码: 根据经纬度生成geohash...原创 2019-09-05 20:27:54 · 177 阅读 · 1 评论 -
数据库和数据仓库区别
数据库: 联机事务处理 OLTP 联机=实时 特性:实时增删改查(响应)在线(不宕机)逐条不断修改事务处理 只能看到最终修改状态 mysql oracle sqlserver数据仓库: 用来分析 联机数据分析 OLAP 特性:面向主题集成的相对稳定反映历史变化分主题(订单)数据汇聚相对稳定反映历史变化...原创 2019-08-24 20:55:44 · 327 阅读 · 0 评论