spark
文章平均质量分 74
架构师老狼
资深架构师,专注于区块链、微服务、大数据研究!坚定信念,乐观心态,永不止步!
展开
-
Spark+Flink+Iceberg打造湖仓一体架构实践探索
数据湖-大数据生态杀青数据仓库的痛点只能存储结构化数据,无法采集存储非结构化数据无法存储原始数据,所有的数据须经过ETL清洗过程离线数仓的数据表牵一发而动全身,数据调整工程量大实时数仓存储空间有限,无法采集和存储海量实时数据回溯效率低下,实时数据和离线数据计算接口难以统一Kafka 做实时数仓,以及日志传输。Kafka 本身存储成本很高,且数据保留时间有时效性,一旦消费积压,数据达到过期时间后,就会造成数据丢失且没有消费到将实时要求不高的业务数据入湖、比如说能接受 1-10 分钟的延迟。因原创 2022-03-16 17:47:40 · 5763 阅读 · 2 评论 -
Spark ML处理样本类别不均衡问题
样本类别分布不均衡导致的危害?样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数据样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性会很差解决类别不平衡数据1 过采样代表性算法-SMOTE1.1 算法思想为了解决随机过采样中造成模型过拟合问题,⼜能保证实现数据集均衡的⽬的,出现了过采样法代表性的算法SMOTE 算法。SMOTE算法是对随机过采样⽅法的⼀个改进算法,由于随机过采样⽅法是直接对少数类进⾏重采⽤,会使原创 2021-12-21 11:44:12 · 1410 阅读 · 0 评论 -
用户画像 - 挖掘标签
RFM 用户价值模型1 需求假设我是一个市场营销者, 在做一次活动之前, 我可能会思考如下问题谁是我比较有价值的客户?谁是比较有潜力成为有价值的客户?谁快要流失了?谁能够留下来?谁会关心这次活动?其实上面这些思考, 都围绕一个主题 价值RFM 是一个最常见的用来评估价值的和潜在价值的工具2 RFM 是什么RFM通过最后一次消费距今时间, 单位时间内的消费频率, 平均消费金额来评估一个人对公司的价值, 可以理解为 RFM 是一个集成的值, 如下RFM = Rencency(最后一原创 2021-06-19 19:14:57 · 1419 阅读 · 0 评论 -
实时计算-智慧大屏分析
需求分析按省份|用户性别|用户年龄段,统计当日新增付费用户首单平均消费及人数占比技术栈数据库监控与采集 maxwell实时数仓存储 kafka实时计算 spark stream中间层OLAP hbase可视化层OLAP elastic searchtopic offset手动提交 redisBI可视化 echart、Superset、Kibana业务流程Maxwell 监控抓取 MySQL 数据bootstrap采集维度数据bin/maxwell-bootstrap原创 2021-05-10 15:15:46 · 572 阅读 · 3 评论 -
spark stream消费kafka Exactly-once
精确一次消费(Exactly-once)是指消息一定会被处理且只会被处理一次。不多不少就一次处理至少一次消费(at least once)主要是保证数据不会丢失,但有可能存在数据重复问题最多一次消费 (at most once)主要是保证数据不会重复,但有可能存在数据丢失问题数据丢失实时计算任务进行计算,到数据结果存盘之前,进程崩溃,假设在进程崩溃前 kafka调整了偏移量,那么 kafka 就会认为数据已经被处理过,即使进程重启,kafka 也会从新的偏移量开始,所以之前没有保存的.原创 2021-04-03 20:11:32 · 257 阅读 · 0 评论