小威blog
码龄5年
关注
提问 私信
  • 博客:4,744
    4,744
    总访问量
  • 13
    原创
  • 587,267
    排名
  • 2
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2020-01-31
博客简介:

weixin_46244703的博客

查看详细资料
个人成就
  • 获得4次点赞
  • 内容获得7次评论
  • 获得12次收藏
创作历程
  • 13篇
    2023年
成就勋章
兴趣领域 设置
  • 大数据
    hadoop
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【用户画像(四)】封装基类分析类标签计算(销售额,支付方式)

代码重构是指对现有代码进行修改和优化,以改善代码的质量、可读性、可维护性和可扩展性,而不改变代码的功能。它可以帮助开发人员更好地理解和维护代码,减少代码中的。,提高代码的可重用性和可扩展性,从而使代码更加健壮和可靠。重构的目的是使代码更加简洁、易于理解和修改,以提高软件开发的效率和质量。计算最后一次消费时间距离当前时间的天数。最终得到两个df, 然后合并就行了。计算每个人常用的支付方式。
原创
发布博客 2023.08.19 ·
0 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【用户画像(四)】封装基类分析类标签计算(销售额,支付方式)

代码重构是指对现有代码进行修改和优化,以改善代码的质量、可读性、可维护性和可扩展性,而不改变代码的功能。它可以帮助开发人员更好地理解和维护代码,减少代码中的。,提高代码的可重用性和可扩展性,从而使代码更加健壮和可靠。重构的目的是使代码更加简洁、易于理解和修改,以提高软件开发的效率和质量。计算最后一次消费时间距离当前时间的天数。最终得到两个df, 然后合并就行了。计算每个人常用的支付方式。
原创
发布博客 2023.08.19 ·
174 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【用户画像(三)】匹配类标签计算(年龄,性别,职位)-附计算流程

使用对象名.属性的方法调用一些东西很方便.使用基类方式重写年龄, 性别标签计算。面向对象方式创建对象。
原创
发布博客 2023.08.19 ·
300 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【用户画像(二)】Python操作ES(支持sql)及ES整合

就是在Python中通过SparkSession对象读取ElasticSearch中的内容, 然后将数据转为DataFrame.进行数据的操作.整合Hive是什么意思?(想想两个数据库之间能干什么,不就是导来导去) 其实就是将Hive中的表数据导入到ElasticSearch中。但是局限于原生的ElasticSearch的命令基本都是Restful风格的代码, 学习的难度未免会有所增加.创建表后,直接在使用es插件查询ES中的表是查询不到的.(需要往表中插入数据才能在ES中看到索引[表]的出现)
原创
发布博客 2023.08.19 ·
1036 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

【用户画像(一)】技术选型及ElasticSearch与后台启动命令

画像项目介绍画像项目介绍项目分类What用户画像 就是给用户打上海量的标签, 根据用户的目标, 行为和观点差异将用户区分成不同的类型, 从每种类型中提出出关键的信息(标签的名字) 形成人物原型, 实际就是用户信息的标签化。WhyHowWhere画像标签体系一级标签:行业-电商二级标签:子行业-仓储三级标签:标签大类-位置四级标签:标签的一个类别-省市区 对应一个计算任务五级标签:四级标签对应的具体值,每个五级标签会有一个标签规则就是标签计算的依据标签分类标签分层。
原创
发布博客 2023.08.19 ·
928 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

【SQL刷题本(四)】好友数最多的人及连续3行记录的value大于某个值

刷题(不定时发布之前的存货
原创
发布博客 2023.08.04 ·
111 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【SQL刷题本(三)】lag函数的使用

工作中很常用的一些分析场景, 刷题也相当于锻炼业务了
原创
发布博客 2023.08.04 ·
302 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【SQL刷题本(二)】窗口函数

没什么好说的,接着刷题
原创
发布博客 2023.08.04 ·
161 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

【数仓查漏补缺(二)】Hive原理及调优回顾

Hive的一些原理,留个记录省的忘了
原创
发布博客 2023.08.04 ·
125 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【数仓查漏补缺(一)】HiveSql回顾

Hive数仓回顾, 主要是HQL
原创
发布博客 2023.08.04 ·
140 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【SQL刷题本(一)】SQL连接查询及子查询

sql刷题速通
原创
发布博客 2023.08.04 ·
113 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Kafka

Kafka的组件及环境搭建,以及启动和验真
原创
发布博客 2023.07.22 ·
45 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓搭建全程总结

24张表中,有20张表是拉链表,订单评价表和登录记录表是增量表(增量导入),区域字典表、时间维度表是全量覆盖导入。订单事实表,循环与拉链导入(因为拉链表是dwd层,所以要用sqoop抽取到ODS层,再到DWD层。3种导入方式:拉链导入(增量及更新) ,全量覆盖导入, 增量导入(instance1,2,3。这里由于涉及到计算,可能会有重复的计算,甚至小括号过多,容易写错,最终考虑使用CTE表达式。获取各种主题的日统计宽表,销售,商品,用户宽表。降维,形成宽表-三张(订单,店铺,商品。
原创
发布博客 2023.06.09 ·
1002 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

【Hive】DDL语句详解-知无不言

学会了Hive的一些操作,发现Hive建过表,后续的数据并不是向MySQL是通过自己手写进行插入的,而是将TXT文件解析成为数据表的操作。其实是HDFS将文件映射成Hive表,然后然后通过写类SQL的语句来操作该文件,底层会被解析成为MR程序。
原创
发布博客 2023.06.08 ·
301 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏