- 博客(296)
- 资源 (4)
- 收藏
- 关注
原创 大数据项目实战之数据仓库:业务采集平台——第1章 电商业务简介
电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。
2023-03-26 10:48:35 482
原创 Hive综合案例练习(中级)第十八题:购买过商品1和商品2但是没有购买商品3的顾客
Hive综合案例练习(中级)第十八题:购买过商品1和商品2但是没有购买商品3的顾客
2023-03-24 22:06:08 152
原创 Hive综合案例练习(中级)第十五题:查询所有用户的连续登录两天及以上的日期区间
Hive综合案例练习(中级)第十五题:查询所有用户的连续登录两天及以上的日期区间
2023-03-23 21:14:56 230
原创 Hive综合案例练习(中级)第八题:查询每日新用户数
从用户登录明细表(user_login_detail)中查询每天的新增用户数,若一个用户在某天登录了,且在这一天之前没登录过,则任务该用户为这一天的新增用户。
2023-03-17 21:15:03 235
原创 Hive综合案例练习(中级)第六题:每个商品销售首年的年份、销售数量和销售金额
Hive综合案例练习(中级)第六题:每个商品销售首年的年份、销售数量和销售金额
2023-03-16 20:39:50 174
原创 Hive综合案例练习(中级)第五题:查询首次下单后第二天连续下单的用户比率
Hive综合案例练习(中级)第五题:查询首次下单后第二天连续下单的用户比率
2023-03-16 20:36:09 147
原创 大数据框架之Hive:第10章 分区表和分桶表
对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分,分区针对的是数据的存储路径,分桶针对的是数据文件。分桶表的基本原理是,首先为每行数据计算一个指定字段的数据的hash值,然后模以一个指定的分桶数,最后将取模运算结果相同的行,写入同一个文件中,这个文件就称为一个分桶(bucket)。答案是二级分区表,例如可以在按天分区的基础上,再对每天的数据按小时进行分区。命令后,分区元数据会被删除,而HDFS的分区路径不会被删除,同样会导致Hive的元数据和HDFS的分区路径不一致。
2023-03-14 20:04:43 946 1
原创 大数据集群保姆级安装教程——Centos集群(vagrant+virtualbox篇)
大数据集群保姆级安装教程——Centos集群(vagrant+virtualbox篇)
2023-03-11 09:55:51 747
原创 大数据项目实战之数据仓库:用户行为采集平台——第4章 用户行为数据采集模块
大数据项目实战之数据仓库:用户行为采集平台——第4章 用户行为数据采集模块
2023-03-09 21:16:07 1222 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人