数仓采集项目【06电商系统表结构、MySQL安装、Sqoop安装及使用】

文章目录

一 电商业务简介

1 SPU和SKU

SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。

SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。

例如:iPhoneX手机就是SPU。一台银色、128G内存的、支持联通网络的iPhoneX,就是SKU。

SPU表示一类商品。同一SPU的商品可以共用商品图片、海报、销售属性等。

2 电商系统表结构

以下为本电商数仓系统涉及到的业务数据表结构关系。这34个表以订单表、用户表、SKU商品表、活动表和优惠券表为中心,延伸出了优惠券领用表、支付流水表、活动订单表、订单详情表、订单状态表、商品评论表、编码字典表退单表、SPU商品表等,用户表提供用户的详细信息,支付流水表提供该订单的支付详情,订单详情表提供订单的商品数量等情况,商品表给订单详情表提供商品的详细信息。本次讲解以此34个表为例,实际项目中,业务数据库中表格远远不止这些。

电商业务表
在这里插入图片描述
后台管理系统表
在这里插入图片描述

(1)活动信息表(activity_info)

字段名 字段说明
id 活动id
activity_name 活动名称
activity_type 活动类型(1:满减,2:折扣)
activity_desc 活动描述
start_time 开始时间
end_time 结束时间
create_time 创建时间

(2)活动规则表(activity_rule)

id 编号
activity_id 类型
activity_type 活动类型
condition_amount 满减金额
condition_num 满减件数
benefit_amount 优惠金额
benefit_discount 优惠折扣
benefit_level 优惠级别

(3)活动商品关联表(activity_sku)

字段名 字段说明
id 编号
activity_id 活动id
sku_id sku_id
create_time 创建时间

(4)平台属性表(base_attr_info)

字段名 字段说明
id 编号
attr_name 属性名称
category_id 分类id
category_level 分类层级

(5)平台属性值表(base_attr_value)

字段名 字段说明
id 编号
value_name 属性值名称
attr_id 属性id

(6)一级分类表(base_category1)

字段名 字段说明
id 编号
name 分类名称

(7)二级分类表(base_category2)

字段名 字段说明
id 编号
name 二级分类名称
category1_id 一级分类编号

(8)三级分类表(base_category3)

字段名 字段说明
id 编号
name 三级分类名称
category2_id 二级分类编号

(9)字典表(base_dic)

字段名 字段说明
dic_code 编号
dic_name 编码名称
parent_code 父编号
create_time 创建日期
operate_time 修改日期

(10)省份表(base_province)

字段名 字段说明
id id
name 省名称
region_id 大区id
area_code 行政区位码
iso_code 国际编码
iso_3166_2 ISO3166编码

(11) 地区表(base_region)

字段名 字段说明
id 大区id
region_name 大区名称

(12)品牌表(base_trademark)

字段名 字段说明
id 编号
tm_name 属性值
logo_url 品牌logo的图片路径

(13)购物车表(cart_info)

字段名 字段说明
id 编号
user_id 用户id
sku_id skuid
cart_price 放入购物车时价格
sku_num 数量
img_url 图片文件
sku_name sku名称 (冗余)
is_checked
create_time 创建时间
operate_time 修改时间
is_ordered 是否已经下单
order_time 下单时间
source_type 来源类型
source_id 来源编号

(14)评价表(comment_info)

字段名 字段说明
id 编号
user_id 用户id
nick_name 用户昵称
head_img
sku_id skuid
spu_id 商品id
order_id 订单编号
appraise 评价 1 好评 2 中评 3 差评
comment_txt 评价内容
create_time 创建时间
operate_time 修改时间

### 数据仓库架构设计 大数据平台的数据仓库项目需要一个可扩展、高性能的架构,以支持海量数据的存储、处理和分析。典型的数据仓库架构包括以下几个核心模块: 1. **数据采集层**:负责从各种数据源(如订单系统、用户行为日志、品信息等)收集数据。 2. **数据存储层**:用于持久化存储原始数据和清洗后的结构化数据。 3. **数据计算与处理层**:进行ETL(抽取、转换、加载)操作,生成可用于分析的中间或汇总。 4. **数据查询与展示层**:提供高效的数据查询接口以及可视化展示功能。 5. **元数据管理与任务调度**:确保数据血缘清晰、任务按计划执行,并实现版本控制。 --- ### 技术选型建议 #### 数据采集与传输 在场景中,数据来源广泛且实时性要求较高。可以选择以下技术组合: - **Flume**:适用于日志数据的高可靠采集和传输,适合处理大量非结构化数据流。 - **Kafka**:作为消息队列平台,支持高吞吐量的实时数据流处理,常用于构建数据管道。 - **Sqoop**:用于将关系型数据库(如MySQL)中的数据导入到Hadoop生态系统中。 - **Logstash**:支持多种输入输出插件,适用于多源异构数据的采集和预处理。 - **DataX**:由阿里巴巴开源,适用于大规模离线数据同步任务,性能稳定[^2]。 #### 数据存储 根据不同的业务需求选择合适的存储方案: - **HDFS**:适用于存储原始日志文件和批量处理数据。 - **HBase**:支持实时读写操作,适合用于高频访问的小规模数据集。 - **Redis**:作为缓存层,加速热点数据的查询响应。 - **MongoDB**:适用于半结构化或非结构化数据的存储。 - **MySQL**:用于存储维度、元数据或小型事务数据。 #### 数据计算与ETL 为了满足数据分析的多样性需求,可以选择以下计算引擎: - **Hive**:基于SQL的批处理引擎,适合进行历史数据分析。 - **Spark**:支持内存计算,具备高效的迭代计算能力,适用于复杂的数据挖掘任务。 - **Flink**:支持流批一体处理,适合需要实时分析的场景。 - **Tez**:优化了MapReduce的执行模型,提升了Hive等工具的性能。 - **Storm**:适用于低延迟的实时流处理需求。 #### 数据查询与分析 - **Presto**:支持跨数据源的交互式查询,适合即席分析。 - **Kylin**:基于Cube的OLAP引擎,适用于固定维度的高性能分析。 - **Impala**:Cloudera推出的MPP架构查询引擎,支持快速查询。 - **Druid**:专为实时分析而设计,支持高效的聚合查询和时间序列分析。 #### 数据可视化 - **Echarts**:百度开源的可视化库,适合嵌入式开发。 - **Superset**:Apache开源的BI工具,支持丰富的图类型和仪盘配置。 - **QuickBI**:阿里云提供的业级BI解决方案,集成度高。 - **DataV**:专注于大屏展示,适合运营监控场景。 #### 任务调度与集群监控 - **Azkaban/Oozie**:用于管理复杂的ETL任务流程。 - **Zabbix**:用于监控集群资源使用情况,及时发现并解决问题。 #### 元数据管理 - **Atlas**:支持数据分类、血缘追踪等功能,有助于提升数据治理水平[^2]。 --- ### 数据仓库分层设计 在大数据平台中,通常采用分层架构来组织数据,主要包括以下几层: 1. **ODS(Operational Data Store)层** 存储原始数据,保留业务系统的全部字段,不做任何清洗或转换。例如,从MySQL中通过Sqoop导入的订单数据可以直接存放于此层。 2. **DWD(Data Warehouse Detail)层** 对ODS层数据进行清洗、去重、标准化等操作,形成明细事实。例如,去除无效订单记录、统一时间格式等。 3. **DWS(Data Warehouse Summary)层** 基于DWD层进行轻度聚合,生成宽或汇总。例如,按天统计每个品类的品销售总量。 4. **ADS(Application Data Store)层** 面向具体业务应用的数据层,直接服务于报、BI工具或推荐系统。例如,生成每日热销品排行榜。 --- ### 版本管理与数据治理 随着数据仓库项目的演进,版本管理成为保障数据一致性和追溯性的关键环节。可以采取以下措施: - 使用Git等工具对ETL脚本、建模文档进行版本控制。 - 在Hive或Delta Lake中引入分区版本机制,确保历史数据可回溯。 - 利用元数据管理系统(如Atlas)记录数据血缘,实现全链路追踪。 此外,数据治理也应贯穿整个生命周期,包括数据质量监控、权限管理、数据安全策略等。结合自动化运维工具,可以进一步提升数据仓库的稳定性与效率[^1]。 --- ```python # 示例:使用PySpark进行简单的ETL操作 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("ETL Example").getOrCreate() # 读取原始数据 raw_data = spark.read.parquet("/data/ods/orders") # 清洗数据(例如过滤无效订单) cleaned_data = raw_data.filter(raw_data["order_status"] != "CANCELLED") # 聚合数据(按日期统计订单数量) aggregated = cleaned_data.groupBy("order_date").count() # 写入DWD层 aggregated.write.mode("overwrite").parquet("/data/dwd/order_summary") ``` --- ### 实施步骤概览 1. **需求分析**:明确业务目标,识别关键指标(如GMV、UV、转化率等)。 2. **技术选型**:根据数据量、实时性要求、团队技能等因素选择合适的技术栈。 3. **架构设计**:定义数据流路径,规划各层的数据存储方式。 4. **搭建基础设施**:部署Hadoop集群、安装必要的服务组件。 5. **开发ETL流程**:编写数据采集、清洗、转换、加载的脚本。 6. **测试与上线**:验证数据准确性,逐步推进生产环境部署。 7. **持续优化**:根据业务变化调整模型结构,提升查询性能。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OneTenTwo76

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值