电商离线数仓项目-通过Sqoop将Mysql中的数据导入到HDFS当中

最新推荐文章于 2024-05-17 00:56:35 发布

梦里Coding

最新推荐文章于 2024-05-17 00:56:35 发布

阅读量387

点赞数

分类专栏： Hive 文章标签： mysql sqoop hdfs

本文链接：https://blog.csdn.net/weixin_43586713/article/details/121060347

版权

Hive 专栏收录该内容

43 篇文章 5 订阅

订阅专栏

1)分析表的同步策略

一共有8张业务表, Mysql数据库中的表:

1	order_info   	    订单表  			新增及变化
2	order_detail 	    订单详情 		增量
3	sku_info			商品表			全量
4	user_info			用户表			全量
5	base_category1		商品一级分类表	全量
6	base_category2		商品二级分类表	全量
7	base_category3		商品三级分类表	全量
8	payment_info		支付流水表		增量

中间采用全量的同步策略,实际上这些表都是实体表+维度表,维度表的特点是变化不大,而且数据量也比较少,所以采取全量。
订单详情和支付流水表属于一旦发生就无法改变的情况,只能增加,所以同步策略采取的是增量。
订单表:有订单状态字段会发生变化,以及表中会新增数据,就属于新增及变化。

Sqoop

sqoop导入命令:

/opt/module/sqoop/bin/sqoop import \
--connect  \
--username  \
--password  \
--target-dir  \
--delete-target-dir \
--num-mappers   \
--fields-terminated-by   \
--query   "$2"' and  $CONDITIONS;'

delete-target-dir :指的是如果目标路径存在的话,就删掉

sqoop 导入脚本:

#!/bin/bash

db_date=$2
echo $db_date
db_name=gmall

import_data() {
/opt/module/sqoop/bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/$db_name \
--username root \
--password 000000 \
--target-dir  /origin_data/$db_name/db/$1/$db_date \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query   "$2"' and  $CONDITIONS;
}

import_sku_info(){
  import_data  "sku_info"  "select 
id, spu_id, price, sku_name, sku_desc, weight, tm_id,
category3_id, create_time 
  from sku_info  where 1=1"
}

import_user_info(){
  import_data "user_info" "select 
id, name, birthday, gender, email, user_level, 
create_time 
from user_info where 1=1"
}

import_base_category1(){
  import_data "base_category1" "select 
id, name from base_category1 where 1=1"
}

import_base_category2(){
  import_data "base_category2" "select 
id, name, category1_id from base_category2 where 1=1"
}

import_base_category3(){
  import_data "base_category3" "select id, name, category2_id from base_category3 where 1=1"
}

import_order_detail(){
  import_data   "order_detail"   "select 
    od.id, 
    order_id, 
    user_id, 
    sku_id, 
    sku_name, 
    order_price, 
    sku_num, 
    o.create_time  
  from order_info o , order_detail od 
  where o.id=od.order_id 
  and DATE_FORMAT(create_time,'%Y-%m-%d')='$db_date'"
}

import_payment_info(){
  import_data  "payment_info"   "select 
    id,  
    out_trade_no, 
    order_id, 
    user_id, 
    alipay_trade_no, 
    total_amount,  
    subject , 
    payment_type, 
    payment_time 
  from payment_info 
  where DATE_FORMAT(payment_time,'%Y-%m-%d')='$db_date'"
}

import_order_info(){
  import_data   "order_info"   "select 
    id, 
    total_amount, 
    order_status, 
    user_id, 
    payment_way, 
    out_trade_no, 
    create_time, 
    operate_time  
  from order_info 
  where  (DATE_FORMAT(create_time,'%Y-%m-%d')='$db_date' or DATE_FORMAT(operate_time,'%Y-%m-%d')='$db_date')"
}

case $1 in
  "base_category1")
     import_base_category1
;;
  "base_category2")
     import_base_category2
;;
  "base_category3")
     import_base_category3
;;
  "order_info")
     import_order_info
;;
  "order_detail")
     import_order_detail
;;
  "sku_info")
     import_sku_info
;;
  "user_info")
     import_user_info
;;
  "payment_info")
     import_payment_info
;;
   "all")
   import_base_category1
   import_base_category2
   import_base_category3
   import_order_info
   import_order_detail
   import_sku_info
   import_user_info
   import_payment_info
;;
esac

全量表导入的时候在后面加上where 1=1的理解:

where 1=1 : 恒等,防止sql注入。这个1=1常用于应用程序根据用户选择项的不同拼凑where条件时用的。

如：web界面查询用户的信息，where默认为1=1，这样用户即使不选择任何条件，sql查询也不会出错。如果用户选择了姓名，那么where变成了where 1=1 and 姓名=‘用户输入的姓名’，如果还选择了其他的条件，就不断在where 条件后追加 and语句就行了。

如果不用1=1的话，每加一个条件，都要判断前面有没有where 条件，如果没有就写where …，有就写and语句，因此此时用1=1可以简化了应用程序的复杂度。

增量表导入的时候在后面加上的是时间的限制条件,如果时间是当前天,那么他就是新增的表。

新增及变化导入的时候,是既有新增也有变化。通过判断createtime和operatetime这两个字段。条件是or。

sqoop每天将业务数据库导入到数仓里面需要多长时间?
一般是凌晨30分到1点开始导。一般是在1个小时在2个小时之间。

梦里Coding

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
电商离线数仓项目-通过Sqoop将Mysql中的数据导入到HDFS当中

1)分析表的同步策略一共有8张业务表, Mysql数据库中的表:1 order_info 订单表新增及变化2 order_detail 订单详情增量3 sku_info 商品表全量4 user_info 用户表全量5 base_category1 商品一级分类表全量6 base_category2 商品二级分类表全量7 base_category3 商品三级分类表全量8 payment_info 支付流水表增量
复制链接

扫一扫