数据爬取之后,做ETL增量更新数据到原始表

接上面的文章,继续做大数据平台。在前些天将所有的数据都爬完了,也都导入的爬虫数据库(我们自己建了三个库,爬虫库、原始库、正式库)。今天演示从爬虫库到原始库的步骤。

思路: 首先要在原始库中创建时间戳表,用于保存更新数据后的时间。其次获取原始表中最后一次更新操作的时间,作为时间配置。然后对垃圾数据进行删除(此处的垃圾数据指的是任务中途停止,时间未更新,但原始数据库里存在新插入的部分新数据)。其次增量更新原始数据库,里面还包括数据进入原始库的时间。最后更新时间戳。

打开spoon做增量更新任务

spoon中的任务图

1、初始化时间戳

2、获取时间,进行配置

3、删除垃圾数据

4、增量更新数据

5、更新时间戳

 

最后说一下待完善的内容,这里还需要有日志的支持,日入报错时的日志内容。还需要有定时任务的支持。这就需要之前我研究的kettle web端了,后续还会更新。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值