Kettle
A. 优缺点
kettle的优点:
1.可视化界面。一个可视化界面足以成为选择kettle的首要原因。毕竟,可视化意味着更方便人的使用。
2.元数据库。元 数据库 用来保存kettle任务的元信息,方便管理任务,通常叫做资源库( repository )。
3.自带工作流并且支持增量抽取。
4.可以配置成一套逻辑。例如:抽取数据时,目标表不存在则插入,存在则更新,而目标表中存在并且数据源中不存在的,可以删除,just like this
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ieNxyjQ5-1583820308952)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\image-20200304110421377.png)]
痛点:
然而,事情并不像我们想象的那么美好,在kettle的实际的使用过程中,我们渐渐发现了一些kettle的槽点:
1.全量抽取较大数据量时,抽取时间长。
2.往hdfs导数据出现漏导的情况,造成数据不一致。
3.无法感知namenode的切换,当Hadoop集群重启时,一旦namenode发生切换,就可能造成kettle任务的失败,因为kettle的hdfs地址是在配置文件中配置的。
4.kettle往Greenplum中导数据,