数据抽取ETL
john137724
不积跬步,无以至千里。
展开
-
ETL(kettle)实战一:kettle安装
抽数据快半年了,总结下这半年来的工作。ETL安装,安装依赖jdk8(自行安装,jdk需要配置环境变量)下载ETL工具.kettle稳定版 (windows,linux通用) 下载后的文件是压缩包,解压到文件,配置下环境变量就可已使用了。linux安装同理,需要先安装jdk,然后解压文件,然后配置/etc/profile,配置完记得执行下source /etc/profile使配置文件生效。...原创 2018-07-19 19:22:22 · 737 阅读 · 0 评论 -
ETL(kettle)实战二:数据抽取原则分享及简单使用介绍
关于kettle使用的场景简单总结下。1.异构数据库或者跨库数据抽取,用kettle的转换比较方便,数据的适配是在内存中进行的,性能比dblink之类的要好。2.同构数据库能通过简单的sql跨库(mysql,seqlserver等)跨schema(pgsql)操作的,建议直接使用kettl的sql脚本,性能要好点,通过脚本独立出来,维护也方便点(转换只能在kettl工具中维护,sql可以在...原创 2018-08-04 20:36:50 · 2726 阅读 · 0 评论 -
ETL(kettle)实战三:数据抽取规范
写在前面:上一篇谈到的规则及这一篇谈到的规范都是本人的经验总结,不代表一定正确。kettle开发规范:1. 对于会发生变化的因素要用变量替换,不能写死。根据需求严格区分在未来哪些有可能变化的,哪些一定会变化的及哪些是不变的,如做增量数据抽取时,增量的时间范围未来就是有可能会发生变化的。通常情况下数据库是一定会变化的(开发环境和测试环境及生产环境通常都是不一样的),变量要控制作用域,即合理的...原创 2018-08-12 11:46:36 · 3289 阅读 · 0 评论