以前抽数据都是重其他数据库抽取到postgres数据库的所以选择kettle。新项目需求里需要把客户给的csv文件数据抽到postgresql,其中还需要对相关字段进行清洗。先声明下kettle也可以实现,但是总感觉依赖第三方软件抽数据不如直接操作数据库,除非逼不得已,尽量不用(纯属个人见解)。于是就研究linux直接连接数据库处理这部分需求。代码如下
#!/bin/bash
# *****************************************************
# ** linux_schedule_test
# *****************************************************
#\copy test from '/etl-script/test.csv' delimiter ',' csv header encoding 'UTF8';
# copy test_copy to 'D:\test_copy1.csv' delimiter ',' csv header encoding 'GBK';
export PATH=/usr/pgsql-10/bin:/usr/bin;
psql "host=127.0.0.1 port=5434 user=admin password=123456 dbname=linux_schedule_test" << EOF #2>/dev/null
\copy test from '/etl-script/test.csv' delimiter ',' csv header encoding 'GBK';
create table test$(date +%Y%m%d_%H%m%S) as select * from test;
\q
EOF
export PATH=/usr/pgsql-10/bin:/usr/bin :因为环境作用域问题,最好在脚本开始处将要用到的命令添加PATH路径。
psql "host=127.0.0.1 port=5434 user=admin password=123456 dbname=linux_schedule_test" :连接数据库
<< EOF : 通过重定向,停留在psql客户端。
#2>/dev/null 脚本出错不输出,调试时建议注释掉,不然都不知道脚本为什么没有跑。
\copy test from '/etl-script/test.csv' delimiter ',' csv header encoding 'GBK';:通过copy命令抽取csv文件数据。
create table test$(date +%Y%m%d_%H%m%S) as select * from test;:备份test表数据,测试用的。
\q:退出psql。这个不写也可以最后的EOF也会接受psql客户端的。
EOF:结束重定向。