关于机器学习平台数据数据输入输出定时执行需求

机器学习平台的输出:

机器学习平台部署在16.231上,数据会以时间戳为文件名放到231本地的ftp服务器上(ftp本地目录也就是mlp_user的目录),所以不必登陆ftp去获取数据,只在mlp_user的目录下找到对应的数据目录即可。获取了数据文件后,程序会读取已读取的文件,去匹配看最新的文件是否已经被读取过(这是定时任务,所以要每次启动的时候做一次判断)。如果未读取过,就是执行scp命令将文件远程拷贝到16.205上,在205上会执行两个命令gawk会对其中的数据按照电渠接口格式要求重新格式化,然后sed把分割替换下。最后执行一个ftp命令,把205上已经格式化好的文件放到对外的ftp服务器79上。

java主程序是运行在231上。所以执行的shell命令,会涉及到利用java执行本地shell和远程执行shell的操作


机器学习平台的输入:

电渠营销的文件会回传到对外ftp79上,通过ftp的propmt off加mget 加正则匹配当天的文件,然后对文件再进行一次筛选,因为mget会得到多个文件,最后把文件load到hive的表中。

数据的输入输出的主程序是在231上


具体:数据的输出:

涉及到的主机是231 和 205 

在231上的/home/mlp_user下有两个目录yhl  和  mlp_out   一个是放程序代码的目录一个是放机器学习平台输出的数据文件的目录。


其中yhl目录的内容如下:


执行命令   就可以完成机器学习平台输出输入数据的处理  把该命令放到crontab表中就做到定时执行

java -cp 180410_mlp_output.jar:./libs/* mlp.MLP_output   
java -cp 180410_mlp_input.jar:./libs/* mlp.MLP_input   

其中libs中依赖的jar如下:


205上有一些执行的shell脚本 ,放到/home/ctgmkt/yhl下



问题的总结:

关于ftp命令 有几点备注

一   

登陆 ftp 这种登陆方式默认是打开了glob模式,可以匹配正则的

ftp 10.140.17.231

如果是要关闭的glob模式的话,可以在登陆ftp后键入  glob  ,就可以关闭了

ftp 10.140.17.231 -g

加上-g表示以禁用glob的模式登陆了ftp,如果为了能够用正则而打开glob模式,键入 glob就可以了

二   

打开glob模式,就可以用正则匹配了,也就可以用mget  mput mdelete了

但是有个问题 mget  *123  匹配到多个文件后,每下载一个文件要键入yes 确认下载才可以,所以要在mget命令前,键入

prompt

来关闭。

三   ftp   的 dir  等同于ls

四   ftp  的 cd  xxx    是移动到ftp服务器文件系统的路径   lcd  xxx    命令是移动到本地文件系统的路径

      上面的移动位置都到位后再,get  xxx就可以把ftp的文件或目录down到本地了

五:  我在用java往一个linux已经存在的文件写入报权益受限,chmod 777 xxx 即可,或chown到当前用户。

六:  sed  -i 可以直接修改源原件

         一般sed命令不会修改源文件而是把修改后的数据输出到另一个文件中,例如

         

sed  's/properties/property/g'  build.xml > build.xml.tmp

  可以利用-i直接在把修改后的数据再写回到源文件

sed  -i 's/properties/property/g'  build.xml

七 : gawk 的 修改命令  1.txt中的文件有4列,而且是以逗号分割

gawk '{print $1,"aaa","0x05","bbb"}' 1.txt  1>2.txt
gawk 'BEGIN{FS=",",OFS=x05} {print $1,$2,$3,$4,"huodong","yingxiao","1"}'   1.txt  1>2.txt

ps:具体的代码我会放到git上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值