spark tensorflow 整合时出现的问题

使用spark分布式环境,训练和加载tensorflow。通常会将加载的模型广播出去,

这个时候涉及两个问题:

1.加载的模型的路径是hdfs,tensorflow.SavedModelBundle的load使用的是本地路径,所以需要使用sc.addFiles("",true),这个样保证hdfs数据get到环境路径下(本地路径);

2.同时,加载的模型往往需要广播到各个节点,但是这个时候也容易报错,可以采用在udf内部或者各个partition中加载模型。

 

补充:如果spark将hdfscopy到本地,从本地加载也是可以的(最好加上随机数,防止多次任务间干扰),这样再使用广播变量。(注意:别忘记将该路径删掉)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值