第2期【大咖实战分享】回顾：实现中小微企业金融服务场景经验分享

FedAI Ecosystem

于 2021-06-07 17:44:15 发布

阅读量259

点赞数

文章标签：机器学习人工智能联邦学习数据安全隐私保护

本文链接：https://blog.csdn.net/weixin_45439861/article/details/117668546

版权

6月3日，FATE开源社区第2期【大咖实战分享】圆满落幕。本次活动，社区邀请到陕西数盾慧安数

6月3日，FATE开源社区第2期【大咖实战分享】圆满落幕。本次活动，社区邀请到陕西数盾慧安数据科技有限公司技术总监来阳，为大家分享实现中小微企业金融服务场景经验。

接下来，让我们一起回顾经典问答环节，希望能帮助大家解决在FATE实践中遇到的问题。

问答环节

问1：国产是指国密吗？数据清洗和转换是自己做的吗？

答1：国产指的是从CPU到内存的所有硬件都是国产的服务器，国密的支持是体现在CPU的指令集里面，国产的CPU从指令集层面支持国密SM1234这样一些加密标准。这也就是说，FATE里面我们用到的所有加密运算，在国产的硬件服务器上能很好的使用国密的方式来进行。

数据清洗和转换是自己做一部分，另外一部分是借用FATE里面的机制。

问2：想问下训练速度跟单机比差距大吗？大概多少？

答2：我们这个场景数据量并不是很大，所以训练速度不是关注重点，目前的速度是可以接受的。

因为数据量不大，所以在速度上跟单机比差距不是很明显，当前也没有进行更大数据量的测试，目前的性能是我们能接受的。

问3：预测那部分是只修改了命令吗？命令调的是fate_flow的API的接口，是由自己添加一些接口吗？

答3：预测的部分，不仅仅是自己要添加一些接口，也涉及到预测的计算逻辑实现。所以，既需要添加接口，也需要添加自己的预测计算逻辑。

问4：数据测试的时候，能做到几方数据？政府数据能用到哪些？和超算有没有一些结合？

答4：目前我们是做了涉及三方数据的预测。政府所掌握的涉及对企业的行政管理数据和企业报送给政府的数据，比如企业财报、项目进展、投融资等数据。

与超算结合目前正在做尝试，包括把一些联邦学习算法在超算的异构并行计算架构下来实现。

问5：刚才讲到样本量大概10万，特征大概多少呀？训练时间开销大概多长？刚才的案例中guest是哪一方啊？

答5：特征量大概40-50左右，特征量不是很大。在这个数据量上训练一次，几分钟即可完成。

PPT案例中guest是政府方，主要是为了政府及时发现值得扶持发展的中小微企业，实际中我们也根据其它方的需求建了多个模型，比如，当银行这一方作为guest时，主要是满足银行的潜客发现和风险监测的需要。

问6：预测不是有官方的V2里面的预测dsl和conf？

答6：那个预测是一种离线的预测。我们的这种是在线、实时的预测，客户业务系统产生数据后立即就可以预测，是直接用在生产环境的，不是模型训练环境。

问7：刚才讲的预测是基于serving来预测的，还是通过flow的离线推理来做哒？

答7：都不是，应该说是仿照serving做的一种在线预测。

问8：刚刚您讲到的应用里，比如，在APP里面添加自己的应用方法。那么，对应的FATE的Python模块就相当于是自定义的。部署的时候，官方就给了两种方式，比如FATE_install，这个部署，官方里给的build.sh可以替换成自己的打包，但我下载打包，应用还是FATE官方的应用，没办法增加自己的自定义填进去，官方没有提供打包如何生成的说明。我该如何添加自己的应用方法？

答8：我们的解决方法还是先安装官方的文件，在安装之后，把相应的文件替换成自己的。

问9：有使用加法同态加密的Paillier算法吗？效率能接受吗？

答9：有使用到。效率可以接受，因为数据量不是很大，目前还没有遇到效率上的问题。这个场景主要解决的是政府、银行及其它第三方数据提供者受数据合规制度限制，原始数据不能整合到一起进行传统机器学习的问题。

问10：请问明确是具体什么场景呢？不太清晰，刚才看到是政府、银行和第三方的票据，建模的目的是什么。比如类似信贷违约预测还是其他？

答10：建模目的是帮政府找出来，在他管辖范围内哪些企业是优质的。所谓优质的企业，是指值得政府扶持的企业，政府可以通给企业资金奖励、贷款贴息、项目支持等方式帮助他们获得更好发展。通过政府的数据、银行的借贷，流水数据，第三方的发票和税务数据，是可以来判断企业经营情况，当然这里也包括信贷违约预测，通过联邦学习机制对企业进行不间断的风险监测。

以下为本次大咖实战分享的部分内容介绍，私信可获取详细资料：