6月3日,FATE开源社区第2期【大咖实战分享】圆满落幕。本次活动,社区邀请到陕西数盾慧安数
6月3日,FATE开源社区第2期【大咖实战分享】圆满落幕。本次活动,社区邀请到陕西数盾慧安数据科技有限公司技术总监来阳,为大家分享实现中小微企业金融服务场景经验。
接下来,让我们一起回顾经典问答环节,希望能帮助大家解决在FATE实践中遇到的问题。
问答环节
问1:国产是指国密吗?数据清洗和转换是自己做的吗?
答1:国产指的是从CPU到内存的所有硬件都是国产的服务器,国密的支持是体现在CPU的指令集里面,国产的CPU从指令集层面支持国密SM1234这样一些加密标准。这也就是说,FATE里面我们用到的所有加密运算,在国产的硬件服务器上能很好的使用国密的方式来进行。
数据清洗和转换是自己做一部分,另外一部分是借用FATE里面的机制。
问2:想问下训练速度跟单机比差距大吗?大概多少?
答2:我们这个场景数据量并不是很大,所以训练速度不是关注重点,目前的速度是可以接受的。
因为数据量不大,所以在速度上跟单机比差距不是很明显,当前也没有进行更大数据量的测试,目前的性能是我们能接受的。
问3:预测那部分是只修改了命令吗?命令调的是fate_flow的API的接口,是由自己添加一些接口吗?
答3:预测的部分,不仅仅是自己要添加一些接口,也涉及到预测的计算逻辑实现。所以,既需要添加接口,也需要添加自己的预测计算逻辑。
问4:数据测试的时候,能做到几方数据?政府数据能用到哪些?和超算有没有一些结合?
答4:目前我们是做了涉及三方数据的预测。政府所掌握的涉及对企业的行政管理数据和企业报送给政府的数据,比如企业财报、项目进展、投融资等数据。
与超算结合目前正在做尝试,包括把一些联邦学习算法在超算的异构并行计算架构下来实现。
问5:刚才讲到样本量大概10万,特征大概多少呀?训练时间开销大概多长?刚才的案例中guest是哪一方啊?
答5:特征量大概40-50左右,特征量不是很大。在这个数据量上训练一次,几分钟即可完成。
PPT案例中guest是政府方,主要是为了政府及时发现值得扶持发展的中小微企业,实际中我们也根据其它方的需求建了多个模型,比如,当银行这一方作为guest时,主要是满足银行的潜客发现和风险监测的需要。
问6:预测不是有官方的V2里面的预测dsl和conf?
答6:那个预测是一种离线的预测。我们的这种是在线、实时的预测,客户业务系统产生数据后立即就可以预测,是直接用在生产环境的,不是模型训练环境。
问7:刚才讲的预测是基于serving来预测的,还是通过flow的离线推理来做哒?
答7:都不是,应该说是仿照serving做的一种在线预测。
问8:刚刚您讲到的应用里,比如,在APP里面添加自己的应用方法。那么,对应的FATE的Python模块就相当于是自定义的。部署的时候,官方就给了两种方式,比如FATE_install,这个部署,官方里给的build.sh可以替换成自己的打包,但我下载打包,应用还是FATE官方的应用,没办法增加自己的自定义填进去,官方没有提供打包如何生成的说明。我该如何添加自己的应用方法?
答8:我们的解决方法还是先安装官方的文件,在安装之后,把相应的文件替换成自己的。
问9:有使用加法同态加密的Paillier算法吗?效率能接受吗?
答9:有使用到。效率可以接受,因为数据量不是很大,目前还没有遇到效率上的问题。这个场景主要解决的是政府、银行及其它第三方数据提供者受数据合规制度限制,原始数据不能整合到一起进行传统机器学习的问题。
问10:请问明确是具体什么场景呢?不太清晰,刚才看到是政府、银行和第三方的票据,建模的目的是什么。比如类似信贷违约预测还是其他?
答10:建模目的是帮政府找出来,在他管辖范围内哪些企业是优质的。所谓优质的企业,是指值得政府扶持的企业,政府可以通给企业资金奖励、贷款贴息、项目支持等方式帮助他们获得更好发展。通过政府的数据、银行的借贷,流水数据,第三方的发票和税务数据,是可以来判断企业经营情况,当然这里也包括信贷违约预测,通过联邦学习机制对企业进行不间断的风险监测。
以下为本次大咖实战分享的部分内容介绍,私信可获取详细资料:
以上就是本次分享会互动环节内容,
想报名参与下一期的活动?
或者对以上内容还有疑问,
私信获取协助。