XX基金 机器学习平台使用情况访谈总结

访谈摘要

访谈时间:2019-02-27下午

访谈地点:XX基金

访谈对象:客户IT人员和业务人员

客户现状

客户使用X环的先知平台,客户认为平台提供的notebook使用体验较差,如执行代码依赖的库较多以及一些尚未解决的缺陷。

问题汇总

1、当前X环的notebook有哪些缺点?

使用效率低:X环提供了在notebook中读取DB、hive等数据源中数据的能力,但是需要导入X环特定的库,而且需要写相应的代码,导致编码效率不高。

对中文支持差:输出结果如图中有中文标注或输出的数据中有中文时,呈现为乱码。用户提到在图中标注中文还是普遍的操作。

Pyspark中无法画图:Pyspark内核中对python中的画图lib库不支持,对于Pyspark产生的数据,需要先导出,然后再另起python内核的notebook再画图。

2、客户对notebook的需求?

        1)支持中文

        2)输出支持交互,特别提到能支持输出图片的下载或导出,能支持输出数据的下载(包括不限于csv、excel格式)

        3)用户提到希望能提供类似spyder的界面(能看到代码、运行完的变量、管理工作空间)

        4)提供notebook的版本管理能力

        5)希望能对整个平台中的notebook提供集中管理的能力,即能有一个中央库能存储所有用户提交的notebook,严格控制该库的删除权限

        6)希望支持多人协作的能力

        7)支持上传本地数据

        8)需要支持分布式内核pyspark3

        9)使用python3多于Python2,Pyspark也基于Python3多

3、用户对我司产品notebook的意见?

        1)对镜像管理功能比较感兴趣,从交流中可感知其它产品未提供类似的能力

        2)对总体功能设计比较认可,希望能进行体验

        3)用户对notebook中输出结构的可视化和交互式的功能比较看重

4、用户数据的特点?

        1)数据来源有DB以及Hive、HDFS,而且不仅仅是从这些数据源中读取数据,而且会进行数据写回;由于都是内部环境,所以认为是安全性的,因此较少有安全性上的考虑。

        2)对于工作流,用户希望算子(分析模块)的数据也可以可选择的写入到DB、文件进行持久化存储

        3)数据规模,上千的特征,800多万行

5、用户模型的特点

        1)吃内存,算力要求不高(用户提到的实际数据规模:上千的特征,800多万行)

        2)模型更新要快

        3)用户倾向于选择可解释性强的算法,这样业务人员在向客户推荐基金时可以有针对性,而不仅仅是一个用户名单。

6、用户对算法库等的版本要求

        1)一般不会使用最新的版本,但也不会差太多,如在新模型的开发中会使用稳定的次新的版本,

        2)对于已发布运行的模型,不会去更新算法版本

        3)对于学术界发布的新算法,用户会尝试实验和验证

访谈总结

1、在notebook中必须能很好的支持中文。

2、简化在notebook中引用机器学习平台中数据集、分析模块的步骤或过程。

3、目前看其它平台提供的notebook时,对jupyter的定制不多,因此,增强的notebook输出可视化以及可交互功能会提升产品的竞争力,。

4、考虑提供notebook的全平台的集中管理能力,即用户可以将实现好的notebook提交到集中管理平台,从而实现共享,类似kaggle提供的“Public”功能。

5、考虑提供notebook的版本管理能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀桦坞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值