访谈摘要 |
访谈时间:2019-02-27下午
访谈地点:XX基金
访谈对象:客户IT人员和业务人员
客户现状 |
客户使用X环的先知平台,客户认为平台提供的notebook使用体验较差,如执行代码依赖的库较多以及一些尚未解决的缺陷。
问题汇总 |
1、当前X环的notebook有哪些缺点? |
使用效率低:X环提供了在notebook中读取DB、hive等数据源中数据的能力,但是需要导入X环特定的库,而且需要写相应的代码,导致编码效率不高。
对中文支持差:输出结果如图中有中文标注或输出的数据中有中文时,呈现为乱码。用户提到在图中标注中文还是普遍的操作。
Pyspark中无法画图:Pyspark内核中对python中的画图lib库不支持,对于Pyspark产生的数据,需要先导出,然后再另起python内核的notebook再画图。
2、客户对notebook的需求? |
1)支持中文
2)输出支持交互,特别提到能支持输出图片的下载或导出,能支持输出数据的下载(包括不限于csv、excel格式)
3)用户提到希望能提供类似spyder的界面(能看到代码、运行完的变量、管理工作空间)
4)提供notebook的版本管理能力
5)希望能对整个平台中的notebook提供集中管理的能力,即能有一个中央库能存储所有用户提交的notebook,严格控制该库的删除权限
6)希望支持多人协作的能力
7)支持上传本地数据
8)需要支持分布式内核pyspark3
9)使用python3多于Python2,Pyspark也基于Python3多
3、用户对我司产品notebook的意见? |
1)对镜像管理功能比较感兴趣,从交流中可感知其它产品未提供类似的能力
2)对总体功能设计比较认可,希望能进行体验
3)用户对notebook中输出结构的可视化和交互式的功能比较看重
4、用户数据的特点? |
1)数据来源有DB以及Hive、HDFS,而且不仅仅是从这些数据源中读取数据,而且会进行数据写回;由于都是内部环境,所以认为是安全性的,因此较少有安全性上的考虑。
2)对于工作流,用户希望算子(分析模块)的数据也可以可选择的写入到DB、文件进行持久化存储
3)数据规模,上千的特征,800多万行
5、用户模型的特点 |
1)吃内存,算力要求不高(用户提到的实际数据规模:上千的特征,800多万行)
2)模型更新要快
3)用户倾向于选择可解释性强的算法,这样业务人员在向客户推荐基金时可以有针对性,而不仅仅是一个用户名单。
6、用户对算法库等的版本要求 |
1)一般不会使用最新的版本,但也不会差太多,如在新模型的开发中会使用稳定的次新的版本,
2)对于已发布运行的模型,不会去更新算法版本
3)对于学术界发布的新算法,用户会尝试实验和验证
访谈总结 |
1、在notebook中必须能很好的支持中文。
2、简化在notebook中引用机器学习平台中数据集、分析模块的步骤或过程。
3、目前看其它平台提供的notebook时,对jupyter的定制不多,因此,增强的notebook输出可视化以及可交互功能会提升产品的竞争力,。
4、考虑提供notebook的全平台的集中管理能力,即用户可以将实现好的notebook提交到集中管理平台,从而实现共享,类似kaggle提供的“Public”功能。
5、考虑提供notebook的版本管理能力。