XX基金机器学习平台使用情况访谈总结

最新推荐文章于 2022-07-27 11:52:13 发布

汀桦坞

最新推荐文章于 2022-07-27 11:52:13 发布

阅读量383

点赞数

分类专栏：调研

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wiborgite/article/details/88327359

版权

调研专栏收录该内容

8 篇文章 0 订阅

订阅专栏

访谈摘要

访谈时间：2019-02-27下午

访谈地点：XX基金

访谈对象：客户IT人员和业务人员

客户现状

客户使用X环的先知平台，客户认为平台提供的notebook使用体验较差，如执行代码依赖的库较多以及一些尚未解决的缺陷。

问题汇总

1、当前X环的notebook有哪些缺点？

使用效率低：X环提供了在notebook中读取DB、hive等数据源中数据的能力，但是需要导入X环特定的库，而且需要写相应的代码，导致编码效率不高。

对中文支持差：输出结果如图中有中文标注或输出的数据中有中文时，呈现为乱码。用户提到在图中标注中文还是普遍的操作。

Pyspark中无法画图：Pyspark内核中对python中的画图lib库不支持，对于Pyspark产生的数据，需要先导出，然后再另起python内核的notebook再画图。

2、客户对notebook的需求？

1）支持中文

2）输出支持交互，特别提到能支持输出图片的下载或导出，能支持输出数据的下载（包括不限于csv、excel格式）

3）用户提到希望能提供类似spyder的界面（能看到代码、运行完的变量、管理工作空间）

4）提供notebook的版本管理能力

5）希望能对整个平台中的notebook提供集中管理的能力，即能有一个中央库能存储所有用户提交的notebook，严格控制该库的删除权限

6）希望支持多人协作的能力

7）支持上传本地数据

8）需要支持分布式内核pyspark3

9）使用python3多于Python2，Pyspark也基于Python3多

3、用户对我司产品notebook的意见？

1）对镜像管理功能比较感兴趣，从交流中可感知其它产品未提供类似的能力

2）对总体功能设计比较认可，希望能进行体验

3）用户对notebook中输出结构的可视化和交互式的功能比较看重

4、用户数据的特点？

1）数据来源有DB以及Hive、HDFS，而且不仅仅是从这些数据源中读取数据，而且会进行数据写回；由于都是内部环境，所以认为是安全性的，因此较少有安全性上的考虑。

2）对于工作流，用户希望算子（分析模块）的数据也可以可选择的写入到DB、文件进行持久化存储

3）数据规模，上千的特征，800多万行

5、用户模型的特点

1）吃内存，算力要求不高（用户提到的实际数据规模：上千的特征，800多万行）

2）模型更新要快

3）用户倾向于选择可解释性强的算法，这样业务人员在向客户推荐基金时可以有针对性，而不仅仅是一个用户名单。

6、用户对算法库等的版本要求

1）一般不会使用最新的版本，但也不会差太多，如在新模型的开发中会使用稳定的次新的版本，

2）对于已发布运行的模型，不会去更新算法版本

3）对于学术界发布的新算法，用户会尝试实验和验证

访谈总结

1、在notebook中必须能很好的支持中文。

2、简化在notebook中引用机器学习平台中数据集、分析模块的步骤或过程。

3、目前看其它平台提供的notebook时，对jupyter的定制不多，因此，增强的notebook输出可视化以及可交互功能会提升产品的竞争力，。

4、考虑提供notebook的全平台的集中管理能力，即用户可以将实现好的notebook提交到集中管理平台，从而实现共享，类似kaggle提供的“Public”功能。

5、考虑提供notebook的版本管理能力。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

汀桦坞 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。