机器学习不只是模型!
传统的软件开发流程大致如下:
相比较于机器学习的对学科性质,传统的软件开发流程并不能解决机器学习开发过程中的问题。
1. 机器学习开发流程
本篇基于前文 机器学习项目周期进行进一步拓展。
1.1 数据
一切从数据开始。
对于要实现的项目目标,我们是否能获取到有效数据来支持项目开发?
数据的质量比模型本身更重要,高质量的数据是机器学习开发的关键。
一些可扩展的数据储存方案,包括 Azure Blob、Amazon S3、DynamoDB、Cassandra 和 Hadoop。
但通常我们很难找到符合要求的数据,这种情况下,可以通过第三方服务获取数据,并建立自己的数据管理通道。
当我们拥有有效的数据,就可以对数据进一步进行矢量化和特征化处理,以用作模型训练。
1.2 模型选择
面对业务问题时,选择要使用的模型类型通常是一个艰巨的任务。
开发人员倾向于根据现有文献和以往经验做出第一选择。
一些通用的模型选择法则可以帮助开发人员做出选择。
例如,
<