1.搜集数据。如制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过阿里的实测数据。
2.准备输入数据。得到数据之后,还必须确保数据格式符合要求。
3.分析输入数据。此步骤主要是人工分析以前得到的数据。
这一步的主要作用是确保数据集中没有垃圾数据。如果是在产品化系统中使用机器学习算法并且算法可以处理系统产生的数据格式,或者我们新人数据来源,可以直接跳过。
4.训练算法。机器学习算法的核心。
5.测试算法。
6.使用算法。将机器学习算法转换为应用程序,执行实际任务。