前言
我们经常思考机器学习,深度学习,以至于人工智能给我们带来什么?在数据相对充足,足够真实的情况下,好的学习模型可以发现事件本身的内在规则,内在联系。我们去除冗余的信息,可以通过最少的特征构建最简单、误差最小的模型,以此将学习到的规则,逻辑应用到具体的场景中,帮助我们可以快速准确的处理某些繁琐重复的工作。
在本篇的案例中,我们将对回归模型做一次具体的分析和应用。回归可以做什么?与分类模型不同,分类模型的预测值是固定的,而回归模型可以预测连续型的数据结果。比如商品销量预测,商品价格预测等等。常用的回归模型包括线性回归,加权线性回归,岭回归以及树回归。在接下来的具体场景中,我们将分析上述的回归算法,选择最适合目前场景和已有数据的回归算法。
场景描述
某收藏爱好者,欲购买某知名品牌的积木套装。为了了解现在的市场行情,他收集了关于该品牌积木的生成日期,是否为全新的,积木数量,原始价格等特征和已交易的价格。他想要根据这些数据,来预估现在市场上正在出售的积木价格,才可以选择合适的价格购入,但他发现经凭借经验来预测这些价格,往往不够准确,而且繁琐重复的工作相当耗费精力。并且他了解到阿里PAI平台,可以通过智能的方法,针对具体场景快速搭建解决方案。但是自己的问题能不能被很好的解决,具体该怎么去实施还是一头雾水,下面就让我们伴随他一起走进阿里机器学习平台PAI的实战。
数据分析
在拿到收集到的数据之后,我们要先对数据进行简单的分析,来选择合适的算法。
price date number is_new origin_price
0 85.00 2006 797 0.0 49.99
1 102.50 2006 799 0.0 49.99
2 77.00 2006 795 0.0 49.99
3 162.50 2006 800 0.0 49.99
4 699.99 2002 3094 0.0 269.99
5 602.00 2002 3093 0.0 269.99
6 515.00 2002 3090 0.0 269.99
7 510.00 2002 3090 0.0 269.99
8 375.00 2002 3086 0.0 269.99
9 850.00 2002 3096 1.0 269.99
10 740.00 2002 3096 0.0 269.99
11 759.00 2002 3096 1.0 269.99
12 730.00 2002 3096 0.0 269.99
13 750.00 2002 3096 1.0 269.99
14 910.00 2007 5195 0.0 499.99
15 1199.99 2007 5195 1.0 499.99
16 811.88 2007 5194 0.0 499.99
17 1324.79 2007 5195 0.0 499.99
18 850.00 2007 5195 1.0 499.99
19 800.00 2007 5195 1.0 499.99
20 810.00 2007 5194 0.0 499.99
21 1075.00 2007 5195 1.0 499.99
22 1050.00 2007 5195 0.0 499.99
我们截取了部分数据,从第三