模型是怎么工作的 机器学习 1/7
机器学习新手的第一步
简介
- 我们将从机器学习的模型是怎么工作的开始说起。这或许对于从事过概率模型和机器学习相关工作的人来说可能略显基础。别担心,我们很快就会创造强大的模型了。
- 这节课你建造的模型大多会从以下情形开始。
你亲戚在房地产上准备做上百万计的投资。因为你对大数据感兴趣,所以它邀请你做他的生意合伙人。他提供资金,你负责提供关于房价的预测模型。
你问你的亲戚他过去是怎么预测房地产的价格的。他回答说是直觉。接着问下去,你发现他总是从他过去看过的房价入手,发现价格的涨幅波动规律,然后他用发现的规律预测他正要入手的房子的价值。
- 机器学习也是一样的道理。我们将从一个叫决策树的模型开始。当然,有很多花里胡哨的模型能给出更准确的模型,但是决策树更简单,而且他们是某些强大模型的基石。
为了简洁,我们将从最简单的决策树入手。
First Decision Trees
- 这个模型仅仅将房子分为两类。这些预测价格等于同一类房子的历史平均价格。
- 我们使用数据来决定如何将房子分成两类,然后再决定每一类房子的价格。
- 这一步从数据中发现规律的过程叫做训练模型。
- 使用的数据叫做训练数据。
- 模型是如何符合(比如如何将数据分类)是十分复杂的,我们将在后续的课程展开。模型确定以后,你就可以将模型应用于预测新的房子的价格了。
优化决策树
下面哪个决策树更有可能是从房地产数据中训练出的模型呢?
决策树一
- 这个决策树看起来更靠谱一些,因为他抓住了一个事实:有更多卧室的房子往往卖的更贵。但它最大的不足在于它没有抓住影响房价的大多数因素,例如卫生间的数量、占地面积、地理位置等。
- 你可以通过在决策树上加分枝来囊括更多的影响因素。这些树“深度更深”。一个考虑了房子的总占地的决策树或许长这样:
深度为2的决策树
- 你通过追溯整个决策树来预测房子的价格,你只需要选择目标房子的相关特征即可。预测的价格会自动出现在书的底部。在树的底部我们做出预测的地方称作叶。
- 分枝和叶结点的值取决于你的数据。所以现在就是你查看数据的时候。