02 | 商业理解
-理解商业
要对你要解决的问题有一个清晰的认识,为了你解决问题的目标它如何影响你的计划。在这个阶段的任务主要包括如下几点:
- 明确你的商业目的
- 评估你的处境
- 定义你的数据挖掘目标
- 制定你的项目计划
-如何开始呢?
问一个你能用数据回答的问题是一个不错的开始。
-问一个尖锐的问题
-尖锐问题
尖锐问题可以以名字或者数字回答
- 我的股票价格下周会是多少?
- 我的车队中哪辆车会先失败?
-模糊问题
模糊问题一般不能以名字或者数字回答
- 如何才能增加我的收益?
- 我的数据能告诉什么关于我的生意?
一旦你确定了你的问题,检查你的数据中是否有答案的样本
- 样本中的答案叫做目标,即是我们要预测未来数据的点,无论它是一个类别还是一个数字
- 如果你没有这么多目标数据,那么你要获取一些。没有它你是无法回答你的问题的。
-重新制定你的问题
你如何去问问题是一个选择算法的线索,可以给你答案。
重新制定问题
你可以重新提出你的问题,使用能给你最有用答案的算法
有时候你会重述你的问题以获得更有用的答案
- 问题:“是数据点A或者B?”预测事物的类别(者名字或者标签)。我们可以用一个分类算法回答它。
- 问题:“多大?”或者“多少?”预测一个数。我们可以用回归算法回答它。
-数据科学能回答的五个问题
也许使你惊讶,但是数据科学只回答这五个问题。
- 是A或者B?
- 异常?
- 多大或者多少?
- 如何组织?
- 下一步该做什么?
-问题1:A or B
使用分类算法
例如:
- 下一个1000米这个轮胎会抛锚吗?YES or NO?
- 哪一个会带来更多的客户:五元优惠券还是一个25的折扣?
-问题2:异常吗?
使用异常检测算法算法
- 信用卡公司分析了你的购物模式,所以他们确定可能的欺诈
- 在一个商店消费你不常买的商品或者不常规的价格可能是一个异常。
-问题3:多大或多少?
使用会对算法
回归算法会做出数值预测比如:
- 下周二的天气温度如何?
- 我的第四季度销售额多少?
通过问一些数字可以帮助回答这些问题。
-问题4:如何组织?
使用聚类算法
常见的聚类问题如下:
- 哪些观众喜欢同类型的电影?
- 哪些打印机模式同样失败?
有时候你想要了解数据集的结构-它们是如何组织的?对于这个问题,你也没有已经知道结果的样本。有很多方式去得到数据结构,一种方式是聚类,它把数据自然分成几块,更容易理解。关于聚类,没有一个准确的答案。
-问题5:我应该做什么?
利用强化学习算法
问题的答案总是关于下一步应该采取什么行动或方法,通常情况下是利用机器或者机器人。例如:
- 如果我是一辆自动驾驶汽车:在黄灯亮时,刹车还是加速?
- 对于一个吸尘器机器人:保持吸尘或者回去充电?
强化学习算法从结果中学习,并决定下一步的行动。典型的,强化学习非常适用于必须要做很多无需人指导的决策自动系统