商业领域的问题以及数据科学之对策
1. 从商业问题到数据挖掘任务
任何一个“由数据驱动的”商业决策问题,尽管都有其行业或者应用的独特性,但是解决这个问题的办法却依赖于若干个基本的数据挖掘任务。这些任务列举如下:
- 分类以及类的概率预测(classification & class probability estimation)
- 回归(regression)
- 相似性匹配(similarity matching)
- 聚类(clustering)
- 并存分组(co-occurrence grouping)
- 概述(profiling)
- 联系预测(link prediction)
- 数据简化(data reduction)
- 因果模型(causal modelling)
2. 监督式和非监督式方法
监督式和非监督这两个术语,来自于机器学习领域。这是一种比喻:老师利用一系列的例子(samples),通过提供“目标信息(target information)”,从而“监督”学习者。比如,老师通过提供大量的练习题(samples),并且提供正确的答案(target information)