数据科学是从非学科原理角度从事物的结果和事物的表现出发,基于实验数据了解规律认知规律应用规律的学科,是一类工具和方法。
数据应用一:有监督问题
在有监督的问题下,是否给一定量有标签的数据和无穷大的算力就可以得到完美模型?
几个反例:
- 数据无法提供足够的规律
例如给到数据
1 2 3 label:A
1 2 3 label:B
1 2 4 label:C
求问1 2 3 预测值?
在这种情景下数据无法给到足够的规律,再复杂的模型也无法识别出没有的东西
反推:数据的重要性》》》》模型模型重要性,数据是够有足够的规律直接决定了是否需要高级模型和大规模算力,如果有效数据的缺失将会直接导致问题无解或者在当前算力水平下无解。高级别模型可以减少对算力的依赖,可以挖掘更加复杂的数据规律。
- 数据label有随机性
例如 股价预测
众多股价预测方法,针对历史股价进行预测,几乎拥有全部的公开已知信息但是预测准确率都很低。
当模型把握了全部的数据规律,也无法做到准确的预测,因为本身就具有随机性。
例如模型:
1 2 3 A
1 3 2 A
1 2 3 C
求问 1 2 3 预测值?
- 数据的规律非常的少或者非常复杂,在当前数据规模和模型能力和算力下不可解
现实应用中,算力属于恒定量,模型和输入的数据是可以控制的
在算力一定的情况下,只有蕴含更多规律的数据和更能捕捉规律的模型能够实现更好的效果。
数据应用二:因果分析
- 计量回归模型
回归模型可以揭示变量间在统计学意义上的后验因果关系
- A/B Test
A/B Test是统计学上有设计的因果
数据应用三:知识挖掘
无监督学习是知识挖掘的重要分支之一。
未知问题:知识挖掘和问题挖掘->因果推断->有监督应用(预测/分类)