这里其实还牵扯到另一项技术,大数据,一般业内人士很容易区分大数据、机器学习,但领导们却经常混为一谈,统称大数据,咱也不能跟领导较劲不是,他们说啥就是啥,不反驳。但,作为技术人,咱们自己可不能不较劲;本质上的大数据一般偏IT领域,就是Hadoop+Spark/Flink/Hive那一套M/R架构,或者像Clickhouse、Doris这种MPP架构的OLAP技术,大数据主要是用来解决大规模运算这一难题的,而统计在大数据的应用是最为普遍的,说句不负责任的话,大数据领域95%应用是大数据统计,其他机器学习、深度学习啥的,一般会自建参数服务器架构,不会真正用通用技术去解决,当然也有小公司,直接用Spark做机器学习模型,甚至Clickhouse自带了LR和Catboost模型,也能解决大规模模型的训练问题,但都是少数派。
所以,啰嗦了一堆,不妨将大数据约等于大数据统计,那这样要搞懂机器学习和统计学的异同点就更加必要了。
我这里说几点个人的理解:
1、无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣,这一点必须认识到,两者无本质区别。诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻。
2、机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。
3、统计和统计建模是不一样的。统计是对数据的数学研究。除非有数据,否则无法进行统计。统计模型是数据的模型(对应于机器学习模型),主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。
4、机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释。机器学习只在乎结果。就好比对公司而言,你的价值只用你的表现来衡量。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,恰巧迎合了预测。
5、机器学习算法的评估使用测试集来验证其准确性。然而,对于统计模型,通过置信区间、显著性检验和其他检验对回归参数进行分析,可以用来评估模型的合法性。因为这些方法产生相同的结果,所以很容易理解为什么人们会假设它们是相同的。
6、机器学习的理论来源于数学和统计学;机器学习算法基于优化理论、矩阵代数和微积分;机器学习的实现来源于计算机科学和工程学概念,比如核映射、特征散列等;
7、统计学和机器学习之间最主要的区别在于统计学完全基于概率空间;
8、没有统计学,机器学习根本没法存在,但由于当代信息爆炸人类能接触到的大量数据,机器学习是非常有用的。
9、对比机器学习和统计模型还要更难一些,你需要视乎你的目标而定究竟选择哪种。如果你只是想要创建一个高度准确的预测房价的算法,或者从数据中找出哪类人更容易得某种疾病,机器学习可能是更好的选择。如果你希望找出变量之间的关系或从数据中得出推论,选择统计模型会更好。
10、有很多统计模型可以做出预测,但预测效果比较差强人意,不过可解释性远比机器学习模型好。而机器学习通常会牺牲可解释性以获得强大的预测能力。
11、是否可以用机器学习建模预测,然后通过统计学进行解释,来弥补机器学习模型在结果可解释性上的短板,因为,实际业务中,很多时候需要给结果有个合理解释,这是人类长期思维逻辑固化导致的,即便模型给出了相关关系,还是想找到因果关系,来说服自己和他人。