大数据开发之机器学习总结(数学知识)(三)
背景
- 在大数据开发业务场景中,如果是对数据做聚合或者明细统计等,则使用大数据的框架结合逻辑代码即可。
- 如果需要有更高层级的需求,例如做数据预测或者分类,则需要使用机器学习的技术来处理了。
- 如果需要更进一步让算法模型可以自我学习提升,则需要用到人工智能的技术。
- 机器学习是一门涉及到知识点非常广泛的计算机学科,概率统计,线性代数,高等数学,各类编程语言下的算法框架等等。
- 在现有大数据处理框架下,spark和flink对机器学习都有做支持,但相对更成熟的是spark的mllib模块。如果公司技术团队有使用spark经验,则学习和使用成本会大幅降低,唯一需要补充的就是算法知识和API调用。
1. 机器学习基础数学知识
1.1. 向量
- 概念,简单来说,向量可以看成一串数字,不过每个数字都有自己的含义。如
这里可以看成是年龄,身高,退休年龄,工资。直接使用这样的形式表达含义。
也可以结合多维空间坐标来理解向量,如(1,2,3)可以理解为x,y,z轴的坐标。当然实际开发时,往往不局限于3个坐标,往往是多个指标。就类似Kylin框架的多维立方体。 - 向量距离ÿ