PART1大数据理论基础
1.大数据分析基础
5V概念
Volume(大量)——数据的大小决定所考虑的数据的价值和潜在的信息;
Velocity(高速)——指获得数据的速度;
Variety(多样)——指数据类型的多样性;
Value(价值)——合理运用大数据,以低成本创造高价值;
Veracity(真实性)——数据的质量;
大数据处理思想
1.分而治之
2.并行计算
3.计算向数据移动
4.数据本地化读取
将单一节点的庞大任务由分布式网络将任务分配给每个单一计算机进行并行处理计算。
数据分析与数据挖掘
简单的来说
数据分析主要通过统计学,计算方法处理,偏重业务,得出的结论偏向与结果(例如:某宝某商品某颜色商品销售量占比)为决策者提供数据依据
数据挖掘主要通过机器学习,人工智能,由编写的算法输入一组参数,得出一组参数,偏重技术。包含对未来的预测,趋势等
分布式处理优点
- 分布式网络中的每台机器都能存储和处理数据,降低了对机器性能的要求,所以不必购买昂贵的高性能机器,这大大降低了硬件投资成本;
- 扩展性极佳。在当前系统存储或计算能力不足时,可以简单地通过增加廉价PC机的方式来增加系统的处理和存储能力;
- 处理能力极强。庞大的计算任务可以在合理分割后由分布式网络中的机器并行地处理
常见数据挖掘方法
A.神经网络方法。神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳、提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身结构来表达输入和输出的关联知识。
B.粗糙集方法。粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集处理的对象是类似二维关系表的信息表。从经过归约后的知识库抽取得到更有价值、更准确的一系列规则。因此,基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统进行约简,得到一种属性归约集的过程,最后抽取规则。
C.决策树方法。决策树是一种常用于预测模型的算法,它通过一系列规则将大量数据有目的分类,从中找到一些有价值的、潜在的信息。
D.遗传算法。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。
python基础
python基本语法这里推荐廖雪峰教程不做过多描述自行百度即可
python函数
Python 函数式编程,常用高阶函数,包括 map 函数、reduce 函数、filter 函数及模块相
一个函数就可以接收另一个函数作为参数,这种函数就称之为高阶函数。
高阶函数
// abs为绝对值函数
def add(a,b,f):
return f(x) + f(y)
print(add(-5,