大数据算法笔记1

1.大数据算法的定义

在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。

2.大数据算法可以不是:

精确算法

内存算法

串行算法(有多台机器共同执行)

仅在电子计算机上运行的算法

3.大数据算法不仅是:

云计算

MapReduce

大数据分析和挖掘的算法

4.大数据的特点:

四个“v":

数据量(Volume)

速度(Velocity)

多样性,复杂性(Variety)

基于高度分析的新价值(Value)

5.大数据算法的难度

访问全部数据时间过长

读取部分数据--时间亚线性算法

数据难于放入内存计算

将数据存储到磁盘上--外存算法

仅基于少量数据进行计算--空间亚线性算法

单个计算机难以保存全部数据,计算需要整体数据

并行处理--并行算法

计算机计算能力不足或知识不足

人来帮忙--众包算法

6.大数据的算法设计技术

精确算法设计方法(数据结构)

并行算法

近似算法

随机算法

在线算法/数据流算法

外存算法

面向新型体系结构的算法

现代优化算法

7.大数据的算法分析

时间空间复杂性

IO复杂性

结果质量(近似比、competitive ratio)

通讯复杂性

 

©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页