1.大数据算法的定义
在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。
2.大数据算法可以不是:
精确算法
内存算法
串行算法(有多台机器共同执行)
仅在电子计算机上运行的算法
3.大数据算法不仅是:
云计算
MapReduce
大数据分析和挖掘的算法
4.大数据的特点:
四个“v":
数据量(Volume)
速度(Velocity)
多样性,复杂性(Variety)
基于高度分析的新价值(Value)
5.大数据算法的难度
访问全部数据时间过长
读取部分数据--时间亚线性算法
数据难于放入内存计算
将数据存储到磁盘上--外存算法
仅基于少量数据进行计算--空间亚线性算法
单个计算机难以保存全部数据,计算需要整体数据
并行处理--并行算法
计算机计算能力不足或知识不足
人来帮忙--众包算法
6.大数据的算法设计技术
精确算法设计方法(数据结构)
并行算法
近似算法
随机算法
在线算法/数据流算法
外存算法
面向新型体系结构的算法
现代优化算法
7.大数据的算法分析
时间空间复杂性
IO复杂性
结果质量(近似比、competitive ratio)
通讯复杂性