大数据算法学习笔记

  • 学习笔记:
    时间复杂度: 研究算法运行的快不快的指标。
    时间复杂度不是指一个算法运行的时间长短。
    进行时间复杂度分析时,忽略所有常数项系数,我们只保留多项式中的最高项。
    比如:T(n)=cn(n-1)/2 则时间复杂度为T(n)=O(n^2)
    时间复杂度关注的是数量级,而非具体的数值。
    若一个算法时间复杂度为T(n)=O(n),则叫做线性算法,若某一算法的时间复杂度比线性算法还低,就可以称为亚线性算法。比如O(logn),O(loglogn)以及O(1).
    平均复杂度:可以说是所有情况下复杂度的期望值。

基础数据结构——线性表
线性表是由相同类型的数据按照一定的顺序排成的序列。
具体线性表有链表、数组线性表、栈(形象比喻:从一个书箱中拿书)和队列(形象比喻:车站排队买票)。

  • 大数据算法
    亚线性算法有种抽样的感觉,不访问全部数据,而是选择部分数据代替全部数据。
    大数据算法中解决问题的重要思路就是近似。
    近似是亚线性算法的思想。
    水库抽样
    水库抽样问题的要求:每一刻所取得样本,就是前面已经“流过”的全部数据的均匀抽样。
    数据流模型:
    (1)数据流通常来自某个域中元素的序列。
    (2)数据量是远大于内存容量的。
    (3)处理每一个数据要快速,因为数据会快速地源源不断的到来。

数据概要:概括数据的数据结构叫作数据概要。

图论相关知识
有向图:边是有方向的。
无向图:边是没有方向的。
与顶点相连的边的数量叫作度数。

对于判定问题的严格精确解,我们能给出严格的是或者否。而对于判定问题的近似算法,只要给出“是”和“差的很远”这两种情况就可以 了。

相对于内存来讲,像磁盘、磁带这样的存储介质一般称为外存,所以磁盘算法也叫做外存算法。
硬盘的一个重要特点就是它以块为单位进行访问。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据在不论在研究还是工程领域都是热点之一,算法大数据管理与计算的核心主题。本课程试简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科爱好者。 大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同了解大数据算法的前沿知识。通过这门课程的学习,同可以掌握大数据算法设计的基本思想,掌握大数据算法设计与分析的技术。 【课程目录】 第1章 大数据算法概述 大数据的定义与特点 大数据算法 大数据算法设计与分析 第2章 线性算法概述 线性算法的定义 水库抽样—空间线性算法 平面直径—时间线性计算算法 全0数组判定—时间线性判定算法 第3章 线性算法例析 数据流中频繁元素 最小生成树 序列有序的判定 第4章 外存算法概述 外存存储结构与外存算法 外存算法示例:外存排序算法 外存数据结构示例:外存查找树 第5章 外存查找结构 B树 KD树 第6章 外存数据算法 表排序及其应用 时间前向处理方法 缩法 第7章 基于MapReduce的并行算法设计 MapReduce概述 字数统计 平均数计算 单词共现矩阵的计算 第8章 MapReduce算法例析 连接(Join)算法 算法 第9章 非MapReduce的并行算法设计 基于迭代处理平台的并行算法 基于处理平台的并行算法 第10章 众包算法 众包的定义 众包的实例 众包的要素 众包算法例析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值