00 大数据架构课程导论

该博客介绍了大数据的发展历程、定义、处理需求,强调了数据在思维方式和科学范式中的重要性。讨论了大数据的云中计算,指出云计算为大数据处理提供了必要的资源和服务,包括IaaS、PaaS和SaaS。同时,概述了大数据计算框架,如静态数据的批处理和流数据的实时处理,并探讨了不同场景下适用的技术栈。最后,提到了大数据系统架构的考量因素和常见架构模式。
摘要由CSDN通过智能技术生成

00 大数据架构课程导论

1 大数据发展史

  • 第三次信息化浪潮
    三次信息化浪潮
信息化浪潮 发生时间 标志 解决问题 代表企业
第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业
  • 数据产生方式的变革

在这里插入图片描述

  • 大数据时代来临

在这里插入图片描述

2 什么是大数据

  • Wikipedia: Big data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time.(大数据是指无法使用常用的软件工具在一定时间内完成获取、管理和处理的数据集)。

  • 大数据的特点(4V)

在这里插入图片描述

  • 大数据中隐藏着更准确的事实
    • 信息检索、自然语言理解和机器学习的三个要素: 数据、特征与算法
    • 算法不再要紧,数据更重要!不再需要研究复杂算法,找更多数据就行了!
    • 大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果!
  • 大数据是一种思维方式
    • 科学研究的数据范式
    • 全样而非抽样
    • 效率而非精确
    • 相关而非因果
    • 数据是核心资产和驱动力

在这里插入图片描述

3 大数据处理需求

  • 数据采集与预处理

    • 结构化(RDBMS)、半结构化(HTML)、非结构化数据(文本、图像、声音、视频)
    • 业务数据、内容数据、感知数据
  • 数据存储与管理

    • 数据体量巨大,源源不断高速产生
  • 数据处理与分析

    • 业务灵活多变,商机转瞬即逝,要求高速处理
  • 数据解释与可视化

  • 单机不够看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值