大数据导论复习笔记

这篇博客详细介绍了大数据的概述,包括数据类型、组织形式和使用,以及4V特性。接着,讨论了大数据与云计算、物联网和人工智能的关联。大数据技术层面的功能和区别,如数据采集、ETL、数据清洗、存储管理、处理分析和安全技术也得到阐述。重点讨论了Hadoop的特性、HDFS的结构和MapReduce的优势,以及Hive和Spark在大数据处理中的角色和特点。最后,探讨了大数据在不同领域的应用、安全问题和思维方式的转变。
摘要由CSDN通过智能技术生成

文章目录

大数据导论

第1章 大数据概述

数据类型、数据组织形式、数据的使用
数据类型
类型 含义 本质 举例 技术
结构化数据 直接可以用传统关系数据库存储和管理的数据 先有结构,后有管理 数字、符号、表格 SQL
非结构化数据 无法用传统关系数据库存储和管理的数据 难以发现同一的结构 语音、图像、文本 NoSQL,NewSQL,云技术
半结构化数据 经过转换用传统关系数据库存储和管理的数据 先有数据,后有结构 HTML、XML RDF、OWL
数据组织形式

计算机系统中的数据组织形式主要有两种,即文件和数据库。

  1. 文件:计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件、一个网页文件、一个图片文件等等。

  2. 数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,数据库已经成为计算机软件开发的基础和核心。

数据的使用
  • 数据清洗

  • 数据管理

  • 数据分析

  • 信息化浪潮、信息科技为大数据时代提供技术支撑

  1. 存储设备容量不断增加
  2. CPU处理能力大幅提升
  3. 网络带宽不断增加
大数据的概念(4V)
科学研究四种范式
  • 实验

  • 理论

  • 计算

  • 数据

第2章 大数据与云计算、物联网、人工智能

云计算概念、云计算服务模式和类型
五个特征
  • 宽带接入

  • 弹性架构

  • 可测量服务

  • 按需自服务

  • 虚拟化的资源池

四个部署模型
  • 公有云

  • 私有云

  • 混合云

  • 社区云

服务模式

IaaS(Infrastructure as a Service):基础设施级服务。消费者通过因特网可以从完善的计算机基础设施获得服务。

IaaS通过网络向用户提供计算机(物理机和虚拟机)、存储空间、网络连接、负载均衡和防火墙等基本计算资源;用户在此基础上部署和运行各种软件,包括操作系统和应用程序。例如,通过亚马逊的AWS,用户可以按需定制所要的虚拟主机和块存储等,在线配置和管理这些资源。

PaaS(Platform as a Service):平台级服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。

平台通常包括操作系统、编程语言的运行环境、数据库和 Web服务器,用户在此平台上部署和运行自己的应用。用户不能管理和控制底层的基础设施,只能控制自己部署的应用。目前常见的PaaS提供商有CloudFoundry、谷歌的GAE等。

SaaS(Software as a Service):软件级服务。它是一种通过因特网提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动,例如邮件服务、数据处理服务、财务管理服务等

大数据系统与云安全、云安全及其关键技术
  • 认证授权问题

  • 访问控制问题

  • 操作审计问题

  • 敏感数据保护问题

  • 认证授权问题

物联网概念、物联网三要素、物联网层次架构
大数据与云计算、物联网的关系
人工智能概念、人工智能关键技术

人工智能(Artificial Intelligence),英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

关键技术:机器学习、专家系统、知识图谱、计算机视觉、自然语言处理、生物特征识别、人机交互、VR/AR、模式识别

大数据与人工智能的关系
  1. 人工智能需要数据来建立其智能,特别是机器学习
  2. 大数据技术为人工智能提供了强大的存储能力和计算能力

第3章 大数据技术

大数据技术的不同层面及其功能

在这里插入图片描述

传统的数据采集与大数据采集的区别

在这里插入图片描述

互联网爬虫基本架构、爬取策略
  1. 将这些URL放入待抓取URL队列;
  2. 读取URL,Download对应页面;
  3. 解析页面,嗅探新的URL去重加入队列;
  4. Goto step 3
ETL概念

ETL

  • 66
    点赞
  • 311
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值