文章目录
大数据导论
第1章 大数据概述
数据类型、数据组织形式、数据的使用
数据类型
类型 | 含义 | 本质 | 举例 | 技术 |
---|---|---|---|---|
结构化数据 | 直接可以用传统关系数据库存储和管理的数据 | 先有结构,后有管理 | 数字、符号、表格 | SQL |
非结构化数据 | 无法用传统关系数据库存储和管理的数据 | 难以发现同一的结构 | 语音、图像、文本 | NoSQL,NewSQL,云技术 |
半结构化数据 | 经过转换用传统关系数据库存储和管理的数据 | 先有数据,后有结构 | HTML、XML | RDF、OWL |
数据组织形式
计算机系统中的数据组织形式主要有两种,即文件和数据库。
-
文件:计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件、一个网页文件、一个图片文件等等。
-
数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,数据库已经成为计算机软件开发的基础和核心。
数据的使用
-
数据清洗
-
数据管理
-
数据分析
-
信息化浪潮、信息科技为大数据时代提供技术支撑
- 存储设备容量不断增加
- CPU处理能力大幅提升
- 网络带宽不断增加
大数据的概念(4V)
科学研究四种范式
-
实验
-
理论
-
计算
-
数据
第2章 大数据与云计算、物联网、人工智能
云计算概念、云计算服务模式和类型
五个特征
-
宽带接入
-
弹性架构
-
可测量服务
-
按需自服务
-
虚拟化的资源池
四个部署模型
-
公有云
-
私有云
-
混合云
-
社区云
服务模式
IaaS
(Infrastructure as a Service):基础设施级服务。消费者通过因特网可以从完善的计算机基础设施获得服务。
IaaS通过网络向用户提供计算机(物理机和虚拟机)、存储空间、网络连接、负载均衡和防火墙等基本计算资源;用户在此基础上部署和运行各种软件,包括操作系统和应用程序。例如,通过亚马逊的AWS,用户可以按需定制所要的虚拟主机和块存储等,在线配置和管理这些资源。
PaaS
(Platform as a Service):平台级服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。
平台通常包括操作系统、编程语言的运行环境、数据库和 Web服务器,用户在此平台上部署和运行自己的应用。用户不能管理和控制底层的基础设施,只能控制自己部署的应用。目前常见的PaaS提供商有CloudFoundry、谷歌的GAE等。
SaaS
(Software as a Service):软件级服务。它是一种通过因特网提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动,例如邮件服务、数据处理服务、财务管理服务等
大数据系统与云安全、云安全及其关键技术
-
认证授权问题
-
访问控制问题
-
操作审计问题
-
敏感数据保护问题
-
认证授权问题
物联网概念、物联网三要素、物联网层次架构
大数据与云计算、物联网的关系
人工智能概念、人工智能关键技术
人工智能(Artificial Intelligence),英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
关键技术:机器学习、专家系统、知识图谱、计算机视觉、自然语言处理、生物特征识别、人机交互、VR/AR、模式识别
大数据与人工智能的关系
- 人工智能需要数据来建立其智能,特别是机器学习
- 大数据技术为人工智能提供了强大的存储能力和计算能力
第3章 大数据技术
大数据技术的不同层面及其功能
传统的数据采集与大数据采集的区别
互联网爬虫基本架构、爬取策略
- 将这些URL放入待抓取URL队列;
- 读取URL,Download对应页面;
- 解析页面,嗅探新的URL去重加入队列;
- Goto step 3
ETL概念
ETL