文章目录
1、应知应会
- 大数据的本质是应需求而驱动的。
- 软件是大数据的驱动力。
- 大数据总体架构的特点有统一、开发、集成的大数据平台、低成本的可拓展性、实时地分析执行、可靠性。
- 分布式数据库系统是数据库技术和网络技术相结合的产物。
- 半结构化数据也叫流数据。对流数据进行处理的系统叫数据流系统。
- 根据数据源的信息和分析目标不同,大数据的处理可分为离线/批量和在线/实时两种模式。
- 大数据分析的使用者对于大数据分析最基本的要求是可视化分析。
- 大数据分析的理论核心是数据挖掘算法。
- 大数据分析最重要的领域之一就是预测性分析。
- 大数据分析过程中,识别信息需求是确保数据分析过程有效性的首要条件。
- 数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
- 大数据分析的研究对象是大数据。对应于大数据分析的两条技术路线,其分析方法可分为两类:一个是统计分析方法,另一个是数据挖掘方法。
2、大数据总体框架
架构设计原则
企业级大数据应用框架需要满足业务的需求:一是要求能够满足基于数据容量大、数据类型多、数据流通快的大数据基本处理要求,能够支持大数据的采集存储、处理和分析;二是能够满足企业级应用在可用性、可靠性、可扩展性、容错性、安全性和保护隐私等方面的基本准则;三是能够满足用原始技术和格式来实现数据分析的基本要求。
总体架构特点
大数据技术架构具备集成性、架构先进性和实时性等特点,具体来说,包含以下几个方面:
- 统一、开发、集成的大数据平台
(1)可基于开源软件实现Hadoop基础工具的整合;
(2)能与关系型数据库、数据仓库通过JDBC/ODBC连接器进行连接;
(3)能支持地理分布的在线用户和程序,并行执行从查询到战略分析的请求;
(4)提供用户友好的管理平台,包括HDFS浏览器和类SQL查询语句等;
(5)提供服务、存储、调度和高级安全等企业级应用的功能。 - 低成本的可扩展性
(1)支持大规模可扩展性,到PB级数据源;
(2)支持极大的混合工具负载,各种数据类型包括任意层次的数据结构、图像、日志等;
(3)节点间无共享(sharing-nothing)的集群数据库体系结构;
(4)可编程和可扩展的应用服务器;
(5)简单的配置、开发和管理;
(6)以线性成本扩展并提供一致的性能;
(7)标准的普通硬件。 - 实时地分析执行
(1)在声明或发现数据结构之前装载数据;
(2)能以数据全载入的速度来准确更新数据;
(3)可调度和执行复杂的几百个节点的工作流;
(4)在刚装载的数据上,可实时执行六分析查询;
(5)能以大于每秒1GB的速率来分析数据。 - 可靠性
当处理节点失效时,自动恢复并保持流程持续,不需要中断操作。
3、大数据存储技术
分布式数据库系统是数据库技术和网络技术相结合的产物。它通常使用体积较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS的一份完整的副本,并具有自己局部的数据库。位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的大型数据库。
分布式数据库系统具有以下主要特点:
(1)物理分布性:数据不是存储在一个场地上,而是存储在计算机网络的多个场地上;