大数据系统发展的技术路线

最新推荐文章于 2024-06-26 11:35:18 发布

willtongji

最新推荐文章于 2024-06-26 11:35:18 发布

阅读量1.2w

点赞数 1

文章标签：大数据

本文链接：https://blog.csdn.net/willtongji/article/details/52874660

版权

本文探讨了大数据系统的发展，从MPP并行数据库和内存数据库到基于Hadoop的开源体系，再到混合集群和内存计算模式。Hadoop和Spark成为大数据处理的通用方法，而SQL在大数据时代依然占据重要地位。随着技术进步，结构化与非结构化数据处理平台趋于融合，MapReduce将被内存计算模式取代，传统数据库市场将受到大数据系统的挑战。

摘要由CSDN通过智能技术生成

自从大数据出来后，数据管理界发生了巨大的变化，技术驱动成为大数据管理系统的一个主要变革力量。

传统的数据库管理系统以结构化数据为主，因此关系数据库系统（RDBMS）可以一统天下满足各类应用需求。然而，大数据往往是半结构化和非结构化数据为主，结构化数据为辅，而且各种大数据应用通常需要对不同类型的数据内容检索、交叉比对、深度挖掘与综合分析。面对这类应用需求，传统数据库无论在技术上还是功能上都难以为继。因此，近几年出现了oldSQL、NoSQL 与NewSQL 并存的局面。（这几个术语后面专题讨论）

总体上，按数据类型与计算方式的不同，面向大数据的管理系统与处理采用不同的技术路线，大致可以分为四类。

1、MPP并行数据库和内存数据库

第一类技术路线主要面对的是大规模的结构化数据。针对这类大数据，通常采用新型数据库集群。它们通过列存储或行列混合存储以及粗粒度索引等技术，结合MPP（Massive Parallel Processing）架构高效的分布式计算模式，实现对PB 量级数据的存储和管理。列存储数据库技术针对数据分析的特点，能够对数据进行高性能的压缩，查询也只需访问必要的列，节省了很多I/O，分析性能比传统行存储数据库有了很大的提升（可以多达两个数据量级）。

同时，随着内存成本的降低、单机内存的增大，以SAP HANA为代表的内存数据库也采用了列存储技术，支持更高性能的数据分析。这些技术的发展，使得它们成为TB级别数据仓库的最先进技术，已经涵盖了绝大多数OLAP市场，在企业分析类应用领域已获得广泛应用。

然而，MPP并行数据库和内存数据库依赖昂贵的硬件配置，其中的很多商业软件还有价格高昂的使用许可证，这些成本并不是每个公司都能够承担或者愿意承担的；而开源大数据系统采用通用、廉价的硬件设施，使得人们更容易尝试和使用这些系统，数据和业务迁移的成本也更低。同时，以Hadoop为代表的开源大数据系统形成较大的社区之后，就会有各种相关系统补充进来，构成生态圈，满足人们不同的需求，具有非常好的开放性。因此，就出现了第二类以Hadoop为典型的开源系统技术路线，并逐渐得到认可，并成为大数据分析的新宠儿。

最低0.47元/天解锁文章

willtongji

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
大数据系统发展的技术路线

自从大数据出来后，数据管理界发生了巨大的变化，技术驱动成为大数据管理系统的一个主要变革力量。传统的数据库管理系统以结构化数据为主，因此关系数据库系统（RDBMS）可以一统天下满足各类应用需求。然而，大数据往往是半结构化和非结构化数据为主，结构化数据为辅，而且各种大数据应用通常需要对不同类型的数据内容检索、交叉比对、深度挖掘与综合分析。面对这类应用需求，传统数据库无论在技术上还是功
复制链接

扫一扫