关于数据处理相关-CSDN博客

本文链接：https://blog.csdn.net/xiaer___/article/details/139380441

数据处理

数据处理发展的过程是数据库-数据仓库-数据湖，数据处理技术发展的推动力是需要处理的数据规模，但是这些技术现在并不是相互替代的对立关系，而是相互配合，更好的服务于业务。
在这里插入图片描述
数据库主要能力亮点是在消费数据层（ads层），因为要求更好的兼容性、更强的交互能力、更快的数据处理能力，一般来说，业务最终的数据都会导出到对应的关系型数据库中。技术示例：MySQL、postgreSQL等。

数据仓库主要的能力亮点是在数据处理层（dwd层），基于大量数据的强大数据分析能力，使得数据仓库更适合处理大量数据的数据建模和数据分析相关任务，技术示例：hive、spark、flink等。

数据湖主要的能力亮点是在源数据层（ods层），其宽容的的数据接受度，使得其可以存储各种各样格式的数据类型（比数仓的接受度更大，包括但不限于文本、图片、视频、音频），这在现今人工智能不断发展的情况下，对着个需求是非常急需的，技术示例：hudi等。

当然，上述所属的能力亮点使其在数据处理过程中较为突出的一部分，每一种数据处理的技术都可以完善的完成整个数据处理过程，所以人们在应用这些技术处理真实需求时，都会使用多个任务，相互取长补短，最近火热的湖仓一体技术也是这种思想，数据湖强大的源数据存储能力和数据仓库强大的数据建模和分析能力相互结合，能够让企业更好的使用数据，挖掘出更大的数据价值。

数据库

1970年关系型数据库被提出，从此之后，数据和程序就此分离，各司其职，我们现在所说的数据库就是关系型数据库，即使用关系模型来组织数据的数据库，使用行列的形式存储数据，数据结构化高，数据独立性强、数据冗余度低。存储的数据是高度标准化的结构。

数据库的主要应用场景是联机事务处理OLTP（on-line transaction processing），数据库发展时间长，交互性强，兼容性好，读写速度块，应用范围广，主要进行日常的基本的事务处理，所以对写操作的优化较多。

数据仓库

随着数据量的不断增加，数据关系逐渐复杂，数据来源更加多种多样，数据库在处理这些数据上的表现的力不从心，但是一般的公司数据的量关系型数据库已经够用了，大约千万条以上的数据量，数据库就会难以处理。数据仓库之父比尔·恩门于1990年提出数据仓库（Data Warehouse）的概念。

数据库一般部署在一台机器上，那么机器的能力会限制数据处理能力，没有分布式，必然无法处理大量的数据，数据仓库建立在分布式的系统上，基础技术是hadoop、hive，基础的理论是google的三大论文（俗称大数据的三驾马车）：

《The Google File System 》
《MapReduce: Simplified Data Processing on Large Clusters》在大型集群中简化数据处理
《Bigtable: A Distributed Storage System for Structured Data》结构化数据的分布式存储系统

对应的产品即广为熟知的hdfs、mapreduce、hbase。

人们对挖掘大量数据之内蕴含的更深层次信息，构建更多的数据关系，数据仓库就是为了处理大量数据的集成和分析，例如经年累月积累下的大量历史数据，所以主要的应用场景是联机分析处理OLAP（on-line analytical processing），挖掘数据之内的价值，为分析决策做支撑，即所谓的将沉睡的数据转化为企业的数据资产。

相较于数据库，还有一些不同点

由于hdfs的优势，支持的源数据的结构约束更少，能适配更多的数据来源，更加灵活，且分布式可以处理的数据量远超数据库，一般来说是TB级的数据。
数据仓库是面向主题集成的。数据仓库是为了支撑各种业务而建立的，数据来自于分散的操作型数据。因此需要将所需数据从多个异构的数据源中抽取出来，进行加工与集成，按照主题进行重组，最终进入数据仓库。
数据仓库主要用于支撑企业决策分析，所涉及的数据操作主要是数据查询。因此数据仓库通过表结构优化、存储方式优化等方式提高查询速度、降低开销。所以更多的是对读操作优化。

数据湖

相较于数据仓库，数据湖可以接受更多的源数据类型，包括但不限于文本、图片、视频、音频，这些需求以前可能没有那么重要，但是在如今，大模型的成功普及、人工智能的不断发展，同时企业希望能够完整保存经营过程中的各种数据并从中挖掘价值，所以这些需求也越来越重要，数据湖的概念也越来越火热，根据其衍生出来的数据处理工具也不断完善。

数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库，它可以存储来自多个数据源、多种数据类型的原始数据，数据无需经过结构化处理，就可以进行存取、处理、分析和传输。数据湖能给企业带来多种能力，例如实现数据的集中式管理，帮助企业构建更多优化后的运营模型，也能为企业提供其他能力，如预测分析、推荐模型等

数据湖的主要适用对象是数据科学家，主要的应用场景是可以探索性分析所有类型的数据，包括机器学习、数据发现、特征分析、预测等。普遍的有一个关于数据仓库和数据湖的比喻个人觉得非常贴切：仓库存储着来自特定来源的货物；而湖泊的水来自河流、溪流和其他来源，并且是原始数据。