大数据架构设计用来处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。组织进入大数据领域的门槛各不相同,具体取决于用户的权限及其工具的功能。对某些组织来说,大数据可能意味着数百个 GB 的数据,而对另一些组织来说,大数据则意味着数百个 TB 的数据。随着处理大数据集的工具的发展,大数据的涵义也在不断地变化。慢慢地,这个术语更多的是指通过高级分析从数据集获取的价值,而不是严格地指数据的大小,虽然这种情况下的数据往往是很大的。
多年来,数据格局一直在变。数据的功能和预期功能一直在变。存储成本在大幅下降,而数据的收集手段则在增多。一些数据会瞬间出现,需要不断地进行收集和观察。另一些数据出现速度较慢,但却是很大型的区块,通常是以数十年的历史数据的形式出现。你面对的可能是高级分析问题,也可能是需要机器学习的问题。这些都是大数据架构寻求解决的难题。
大数据解决方案通常涉及一个或多个以下类型的工作负荷:
静态大数据源的批处理。
移动中的大数据的实时处理。
大数据的交互式浏览。
预测分析和机器学习。
需要解决以下难题时,可以考虑使用大数据架构:
存储和处理对传统数据库而言数量太大的数据。
转换非结构化数据以进行分析和报告。
实时或者以较低的延迟捕获、处理和分析无限的数据流。
大数据架构的组件
下图显示了组成大数据架构的逻辑组件。单个解决方案可能不会包含此图中的每个项目。
大多数大数据架构都包括下列组件中的一些或全部:
如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:数字522+数字189+307,私信管理员即可免费领取开发工具以及入门学习资料
数据源。所有大数据解决方案一开始都有一个或多个数据源。示例包括:
应用程序数据存储,例如关系数据库。
应用程序生成的静态文件,例如 Web 服务器日志文件。
实时数据源,例如