自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 大数据必知必会系列_开源组件总结(6):数据挖掘层

当前主流的深度学习框架进行总结

2024-10-02 21:23:37 427

原创 大数据必知必会系列_开源组件总结(5):数据治理层

当前使用较多的数据治理开源组件基本都聚焦在数据血缘、元数据管理、质量监控等一个或几个点上,缺少全面治理组件,而且国内大厂在这一块较少使用开源组件,所以治理方面的开源组件还有很长的路要走。正确的数据治理须从数据接入开始,但是很多企业在大数据平台初期对数据治理重视不足,导致后续工作中反复做事后治理或被动治理,往往收效了了。数据治理并不是一个新鲜事,很多企业把它改成了资产管理,其实核心工作都差不多。

2024-10-02 20:37:48 417

原创 大数据必知必会系列_开源组件总结(4):数据分析层

数据分析层主要解决多维度分析的问题,基于开源组件构建多维分析报表体系。主流OLAP引擎进行比较和总结开源组件对比

2024-10-02 19:31:00 1096

原创 大数据必知必会系列_开源组件总结(3):数据计算层

数据经过采集和存储之后就是计算了,数仓开发、数据分析、数据挖掘都需要通过计算获得结果。

2024-10-02 18:34:35 911

原创 大数据必知必会系列_开源组件总结(2):数据存储层

采集数据之后,一般先存储再计算。对于离线系统通常先存于消息队列中,再存入文件系统,而对于实时系统,一般存放在消息中间件(如kafka)直接计算(减小时延)消息中间件是用于在分布式系统中传递消息的中间件,它们在不同的应用程序或服务之间提供可靠的消息传递机制。总之,消息队列提供高效、可靠的数据暂存功能。通过解耦、流控、持久化和灵活的消费模式,使数据采集和处理之间的协作更加高效和可靠。

2024-10-02 16:33:49 1351

原创 大数据必知必会系列_开源组件总结(1):数据采集层

一般来说,企业大数据架构主要由数据采集、数据存储层、数据计算、数据分析挖掘、数据治理五层组成。本文对数据采集层用到的开源组件进行总结。

2024-10-01 22:32:19 479

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除