自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 Maven 中央仓库地址

http://www.sonatype.org/nexus/ http://mvnrepository.com/ (推荐仓库) http://repo1.maven.org/maven2

2024-06-17 12:19:03 292 1

原创 Hive 数仓开发过程涉及基础知识点

3. **优化**:Tez 优化了MapReduce的一些瓶颈,特别是对于需要多次迭代的作业,如Hive查询中的多个JOIN和GROUP BY操作,通过减少读写HDFS的次数来提高速度。2. **内存计算**:Spark 的核心优势在于其内存计算能力,能够缓存数据,减少磁盘I/O,对于迭代计算和数据重用的场景表现出色,这使得它在处理复杂的查询和大规模数据时比Tez更快。2. **资源管理**:Tez 集成了YARN作为资源管理器,能够更细粒度地管理资源,支持DAG作业的执行,使得数据处理管道更加高效。

2024-05-28 15:30:14 246

原创 可用在线智能

https://chat.xing-yun.cn/#/chatxhttps://www.yeschat.ai/yeschathttps://inscode.csdn.net/@weixin_64616164/Python_01/edithttps://xinghuo.xfyun.cn/deskhttps://tongyi.aliyun.com/qianwen/?sessionId=f7fc1464876c4f7b8a15f9b93a4b3d06

2024-05-24 13:07:54 457 1

原创 吃透五个字““接”、“存”、“管”、“算”、“查”“ - 玩转大数据

1. 分层结构:数据仓库常采用星型模型、雪花模型或事实星座模型,并遵循一定的分层原则,如ODS(Operational Data Store)、DW(Data Warehouse)、DM(Data Mart)等,以便于管理和访问。2.转换(Transform):清洗、转换数据,包括数据格式标准化、缺失值处理、异常值检测、数据类型转换、数据脱敏等,确保数据质量及一致性。3.多维分析(OLAP):支持对数据进行多角度、多层次的切片、钻取、旋转等操作,便于用户探索数据、发现模式。

2024-04-24 16:17:35 227 4

原创 实时数据开发 - 百分百会遇到的问题

业务上要尽量避免热点 key 的设计,例如我们可以把上海、北京等热点城市与非热点城市划分成不同的区域,并进行单独处理;Flink 消费 Kafka 的数据时,是推荐消费并行度为Kafka分区数的1倍或者整数倍的 ,即 Flink Consumer 的并行度 = Kafka 的分区数 * n (n = 1, 2 ,3 ...)。如果是采用FlinkSQL的方式,则可以将FlinkSQL 嵌套成两层,里层通过随机打散 若干份(如100)的方式降低数据热点,(这个打散的方式可以根据业务灵活指定)。

2024-04-01 16:57:48 338 1

原创 数据开发之-kafka 的使用场景

对于 kafka 的 topic,我们在创建之初可以设置多个 partition 来存放数据,对于同一个 topic 的数据,每条数据的 key 通过哈希取模被路由到不同的 partition 中(如果没有设置 key,则根据消息本身取模),以此达到分治的目的。同步提交:提交失败的时候一直尝试提交,直到遇到无法重试的情况下才会结束,同步方式下消费者线程在拉取消息会被阻塞,在 broker 对提交的请求做出响应之前,会一直阻塞直到偏移量提交操作成功或者在提交过程中发生异常,限制了消息的吞吐量。

2024-04-01 15:48:48 1662

原创 从零到一搭建数仓项目是一项系统工程,涉及数据源整合、数据模型设计、ETL流程构建、数据仓库实施、数据质量管理、系统运维与优化等多个环节。以下是详细展开的整个流程、设计步骤和技术实现方法:

使用ETL工具(如Informatica、Alteryx、AWS Glue、Azure Data Factory)编写ETL脚本或配置作业。- 使用ETL工具(如Informatica、Alteryx、AWS Glue、Azure Data Factory)实现数据抽取与转换。- 设计维度表,包括自然键、代理键、层级、属性等,如客户维度表包含客户ID、客户名、地区等信息。- 设计数据字典模板,包括数据表名、字段名、数据类型、数据来源、更新频率等字段。

2024-03-25 09:49:28 759

开发需求具体实现流程文案编辑

便于他人了解需求流程熟悉业务过程

2024-05-24

针对微型数仓标准设计方案

针对小型数仓架构,需求设计开发方案

2024-05-24

数据 抽取、转换、加载作业标准

介绍 数据 在处理方面的标准

2024-05-24

知识图谱-Hive-v1.5.xmind

知识图谱-Hive-v1.5.xmind

2022-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除