自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数仓建设理论总结

指用关系模型来组织数据信息的数据库。关系模型指的是二维表格模型,而一个关系型数据库便是由二维表以及表之间的关系所构成的一个数据集合。:指非关系型的,分布式系统的,且一般不确保遵照ACID标准的数据储存系统。非关系型数据库算是一种数据结构化储存的集合,可以是文档或键值对等。非关系型数据库的本质是传统关系型数据库的功能阉割版本,通过去掉不需要的功能来提高性能。非关系型数据库的类型:1,键值储存数据库2,列储存数据库3,文档型数据库4,图数据库。

2023-05-11 02:47:26 311 1

原创 hive和hadoop

mr程序的执行过程MapReduce程序的主体思想是分而治之。构建抽象模型:Map和ReduceMapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:map: (k1; v1) → [(k2; v2)] 分,可以高度并行reduce: (k2; [v2]) → [(k3; v3)] 合,将同一个分区的数据拉到一起处理MapReduce处理的数据类型是<key,value>键值对。编写mr程序的代码片段如下public....

2021-11-11 02:11:24 1038

原创 Hbase的热点问题,为什么不合理的rowkey会导致数据不均 ?

Hbase学习笔记

2021-11-01 03:05:17 1939

原创 spark与kafka

sparkspark的并行度 : 从hdfs读取文件时:(tfrecords这种特殊类型读取时一个文件一个分区) rdd的分区数 = max(hdfs的block块个数, sc.defaultMinPartitions) spark.default.parallelism = max(所有executor使用的core总数,2) sc.defaultMinPartitions = min(spark.default.parallelism,2) sc.def......

2021-10-27 23:04:28 550

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除