![](https://img-blog.csdnimg.cn/2c9e2ef15e774c55af0106b86b2fb0bc.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 82
大数据生态体系框架笔记总结
王博1999
一个普通人,记录部分学习内容,atguigu粉丝
展开
-
数仓建模理论(二)☆☆☆
数仓建模详解原创 2022-12-10 15:04:26 · 907 阅读 · 0 评论 -
hive运行sql时突然宕机报错
hive突然宕机报错原创 2022-12-06 15:50:09 · 517 阅读 · 1 评论 -
数仓建模理论(一)
1.关系建模与维度建模2.事实表与维度表原创 2022-12-03 17:07:18 · 536 阅读 · 0 评论 -
数仓之hive自定义UDTF函数详解
自定义UDTF函数原创 2022-11-30 15:02:07 · 2629 阅读 · 0 评论 -
ERROR org.apache.hadoop.hdfs.server.namenode.FSImage: Failed to load image from FSImageFile(file=/op
学习中遇到的坑原创 2022-11-28 20:28:11 · 1163 阅读 · 0 评论 -
数仓数据同步策略
数仓同步策略介绍和应用场景原创 2022-11-28 15:14:12 · 1002 阅读 · 0 评论 -
数仓之范式
了解什么是范式原创 2022-11-25 18:08:46 · 396 阅读 · 0 评论 -
数据仓库架构详解
基本概念原创 2022-11-17 10:40:03 · 3816 阅读 · 0 评论 -
flume之Ganglia的部署
Ganglia的部署原创 2022-11-13 15:04:28 · 296 阅读 · 0 评论 -
flume入门案例
flume入门案例原创 2022-11-11 10:53:20 · 1830 阅读 · 0 评论 -
flume框架原理
flume框架原理简单解析原创 2022-11-06 20:17:24 · 629 阅读 · 0 评论 -
kafka—offset偏移量
1.offset基本概念2.offset的提交3.消费者优化原创 2022-11-06 14:50:59 · 2406 阅读 · 0 评论 -
kafka—分区的分配和再平衡
kafka分区的分配以及再平衡的知识点原创 2022-11-02 17:14:04 · 876 阅读 · 1 评论 -
kafka—消费者
1.消费者工作流程2.消费者组原创 2022-10-30 09:39:53 · 4716 阅读 · 0 评论 -
kafka—生产经验(2)
一、副本的基本信息二、Leader 和 Follower 故障处理细节三、Leader Partition 负载平衡四、kafka文件存储五、文件清理策略六、高效读写数据原创 2022-10-25 16:33:49 · 937 阅读 · 0 评论 -
kafka—生产经验
kafka在生产过程中的一些参数配置原创 2022-10-24 17:15:35 · 438 阅读 · 0 评论 -
kafka—生产者
1.消息发送的原理2.生产者同步和异步发送3.生产者分区和自定义分区原创 2022-10-23 10:19:30 · 1637 阅读 · 2 评论 -
kafka—入门概述
介绍了kafka的定义、应用场景、专业用语原创 2022-10-21 17:40:17 · 467 阅读 · 0 评论 -
SparkStreaming—DStream转换
1.介绍了DStream无状态和有状态转换操作2.DStream输出、关闭、和数据恢复原创 2022-10-21 17:36:03 · 773 阅读 · 0 评论 -
SparkStreaming—入门概述
SparkStreaming的基本介绍原创 2022-10-21 17:34:09 · 1105 阅读 · 0 评论 -
spark—三层架构
spark三层架构,开发入门的基本知识原创 2022-10-15 17:22:53 · 2186 阅读 · 0 评论 -
spark—SQL实战案例
对sparkSQL的学习进行案例练习原创 2022-10-05 18:27:50 · 3597 阅读 · 5 评论 -
sparkSQL—用户自定义函数
简单介绍UDF和UDAF原创 2022-10-05 18:20:53 · 273 阅读 · 0 评论 -
sparkSQL—入门介绍
sparkSQL的基本介绍、三种数据类型的概述和转换原创 2022-10-04 14:01:23 · 331 阅读 · 0 评论 -
spark—累加器和广播变量
累加器和广播变量的基本介绍和使用原创 2022-10-02 15:47:43 · 1138 阅读 · 0 评论 -
spark—RDD持久化
介绍了Cache和Persist缓存,以及CheckPoint 检查点原创 2022-09-28 14:06:28 · 435 阅读 · 0 评论 -
spark—算子详解
介绍算子和闭包检测功能原创 2022-09-21 10:53:33 · 1925 阅读 · 0 评论 -
spark—KV算子解析
介绍一些kv的算子原创 2022-09-19 20:03:39 · 566 阅读 · 0 评论 -
Spark—RDD知识点
RDD小知识原创 2022-09-18 16:39:52 · 791 阅读 · 0 评论 -
zookeeper选举机制原理
介绍了zookeeper选举机制原创 2022-09-07 20:19:00 · 492 阅读 · 0 评论 -
Yarn框架原理
介绍了Yarn框架原理原创 2022-09-05 19:57:15 · 414 阅读 · 0 评论 -
MapReduce框架原理
介绍了MapReduce框架原理原创 2022-09-05 19:56:19 · 497 阅读 · 0 评论 -
Hadoop入门介绍
hadoop的基本概念原创 2022-08-22 20:45:49 · 368 阅读 · 0 评论 -
spark笔记(二)之RDD常用算子
大家好!下面是我在疫情假期期间学习的saprk算子笔记,刚刚用了一下午的时间把它整理出来分享给大家!码字实属不易如果对你有帮助,记得点赞呦!文章目录一.spark行动算子二.spark单value类型三.spark双value类型四.spark算子KV类型一.spark行动算子1.reduce( f: (T, T) => T ):通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。val list1: RDD[Int] = sc.makeRDD(1 to 10)val原创 2020-05-16 19:23:05 · 1353 阅读 · 0 评论 -
spark笔记(一)之RDD任务划分
一.Driver & ExecuterDriver:创建spark上下文对象的应用程序称之为Driver,或者驱动器;只要创建spark上下文对象的类,可以称之为Driver类 * 功能:发送任务给Executor进行计算 * 总结:除Executoru算子计算功能之外的代码都属于DriverExecutor:接收认为并执行任务,称之为执行器(也就是说把计算的任务...原创 2020-05-06 09:14:55 · 717 阅读 · 1 评论 -
flume笔记(一)之基础架构
定义:Flume其实就是一个高可靠、高可用、海量数据传输的流式框架。一.Flume基础架构Agent:是一个JVM进程,它以事件的形式将数据从源头送至目的Source(数据源):负责接收数据到Agent。并且处理各种类型、格式的日志数据,主要包括Avro Source、ExecSource、Spooling DirectorySource、Netcat Source等。Si...原创 2020-05-07 10:48:18 · 173 阅读 · 0 评论 -
flume笔记(二)之Agent内部原理
一.内部工作流程1.Source 接收数据。 2.Channel Processor 处理事件。 3.将数据事件传给链接器链 interceptor(拦截器),可以是一个或多个拦截器。 4.经过拦截器后又把数据返回给 Channel Processor (Channel 处理器),然后再把这个数据传给Channel Selector(选择器)。 5.经过Channel Selector(选择器)的选择策略处理之后,再将数据传给Channel列表。因为可能有多个Channel 组成的Chan...原创 2020-05-11 13:50:53 · 321 阅读 · 0 评论 -
flume笔记(四)之 自定义Interceptor、Source、Sink
一.案例概述 首先flume在实际开发中的日志处理的要去各不相同,然而官方所给的案例不能满足我实际开发者的要求,所以就有了自定义Interceptor这个概念。它需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。 而下面的一个小案例我采用的的拓扑结构是Multiplexing 结构。这个前面的文章中也提到过。其原理是根据event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel中,所以我们需要自定义一个 Interceptor,为不同类型的 ev原创 2020-05-19 17:43:41 · 249 阅读 · 0 评论 -
Kafka笔记(一)之kakfa工作流程
一.kafka基本架构术语Producer(生产者):kafka生产者向 kafka broker 发消息的客户端; Consumer(消费者):kafka消费者向 kafka broker 取消息的客户端;Consumer Group (消费者组):消费者组是由多个Consumer组成。不同消费者组之间可以同时消费数据,同一个消费者组之间按顺序消费数据Broker:一个borke...原创 2020-05-06 10:17:03 · 201 阅读 · 0 评论