自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 问答 (1)
  • 收藏
  • 关注

原创 电商数仓5.0 用户行为数据流传递流程以及实现

这个步骤实现下来难度不在于代码,在于不同版本直接的冲突,不匹配是最麻烦的,因为报的错误稀奇古怪,而且搜不到案例,可能别人不选你这个版本就不会有这个错误。PS:写拦截器的时候一开始使用的jdk17,结果我linux里jdk版本是1.8,直接不让运行,我把linux里jdk换成17后报错jvm内存溢出,更麻烦了,然后重新打包换成1.8jdk编译…

2024-05-30 10:00:19 995

原创 docker创建 Maxwell容器 并连通Kafka

Kafka集群里生成了topic_db主题目前说明maxwell与kafka连通 但是还没有传输数据,接下来修改mysql指定监控database里的tables,来看看maxwell是否能够将bin-log日志成功传给kafka。干脆想着使用独立的容器单独起一个maxwell算了,开始尝试单独起maxwell然后联通mysql和Kafka。创建的maxwell库里生成了maxwell元数据表说明连接mysql成功!镜像名 启动容器的时候终端需要执行的命令(即启动maxwell进程)

2024-05-28 22:18:30 1111

原创 Kafka集群直接通信原理

每台Kafka节点支持对数据进行分区/副本存储,所以每台节点上存在管理数据/副本的manager,即replicationManager(副本管理器),LogManager(日志管理器 因为Kafka早起就是做日志信息存储的所以用这个名称管理数据),每台节点里存的分区数据只有在该节点上访问才允许读写操作,其他节点存储该节点的副本无法读写,即副本分为Leader和Follower,Leader就是存在本节点的数据,follower就是存在其他节点上的副本。

2024-05-20 18:28:44 1114

原创 Mac Docker容器里基于centos自定义镜像 配置kafka (模拟Linux环境配置kafka)

这周结束了Spark-core,Spark-sql,Spark- stream的学习,发现到后期的案例实践需要用到Kafka和zookeeper,首先在网上搜了一下docker 配置kafka和zookeeper,发现有直接配置镜像的,即kafka,zookeeper单独搞个镜像,跟着步骤配置成功了但是和集群的联系比较拉,特别是我已经把Hadoop和spark集群配置好了,自定义的镜像模拟了Linux环境,干脆直接把Kafka和zookeeper也加进去。接下来 Kafka 启动!

2024-05-18 18:02:34 1116

原创 Spark学习案例实操 尚硅谷 电商用户访问数据案例

需要用到zip算子,把相同位置的两个rdd连在一起,即rdd1=(1,2,3,4),rdd2=(2,3,4),那么rdd1.init.zip(rdd2)=((1,2),(2,3),(3,4)),这就是分子,那有了分子,我们需要分母,那分母是什么呢?然后做数据筛选 把不是这10个品类的数据行去掉,最后在筛选后的数据里进行(品类,用户)双变量的分组,得到用户出现的次数,然后改变数据结构从((品类,用户),sum次数)->(品类,(用户,sum次数)),然后进行sortby排序(降序),得到最终结果。

2024-05-15 22:44:06 866

原创 Spark学习笔记之RDD 1

首先,要明白对于Scala而言有自己的数据类型以及如何定义变量,那么在Spark里,我们处理数据集的时候,就需要一种既能存储数据,又能适配很多函数,可以快速对数据进行操作的一种数据结构,这个时候RDD就诞生了。RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark 中,对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。

2024-05-15 21:44:31 807

原创 Hadoop 的一些思维导图 方便回顾 (2)

这里合并传给reduceTask之后还需要再排序一遍,保证reducer处理的数据是有序的,reducer里的reduce方法每次处理相同key的数据。当每个mapTask完事的时候,对每个单一mapTask归并后输出的整体数据,会按每个分区再进行合并,即从mapTask1(区1,区2),mapTask2(区1,区2),mapTask3(区1,区2)...mapTaskn(区1,区2),变成区1(mapTask1,mapTask2,...mapTaskn),按区合并之后将数据传给reduceTask。

2024-05-07 11:24:18 784

原创 Hadoop 的一些思维导图 方便回顾 (1)

需要注意的一点是 无论是读取数据还是写入数据 hdfs都是串行的 并不是并行,在这里即为:fs的输出流连接到就近的一个datanode尝试建立传输通道,如果成功建立则该输出流不会同时和分配的所有datanode进行传输,而是只和该就近的datanode进行传输,然后该就近的datanode在将数据同步传输到其他分配的datanode。MapReduce的序列化概念,当我们需要处理多维度数据时,单一的mapper 和 reducer就显得能力有限 因为一对map+reduce方法能操作的数据是有限的。

2024-05-03 07:36:35 709

原创 Mac docker配置hadoop集群遇到的一些问题

续接上篇Mac下docker容器配置hadoop集群,虽然成功启动集群了,web网页也可以查看了,但是跟着网课发现第一个小测试就爆出好几个毛病,刚开始尝试上传文件到hdfs远程服务器上还是没啥问题滴,下面就开始遇到问题了,在这里记录一下问题和解决方法~PS:需要注意如果是重新run的容器相当于新容器了,对于网络这一块的配置需要重新再配一遍“宿主机ping容器”,“容器之间互ping”,并且新run的容器ip也会改变哈,这个小细节需要注意,具体操作见我前两篇文章。,这里直接执行会得到一大串类似环境变量。

2024-04-29 15:55:02 928 3

原创 Mac 在docker容器内配置hadoop集群

同时,在代码中,我们也可以设置Hadoop的配置信息。第一步--------------------------------------------------------------------------------------------------第四步-------------------------配置hadoop----------------------------------------------------------ps:centos8自带了但是7没有带。

2024-04-28 14:58:16 1118

原创 Mac宿主机无法ping通docker容器

后经搜索相关问题发现可以从ip下手 结果被告知mac里查看不了docker0桥段对应的网络 因为根本就没显示这个,同时 docker 指定 --net=host命令仅在Linux环境有效 血亏。最后用sudo brew services restart命令重启docker-connection该即可,现在我们就可以在宿主机中使用容器IP、容器端口来访问该容器了。这里如果报错有关brew命令的问题可以使用以下命令修复 本人报错了修复成功!在docker-connector服务的配置文件添加该子网,如下所示。

2024-04-24 21:10:18 1123 1

原创 Mac本地docker配置redis主从复制

还需要注意 在运行镜像命令时就需要跟上redis-server操作指定配置文件 因为docker run命令 运行后容器内部redis会自动运行 端口号会被占用 (这里我只能这么理解hhh)所以在启动时跟上指定配置命令会发生修改。这里需要注意 我们需要手动配置redis参数 所以我们需要提前准备好一个redis的配置文件 redis.conf。挂载到容器里存放配置文件的目录 /etc/redis/redis.conf 将容器自带的配置文件换成我们调整好的。后续有需要可以升级配置redis集群。

2024-04-24 11:58:30 276 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除