claem-CSDN博客

原创 Mac docker环境下基于linux容器配置 microsoft sql server

直接查看环境变量里的mssql_sa_password就是之前设定的密码忘记了可以在这里看。主机端口号1433可能会被其他进程占用(开多个sql)，可以弄个11433 17788啥的。一开始docker run创建的容器会自动使用sa这个userid登录密码是设定的密码。创建成功会自动运行，如果无法运行或者启动后秒退可以看看报错在哪里，我目前还没遇到:-}1.docker里拉取最新版本的mssql镜像。设定好本机连接端口号 userid 密码。可以用学生证免费使用教育版1年。测试连接通过即成功～

2024-09-06 12:31:50 434

原创 Mac 快速安装Python & 环境变量配置

参考博客链接🔗

2024-09-02 10:52:12 129

原创电商数仓5.0 用户行为数据流传递流程以及实现

这个步骤实现下来难度不在于代码，在于不同版本直接的冲突，不匹配是最麻烦的，因为报的错误稀奇古怪，而且搜不到案例，可能别人不选你这个版本就不会有这个错误。PS：写拦截器的时候一开始使用的jdk17，结果我linux里jdk版本是1.8，直接不让运行，我把linux里jdk换成17后报错jvm内存溢出，更麻烦了，然后重新打包换成1.8jdk编译…

2024-05-30 10:00:19 1070

原创 docker创建 Maxwell容器并连通Kafka

Kafka集群里生成了topic_db主题目前说明maxwell与kafka连通但是还没有传输数据，接下来修改mysql指定监控database里的tables，来看看maxwell是否能够将bin-log日志成功传给kafka。干脆想着使用独立的容器单独起一个maxwell算了，开始尝试单独起maxwell然后联通mysql和Kafka。创建的maxwell库里生成了maxwell元数据表说明连接mysql成功！镜像名启动容器的时候终端需要执行的命令（即启动maxwell进程）

2024-05-28 22:18:30 1248

原创 Kafka集群直接通信原理

每台Kafka节点支持对数据进行分区/副本存储，所以每台节点上存在管理数据/副本的manager，即replicationManager（副本管理器），LogManager（日志管理器因为Kafka早起就是做日志信息存储的所以用这个名称管理数据），每台节点里存的分区数据只有在该节点上访问才允许读写操作，其他节点存储该节点的副本无法读写，即副本分为Leader和Follower，Leader就是存在本节点的数据，follower就是存在其他节点上的副本。

2024-05-20 18:28:44 1211

原创 Mac Docker容器里基于centos自定义镜像配置kafka （模拟Linux环境配置kafka）

这周结束了Spark-core，Spark-sql，Spark- stream的学习，发现到后期的案例实践需要用到Kafka和zookeeper，首先在网上搜了一下docker 配置kafka和zookeeper，发现有直接配置镜像的，即kafka，zookeeper单独搞个镜像，跟着步骤配置成功了但是和集群的联系比较拉，特别是我已经把Hadoop和spark集群配置好了，自定义的镜像模拟了Linux环境，干脆直接把Kafka和zookeeper也加进去。接下来 Kafka 启动！

2024-05-18 18:02:34 1147

原创 Spark学习案例实操尚硅谷电商用户访问数据案例

需要用到zip算子，把相同位置的两个rdd连在一起，即rdd1=（1，2，3，4），rdd2=（2，3，4），那么rdd1.init.zip（rdd2）=（（1，2），（2，3），（3，4）），这就是分子，那有了分子，我们需要分母，那分母是什么呢？然后做数据筛选把不是这10个品类的数据行去掉，最后在筛选后的数据里进行（品类，用户）双变量的分组，得到用户出现的次数，然后改变数据结构从（（品类，用户），sum次数）->（品类，（用户，sum次数）），然后进行sortby排序（降序），得到最终结果。

2024-05-15 22:44:06 918

原创 Spark学习笔记之RDD 1

首先，要明白对于Scala而言有自己的数据类型以及如何定义变量，那么在Spark里，我们处理数据集的时候，就需要一种既能存储数据，又能适配很多函数，可以快速对数据进行操作的一种数据结构，这个时候RDD就诞生了。RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark 中，对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。

2024-05-15 21:44:31 828

原创 Hadoop 的一些思维导图方便回顾 (2)

这里合并传给reduceTask之后还需要再排序一遍，保证reducer处理的数据是有序的，reducer里的reduce方法每次处理相同key的数据。当每个mapTask完事的时候，对每个单一mapTask归并后输出的整体数据，会按每个分区再进行合并，即从mapTask1（区1，区2），mapTask2（区1，区2），mapTask3（区1，区2）...mapTaskn（区1，区2），变成区1（mapTask1,mapTask2,...mapTaskn），按区合并之后将数据传给reduceTask。

2024-05-07 11:24:18 804

原创 Hadoop 的一些思维导图方便回顾 (1)

需要注意的一点是无论是读取数据还是写入数据 hdfs都是串行的并不是并行，在这里即为：fs的输出流连接到就近的一个datanode尝试建立传输通道，如果成功建立则该输出流不会同时和分配的所有datanode进行传输，而是只和该就近的datanode进行传输，然后该就近的datanode在将数据同步传输到其他分配的datanode。MapReduce的序列化概念，当我们需要处理多维度数据时，单一的mapper 和 reducer就显得能力有限因为一对map+reduce方法能操作的数据是有限的。

2024-05-03 07:36:35 755

原创 Mac docker配置hadoop集群遇到的一些问题

续接上篇Mac下docker容器配置hadoop集群，虽然成功启动集群了，web网页也可以查看了，但是跟着网课发现第一个小测试就爆出好几个毛病，刚开始尝试上传文件到hdfs远程服务器上还是没啥问题滴，下面就开始遇到问题了，在这里记录一下问题和解决方法～PS：需要注意如果是重新run的容器相当于新容器了，对于网络这一块的配置需要重新再配一遍“宿主机ping容器”，“容器之间互ping”，并且新run的容器ip也会改变哈，这个小细节需要注意，具体操作见我前两篇文章。，这里直接执行会得到一大串类似环境变量。

2024-04-29 15:55:02 959 3

原创 Mac 在docker容器内配置hadoop集群

同时，在代码中，我们也可以设置Hadoop的配置信息。第一步--------------------------------------------------------------------------------------------------第四步-------------------------配置hadoop----------------------------------------------------------ps：centos8自带了但是7没有带。

2024-04-28 14:58:16 1244

原创 Mac宿主机无法ping通docker容器

后经搜索相关问题发现可以从ip下手结果被告知mac里查看不了docker0桥段对应的网络因为根本就没显示这个，同时 docker 指定 --net=host命令仅在Linux环境有效血亏。最后用sudo brew services restart命令重启docker-connection该即可，现在我们就可以在宿主机中使用容器IP、容器端口来访问该容器了。这里如果报错有关brew命令的问题可以使用以下命令修复本人报错了修复成功！在docker-connector服务的配置文件添加该子网，如下所示。

2024-04-24 21:10:18 1480 1

原创 Mac本地docker配置redis主从复制

还需要注意在运行镜像命令时就需要跟上redis-server操作指定配置文件因为docker run命令运行后容器内部redis会自动运行端口号会被占用（这里我只能这么理解hhh）所以在启动时跟上指定配置命令会发生修改。这里需要注意我们需要手动配置redis参数所以我们需要提前准备好一个redis的配置文件 redis.conf。挂载到容器里存放配置文件的目录 /etc/redis/redis.conf 将容器自带的配置文件换成我们调整好的。后续有需要可以升级配置redis集群。

2024-04-24 11:58:30 316 4

wrz427的博客