streampark docker 部署

懵懂长记

已于 2023-08-25 20:17:30 修改

阅读量486

点赞数

文章标签： docker 容器运维

于 2023-08-25 20:14:26 首次发布

本文链接：https://blog.csdn.net/weixin_67336776/article/details/132490452

版权

该文章为自己部署经验自记，如有错误请评论指出

一、前言

自己公司之前flink任务是在服务器上使用java -jar 的方式跑yarn模式，但是有几个比较明显的问题点：

（1）如果任务挂掉了，还要上去服务器flink目录下手动使用命令启动任务；

（2）自己使用prometheus + grafana的来监控任务的时候，不太灵敏。有时候挂掉了不告警，需要别人反馈或者自己去看才知道；

（3）服务器资源有限，跑了这些任务后已经很紧张了，不好加资源，扩容什么的不方便；

总结一下就是：手动重启任务太麻烦、随缘告警、服务器资源有限扩缩容不方便；

解决方法：

引用了streampark后

（1）关于手动管理任务的问题：streampark平台管理任务，启动停止都只需要前端点击即可，

（2）关于告警：streampark自己有告警功能，任务状态不对就会及时告警；

（3）资源问题：streampark上支持fink on k8s模式，而k8s扩容缩容增加资源都很方便；

二、部署

由于一开始是在服务器上部署，所以用的docker-compose部署，但是后来为了降低成本，减少服务器，所以组件需要迁移到鲸云后台管理平台（其实底层就是k8s），但是k8s不支持docker-compose管理，所以必须使用docker方式部署；

-- 这里我理解docker-compose和docker是不一样的（新手docker人的自己理解，欢迎指正）

docker-compose部署就是在有多个容器的时候，他帮我自动去管理多个容器，这些容器怎么关联起来用，挂载哪些共享卷都是一开始就设置好的；

docker部署就是这些容器要我自己去管理，怎么关联起来也是要自己搞，比如自己设置网络、设置挂载卷、设置多个容器间怎么相互访问等；

2.1 docker-compose 部署

2.1.1 安装

其实这个部署按照streampark官网docker部署部分就可以了，地址：https://streampark.apache.org/zh-CN/docs/user-guide/docker-deployment（看着很简单，但是确实也就这么几步就可以了），这里我就简单总结一下我部署的过程：

1.下载docker-compose.yaml和.env文件（这里我是下载沿用mysql的文件，但是官网给的地址访不了，就下载了h2的，然后自己把数据部分的数据类型改成了mysql，然后添加mysql的配置信息就可以了）

或者直接一起git里面下载这两个文件都可以，反正最后把数据库连接类型改成mysql就行了

2.命令docker-compse up -d 启动

3.登录http://you_ip:10000访问web

2.1.2 关联flink

在docker-compose.yaml文件中，有将一个flink挂载到/streampark/flink/flink1.xx.x的文件夹下面，这个时候你只需要加入web页面，在里面配置flink home地址就可以（这个地址就是/streampark/flink/flink1.xx.x这个）

2.1.3 关联hadoop

docker-compse.yaml文件中，可以设置将你的hadoop挂载进容器中（这里我直接把这个hadoop挂载进去了，应该只需要hadoop的几个核心配置文件挂载进去就行，你们可以自行测试），然后在.env中设置好自己的HADOOP_HOME等地址即可

2.1.4 关联k8s

将k8s证书放到宿主机/root/.kube下，最终该目录会被挂载到streampark容器中

2.1.5 最终docker-compose.yaml和.env文件

docker-compose.yaml：

version: '3.8'
services:
  streampark-console:
    image: apache/streampark:release-2.1.1
    command: ${RUN_COMMAND}
    ports:
      - 10000:10000
    env_file: .env
    volumes:
      - flink:/streampark/flink/${FLINK}
      - /var/run/docker.sock:/var/run/docker.sock
      - /etc/hosts:/etc/hosts:ro
      - /root/.kube:/root/.kube:ro 
      - /usr/local/hadoop-3.2.2:/usr/local/hadoop-3.2.2 #这里挂载自己的hadoop
# 下面的几个是为了数据持久化，也可以不挂载
      - /usr/local/streamx/opt/streampark_workspace:/opt/streampark_workspace 
      - /usr/local/streamx/logs:/streampark/logs
    privileged: true
    restart: unless-stopped
    networks:
      - streampark

  flink-jobmanager:
    image: ${FLINK_IMAGE}
    ports:
      - "8083:8081"
    command: jobmanager
    volumes:
      - flink:/opt/flink
    env_file: .env
    restart: unless-stopped
    privileged: true
    networks:
      - streampark

networks:
  streampark:
    driver: bridge

volumes:
  flink:

.env:

TZ=Asia/Shanghai
HADOOP_HOME=/usr/local/hadoop-3.2.2
HADOOP_USER_NAME=root
HADOOP_CONF_DIR=/usr/local/hadoop-3.2.2/etc/hadoop


SPRING_PROFILES_ACTIVE=mysql     #h2 #mysql, pgsql

SPRING_DATASOURCE_URL=jdbc:mysql://you_mysql_url:3306/streampark?useSSL=false&useUnicode=true&characterEncoding=UTF-8&allowPublicKeyRetrieval=false&useJDBCCompliantTimezoneShift=true&useLegacyDatetimeCode=false&serverTimezone=GMT%2B8
SPRING_DATASOURCE_USERNAME=root
SPRING_DATASOURCE_PASSWORD=root


FLINK=flink1.14.5
FLINK_IMAGE=flink:1.14.5-scala_2.12

RUN_COMMAND='/bin/sh -c "wget -P lib https://repo1.maven.org/maven2/com/mysql/mysql-connector-j/8.0.31/mysql-connector-j-8.0.31.jar && bash bin/streampark.sh start_docker "'

JOB_MANAGER_RPC_ADDRESS=flink-jobmanager

2.2 docker部署

docker中要考虑怎么让flink和streampark关联起来（因为在streampark上报任务的时候是需要使用flnk提交任务，所以必须要有一个可以用的flink客户端），最终发现只需要将flink挂载到streampark中即可，然后设置FLINK_HOME指向这个flink目录即可；因为产线上没有用flink on yarn（之前的所有flink on yarn的任务都改成了flink on k8s模式跑），所以没有去弄hadoop，这里如果需要可以自行尝试（大概率也是挂载hadoop进去，然后指定HADOOP_HOME地址）

2.1.1 制作docker镜像

根据docker-compose.yaml、.env文件改成docker时候，

（1）docker-compose中的挂载的文件自己考虑哪些需要直接放到镜像中的就继续放进去，比如flink就必须要，hadoop看情况要，k8s证书、k8s的守护进程文件要也是看情况要（如果用到了k8s，就必须要），hosts也是看情况；

（2）.env中设置的就是一些环境变量和启动命令，所以环境变量的话，在启动最后的docker镜像的时候，通过 ‘-e {key}={value}’格式来设置环境变量就可以，这样也方便点；启动命令就写在dockerfile里面就可以了

最后的dockerfile：

FROM apache/streampark:release-2.1.1

# 设置环境变量
ENV TZ Asia/Shanghai

# 拷贝相关文件和目录
RUN mkdir -p /streampark/flink/flink1.14.5
COPY ./flinkall/flink1.14.5/ /streampark/flink/flink1.14.5

# 下载MySQL Connector/J
RUN wget -P lib https://repo1.maven.org/maven2/com/mysql/mysql-connector-j/8.0.31/mysql-connector-j-8.0.31.jar

# 暴露端口
EXPOSE 10000
      
# 启动命令
CMD /bin/sh -c "bash bin/streampark.sh start_docker"

然后执行命令：docker build -t {image_name}:{tag} .

三、启动

docker-compose直接用docker-compose up -d启动就可以了

自己创建的docker镜像启动的话，需要看情况添加环境变量，下面是我当时启动的命令：

docker run -it --name mystreamparktcp04 \
-p 10000:10000 \
-e FLINK_HOME=/streampark/flink/flink1.14.5 \
-e SPRING_PROFILES_ACTIVE=mysql \
-e SPRING_DATASOURCE_URL=jdbc:mysql://10.21.47.146:3306/streampark \
-e SPRING_DATASOURCE_USERNAME=root \
-e SPRING_DATASOURCE_PASSWORD=Mindlinker@2022 \
-e DOCKER_HOST=tcp://10.23.7.105:2375 \ #这个环境变量可以用tcp来连接远程的docker（我的streampark最后是在k8s上跑的，本地没有可以用的docker）
mystreampark:2.1.1 bash

到这里，都去启动后就可以登录web端使用了

地址：ip：10000

默认账号密码：admin ： streampark