streampark docker 部署

该文章为自己部署经验自记,如有错误请评论指出

一、前言

        自己公司之前flink任务是在服务器上使用java -jar 的方式跑yarn模式,但是有几个比较明显的问题点:

        (1)如果任务挂掉了,还要上去服务器flink目录下手动使用命令启动任务;

        (2)自己使用prometheus + grafana的来监控任务的时候,不太灵敏。有时候挂掉了不告警,需要别人反馈或者自己去看才知道;

        (3)服务器资源有限,跑了这些任务后已经很紧张了,不好加资源,扩容什么的不方便;

总结一下就是:手动重启任务太麻烦、随缘告警、服务器资源有限扩缩容不方便;

解决方法:

        引用了streampark后

        (1)关于手动管理任务的问题:streampark平台管理任务,启动停止都只需要前端点击即可,

        (2)关于告警:streampark自己有告警功能,任务状态不对就会及时告警;

        (3)资源问题:streampark上支持fink on k8s模式,而k8s扩容缩容增加资源都很方便;

二、部署

        由于一开始是在服务器上部署,所以用的docker-compose部署,但是后来为了降低成本,减少服务器,所以组件需要迁移到鲸云后台管理平台(其实底层就是k8s),但是k8s不支持docker-compose管理,所以必须使用docker方式部署;

        -- 这里我理解docker-compose和docker是不一样的(新手docker人的自己理解,欢迎指正)

        docker-compose部署就是在有多个容器的时候,他帮我自动去管理多个容器,这些容器怎么关联起来用,挂载哪些共享卷都是一开始就设置好的;

        docker部署就是这些容器要我自己去管理,怎么关联起来也是要自己搞,比如自己设置网络、设置挂载卷、设置多个容器间怎么相互访问等;

2.1 docker-compose 部署

2.1.1 安装

        其实这个部署按照streampark官网docker部署部分就可以了,地址:https://streampark.apache.org/zh-CN/docs/user-guide/docker-deployment(看着很简单,但是确实也就这么几步就可以了),这里我就简单总结一下我部署的过程:

        1.下载docker-compose.yaml和.env文件(这里我是下载沿用mysql的文件,但是官网给的地址访不了,就下载了h2的,然后自己把数据部分的数据类型改成了mysql,然后添加mysql的配置信息就可以了)

 或者直接一起git里面下载这两个文件都可以,反正最后把数据库连接类型改成mysql就行了

        2.命令docker-compse up -d  启动

        3.登录http://you_ip:10000访问web

2.1.2 关联flink

        在docker-compose.yaml文件中,有将一个flink挂载到/streampark/flink/flink1.xx.x的文件夹下面,这个时候你只需要加入web页面,在里面配置flink home地址就可以(这个地址就是/streampark/flink/flink1.xx.x这个)

2.1.3 关联hadoop

        docker-compse.yaml文件中,可以设置将你的hadoop挂载进容器中(这里我直接把这个hadoop挂载进去了,应该只需要hadoop的几个核心配置文件挂载进去就行,你们可以自行测试),然后在.env中设置好自己的HADOOP_HOME等地址即可

2.1.4 关联k8s

        将k8s证书放到宿主机/root/.kube下,最终该目录会被挂载到streampark容器中

2.1.5 最终docker-compose.yaml和.env文件

        docker-compose.yaml:

version: '3.8'
services:
  streampark-console:
    image: apache/streampark:release-2.1.1
    command: ${RUN_COMMAND}
    ports:
      - 10000:10000
    env_file: .env
    volumes:
      - flink:/streampark/flink/${FLINK}
      - /var/run/docker.sock:/var/run/docker.sock
      - /etc/hosts:/etc/hosts:ro
      - /root/.kube:/root/.kube:ro 
      - /usr/local/hadoop-3.2.2:/usr/local/hadoop-3.2.2 #这里挂载自己的hadoop
# 下面的几个是为了数据持久化,也可以不挂载
      - /usr/local/streamx/opt/streampark_workspace:/opt/streampark_workspace 
      - /usr/local/streamx/logs:/streampark/logs
    privileged: true
    restart: unless-stopped
    networks:
      - streampark

  flink-jobmanager:
    image: ${FLINK_IMAGE}
    ports:
      - "8083:8081"
    command: jobmanager
    volumes:
      - flink:/opt/flink
    env_file: .env
    restart: unless-stopped
    privileged: true
    networks:
      - streampark

networks:
  streampark:
    driver: bridge

volumes:
  flink:

        .env:

TZ=Asia/Shanghai
HADOOP_HOME=/usr/local/hadoop-3.2.2
HADOOP_USER_NAME=root
HADOOP_CONF_DIR=/usr/local/hadoop-3.2.2/etc/hadoop


SPRING_PROFILES_ACTIVE=mysql     #h2 #mysql, pgsql

SPRING_DATASOURCE_URL=jdbc:mysql://you_mysql_url:3306/streampark?useSSL=false&useUnicode=true&characterEncoding=UTF-8&allowPublicKeyRetrieval=false&useJDBCCompliantTimezoneShift=true&useLegacyDatetimeCode=false&serverTimezone=GMT%2B8
SPRING_DATASOURCE_USERNAME=root
SPRING_DATASOURCE_PASSWORD=root


FLINK=flink1.14.5
FLINK_IMAGE=flink:1.14.5-scala_2.12

RUN_COMMAND='/bin/sh -c "wget -P lib https://repo1.maven.org/maven2/com/mysql/mysql-connector-j/8.0.31/mysql-connector-j-8.0.31.jar && bash bin/streampark.sh start_docker "'

JOB_MANAGER_RPC_ADDRESS=flink-jobmanager

2.2 docker部署

        docker中要考虑怎么让flink和streampark关联起来(因为在streampark上报任务的时候是需要使用flnk提交任务,所以必须要有一个可以用的flink客户端),最终发现只需要将flink挂载到streampark中即可,然后设置FLINK_HOME指向这个flink目录即可;因为产线上没有用flink on yarn(之前的所有flink on yarn的任务都改成了flink on k8s模式跑),所以没有去弄hadoop,这里如果需要可以自行尝试(大概率也是挂载hadoop进去,然后指定HADOOP_HOME地址)

2.1.1 制作docker镜像

        根据docker-compose.yaml、.env文件改成docker时候,

        (1)docker-compose中的挂载的文件自己考虑哪些需要直接放到镜像中的就继续放进去,比如flink就必须要,hadoop看情况要,k8s证书、k8s的守护进程文件要也是看情况要(如果用到了k8s,就必须要),hosts也是看情况;

        (2).env中设置的就是一些环境变量和启动命令,所以环境变量的话,在启动最后的docker镜像的时候,通过 ‘-e {key}={value}’格式来设置环境变量就可以,这样也方便点;启动命令就写在dockerfile里面就可以了

        最后的dockerfile:

FROM apache/streampark:release-2.1.1

# 设置环境变量
ENV TZ Asia/Shanghai

# 拷贝相关文件和目录
RUN mkdir -p /streampark/flink/flink1.14.5
COPY ./flinkall/flink1.14.5/ /streampark/flink/flink1.14.5

# 下载MySQL Connector/J
RUN wget -P lib https://repo1.maven.org/maven2/com/mysql/mysql-connector-j/8.0.31/mysql-connector-j-8.0.31.jar

# 暴露端口
EXPOSE 10000
      
# 启动命令
CMD /bin/sh -c "bash bin/streampark.sh start_docker"

        然后执行命令:docker build -t  {image_name}:{tag} .

 三、启动

        docker-compose直接用docker-compose up -d启动就可以了

        自己创建的docker镜像启动的话,需要看情况添加环境变量,下面是我当时启动的命令:

docker run -it --name mystreamparktcp04 \
-p 10000:10000 \
-e FLINK_HOME=/streampark/flink/flink1.14.5 \
-e SPRING_PROFILES_ACTIVE=mysql \
-e SPRING_DATASOURCE_URL=jdbc:mysql://10.21.47.146:3306/streampark \
-e SPRING_DATASOURCE_USERNAME=root \
-e SPRING_DATASOURCE_PASSWORD=Mindlinker@2022 \
-e DOCKER_HOST=tcp://10.23.7.105:2375 \ #这个环境变量可以用tcp来连接远程的docker(我的streampark最后是在k8s上跑的,本地没有可以用的docker)
mystreampark:2.1.1 bash

到这里,都去启动后就可以登录web端使用了

地址:ip:10000

默认账号密码:admin  : streampark

遇到的问题

        问题1: 启动后,访问web的时候,一只是空白的,或者一直在页面转圈,但是启动日志没有什么报错

                原因:浏览器问题

                解决:换浏览器,google也可以用无痕页面来访问

        问题2: 更新streampark后,启动各种报错(当时没截图)

                原因:1.可能是数据库没更新

                           2. streampark的启动命令变了

                解决:1. 去找到数据库更新脚本,挨个执行即可(脚本路径可以在官网找到,或者社区群问大佬)

                           2. 如果只是在docker-compose文件中改了基础镜像升级的,.env中的启动命令也去检查一下,我之前从2.0.0升级到2.1.0的时候报错,后来发现是启动命令变了

              

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值