大数据框架使用文档

文章目录

关于mysql

开启/关闭/重启 数据库

命令:service mysqld start/stop/restart

登录数据库

命令:mysql –u用户名 –p密码

关于hadoop

启动进程

第一种:全部启动集群所有进程

启动:sbin/start-all.sh
停止:sbin/stop-all.sh

第二种:单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程

启动:sbin/start-dfs.sh sbin/start-yarn.sh
停止:sbin/stop-dfs.sh sbin/stop-yarn.sh
每次重新启动集群的时候使用

第三种:单独启动某一个进程

启动hdfs:sbin/hadoop-daemon.sh start (namenode | datanode)
停止hdfs:sbin/hadoop-daemon.sh stop (namenode | datanode)
启动yarn:sbin/yarn-daemon.sh start (resourcemanager | nodemanager)
停止yarn:sbin/yarn-daemon.sh stop(resourcemanager | nodemanager)
用于当某个进程启动失败或者异常down掉的时候,重启进程

访问hdfs的web界面 http://master:50070
访问yarn的web界面 http://master:8088

hdfs – HA

  1. 启动zookeeper 三台都需要启动

    命令:zkServer.sh start

  2. 启动JN 存储hdfs元数据

    三台JN上执行

    启动命令: /usr/local/soft/hadoop-2.7.6/sbin/hadoop-daemon.sh start journalnode关于Hive

  3. 格式化 在一台NN上执行,这里选择master
    hdfs namenode -format
    启动当前的NN
    hadoop-daemon.sh start namenode

  4. 执行同步 没有格式化的NN上执行 在另外一个namenode上面执行 这里选择node1
    /usr/local/soft/hadoop-2.7.6/bin/hdfs namenode -bootstrapStandby

  5. 格式化ZK 在master上面执行
    !!一定要先 把zk集群正常 启动起来
    /usr/local/soft/hadoop-2.7.6/bin/hdfs zkfc -formatZK

  6. 启动hdfs集群,在master上执行
    start-dfs.sh

yarn – HA

  1. 启动yarn 在master启动
    命令:start-yarn.sh

  2. 在node1上启动另一个RM
    命令:/usr/local/soft/hadoop-2.7.6/sbin/yarn-daemon.sh start resourcemanager

    master:8088
    node1:8088

关于Redis

启动/停止/重启 systemctl start/stop/restart redis
开机自启 systemctl enable redis

关于Hive

登录hive
  • 命令:hive
开启元服务
  • 命令:nohup hive --service metastore &

关于HBase

启动hbase之前先启动zk,每一台服务器都要启动
  • 命令:zkServer.sh start
再启动hbase集群
  • start-hbase.sh
进行hbase命令行
  • 命令:hbase shell
访问web界面:http://master:16010

关于zookeeper

启动/停止zk,所有节点都要执行

通过jps可以查看zk的进程:QuorumPeerMain

当有一个leader的时候启动成功

  • 命令:zkServer.sh start/stop
查看状态
  • 命令:zkServer.sh status
连接zk

zk 是一个目录结构 ,每个节点可以存数据,同时可以有子节点

  • 命令:zkCli.sh

关于kafka

1、启动kafka之前先启动zk,需要在所有节点启动
  • 命令:zkServer.sh start
2、在每台节点启动broker,kafka是去中心化的架构

-daemon 后台启动 需要在所有节点启动

  • 命令:kafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.properties

注意:后面的路径是指定配置时的配置文件

3、kafka不依赖hadoop,所以不需要启动hadoop
4、kafka的使用

1、创建topic

–replication-factor —每一个分区的副本数量
–partition --分区数, 根据数据量设置

kafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3 --topic test_topic2

2、查看topic描述信息
kafka-topics.sh --describe --zookeeper master:2181 --topic test_topic1

3、获取所有topic
kafka-topics.sh --list --zookeeper master:2181

4、创建控制台生产者
kafka-console-producer.sh --broker-list master:9092 --topic test_topic1

5、创建控制台消费者 --from-beginning 从头消费,, 如果不在执行消费的新的数据
kafka-console-consumer.sh --bootstrap-server master:9092 --from-beginning --topic student3

关于Spark

集群模式

启动集群,在master中执行
  • 命令:./sbin/start-all.sh
访问web界面 http://master:8080
提交任务
1、standalone client模式 日志在本地输出,一般用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100
2、standalone cluster模式 上线使用,不会再本地打印日志
  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512M --total-executor-cores 1 --deploy-mode cluster spark-examples_2.11-2.4.5.jar 100

整合yarn模式:在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架

1、停止Spark集群,并且配置文件需要重新配置
2、启动yarn
  • 命令:start-yarn.sh
3、spark on yarn client模式 日志在本地输出,一般用于上线前测试
  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100
4、4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100
5、获取yarn程序执行日志 执行成功之后才能获取到
  • 命令:yarn logs -applicationId application_1560967444524_0003
访问hdfs的web页面:http://node1:50070
访问yarn的web页面:http://node1:8088

关于Flink

集群模式

启动集群
  • 命令:start-cluster.sh
访问web界面 http://master:8081
提交任务—先将任务打包
  1. 在web页面提交任务
  2. 同flink命令提交任务
    • 命令:flink run -c com.shujia.flink.soure.Demo4ReadKafka flink-1.0.jar
  3. rpc方式提交任务— 远程提交

flink on yarn 只需要部署一个节点,可以停掉独立集群

启动方式 yarn-session

在yarn里面启动一个flink集群 jobManager(ApplicationMaster),yarn-session是所有任务共享同一个jobmanager
先启动hadoop

  • 命令:yarn-session.sh -jm 1024m -tm 1096m
提交任务
  1. 在web页面提交任务
  2. 同flink命令提交任务
    • 命令:flink run -c com.shujia.flink.soure.Demo4ReadKafka flink-1.0.jar
  3. rpc方式提交任务
关闭 yarn-session
  • 命令:yarn application -kill application_1647657435495_0000

直接提交任务到yarn 每一个任务都会有一个jobManager

yarn-session先在yarn中启动一个jobMansager ,所有的任务共享一个jobmanager (提交任务更快,任务之间共享jobmanager , 相互有影响)
直接提交任务模型,为每一个任务启动一个joibmanager (每一个任务独立jobmanager , 任务运行稳定)

  • 命令: flink run -m yarn-cluster -yjm 1024m -ytm 1096m -c com.shujia.flink.core.Demo1WordCount flink-1.0.jar
杀掉yarn上的任务
  • 命令:yarn application -kill application_1599820991153_0005
查看日志
  • 命令:yarn logs -applicationId application_1647657435495_0002

常见进程

  • YarnTaskExecutorRunner flink的taskmanager
  • QuorumPeerMain zk的进程
  • RunJar 可能是hive的元数据服务
  • FlinkYarnSessionCli yarn-session的进程
  • NameNode hdfs主节点
  • DataNode hdfs从节点
  • ResourceManager yarn主节点
  • NodeManager yarn从节点
  • CanalLauncher canal的进程
  • YarnSessionClusterEntrypoint flink的jobmanager
  • SqlClient flink sql的命令行
  • Kafka kafka进程
  • SecondaryNameNode hdfs合并元数据的进程

关于FineBI

在虚拟机中启动FineBI

进入到 /opt/FineBI5.1/bin 下

  • 命令:./finebi
在web端查看: http://IP:37799/webroot/decision
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

被迫内卷的学习记录

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值