文章目录
关于mysql
开启/关闭/重启 数据库
命令:service mysqld start/stop/restart
登录数据库
命令:mysql –u用户名 –p密码
关于hadoop
启动进程
第一种:全部启动集群所有进程
启动:sbin/start-all.sh
停止:sbin/stop-all.sh
第二种:单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程
启动:sbin/start-dfs.sh sbin/start-yarn.sh
停止:sbin/stop-dfs.sh sbin/stop-yarn.sh
每次重新启动集群的时候使用
第三种:单独启动某一个进程
启动hdfs:sbin/hadoop-daemon.sh start (namenode | datanode)
停止hdfs:sbin/hadoop-daemon.sh stop (namenode | datanode)
启动yarn:sbin/yarn-daemon.sh start (resourcemanager | nodemanager)
停止yarn:sbin/yarn-daemon.sh stop(resourcemanager | nodemanager)
用于当某个进程启动失败或者异常down掉的时候,重启进程
访问hdfs的web界面 http://master:50070
访问yarn的web界面 http://master:8088
hdfs – HA
-
启动zookeeper 三台都需要启动
命令:zkServer.sh start
-
启动JN 存储hdfs元数据
三台JN上执行
启动命令: /usr/local/soft/hadoop-2.7.6/sbin/hadoop-daemon.sh start journalnode关于Hive
-
格式化 在一台NN上执行,这里选择master
hdfs namenode -format
启动当前的NN
hadoop-daemon.sh start namenode -
执行同步 没有格式化的NN上执行 在另外一个namenode上面执行 这里选择node1
/usr/local/soft/hadoop-2.7.6/bin/hdfs namenode -bootstrapStandby -
格式化ZK 在master上面执行
!!一定要先 把zk集群正常 启动起来
/usr/local/soft/hadoop-2.7.6/bin/hdfs zkfc -formatZK -
启动hdfs集群,在master上执行
start-dfs.sh
yarn – HA
-
启动yarn 在master启动
命令:start-yarn.sh -
在node1上启动另一个RM
命令:/usr/local/soft/hadoop-2.7.6/sbin/yarn-daemon.sh start resourcemanagermaster:8088
node1:8088
关于Redis
启动/停止/重启 systemctl start/stop/restart redis
开机自启 systemctl enable redis
关于Hive
登录hive
- 命令:hive
开启元服务
- 命令:nohup hive --service metastore &
关于HBase
启动hbase之前先启动zk,每一台服务器都要启动
- 命令:zkServer.sh start
再启动hbase集群
- start-hbase.sh
进行hbase命令行
- 命令:hbase shell
访问web界面:http://master:16010
关于zookeeper
启动/停止zk,所有节点都要执行
通过jps可以查看zk的进程:QuorumPeerMain
当有一个leader的时候启动成功
- 命令:zkServer.sh start/stop
查看状态
- 命令:zkServer.sh status
连接zk
zk 是一个目录结构 ,每个节点可以存数据,同时可以有子节点
- 命令:zkCli.sh
关于kafka
1、启动kafka之前先启动zk,需要在所有节点启动
- 命令:zkServer.sh start
2、在每台节点启动broker,kafka是去中心化的架构
-daemon 后台启动 需要在所有节点启动
- 命令:kafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.properties
注意:后面的路径是指定配置时的配置文件
3、kafka不依赖hadoop,所以不需要启动hadoop
4、kafka的使用
1、创建topic
–replication-factor —每一个分区的副本数量
–partition --分区数, 根据数据量设置
kafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3 --topic test_topic2
2、查看topic描述信息
kafka-topics.sh --describe --zookeeper master:2181 --topic test_topic1
3、获取所有topic
kafka-topics.sh --list --zookeeper master:2181
4、创建控制台生产者
kafka-console-producer.sh --broker-list master:9092 --topic test_topic1
5、创建控制台消费者 --from-beginning 从头消费,, 如果不在执行消费的新的数据
kafka-console-consumer.sh --bootstrap-server master:9092 --from-beginning --topic student3
关于Spark
集群模式
启动集群,在master中执行
- 命令:./sbin/start-all.sh
访问web界面 http://master:8080
提交任务
1、standalone client模式 日志在本地输出,一般用于上线前测试(bin/下执行)
需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars
- 命令:spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100
2、standalone cluster模式 上线使用,不会再本地打印日志
- 命令:spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512M --total-executor-cores 1 --deploy-mode cluster spark-examples_2.11-2.4.5.jar 100
整合yarn模式:在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架
1、停止Spark集群,并且配置文件需要重新配置
2、启动yarn
- 命令:start-yarn.sh
3、spark on yarn client模式 日志在本地输出,一般用于上线前测试
- 命令:spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100
4、4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
- 命令:spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100
5、获取yarn程序执行日志 执行成功之后才能获取到
- 命令:yarn logs -applicationId application_1560967444524_0003
访问hdfs的web页面:http://node1:50070
访问yarn的web页面:http://node1:8088
关于Flink
集群模式
启动集群
- 命令:start-cluster.sh
访问web界面 http://master:8081
提交任务—先将任务打包
- 在web页面提交任务
- 同flink命令提交任务
- 命令:flink run -c com.shujia.flink.soure.Demo4ReadKafka flink-1.0.jar
- rpc方式提交任务— 远程提交
flink on yarn 只需要部署一个节点,可以停掉独立集群
启动方式 yarn-session
在yarn里面启动一个flink集群 jobManager(ApplicationMaster),yarn-session是所有任务共享同一个jobmanager
先启动hadoop
- 命令:yarn-session.sh -jm 1024m -tm 1096m
提交任务
- 在web页面提交任务
- 同flink命令提交任务
- 命令:flink run -c com.shujia.flink.soure.Demo4ReadKafka flink-1.0.jar
- rpc方式提交任务
关闭 yarn-session
- 命令:yarn application -kill application_1647657435495_0000
直接提交任务到yarn 每一个任务都会有一个jobManager
yarn-session先在yarn中启动一个jobMansager ,所有的任务共享一个jobmanager (提交任务更快,任务之间共享jobmanager , 相互有影响)
直接提交任务模型,为每一个任务启动一个joibmanager (每一个任务独立jobmanager , 任务运行稳定)
- 命令: flink run -m yarn-cluster -yjm 1024m -ytm 1096m -c com.shujia.flink.core.Demo1WordCount flink-1.0.jar
杀掉yarn上的任务
- 命令:yarn application -kill application_1599820991153_0005
查看日志
- 命令:yarn logs -applicationId application_1647657435495_0002
常见进程
- YarnTaskExecutorRunner flink的taskmanager
- QuorumPeerMain zk的进程
- RunJar 可能是hive的元数据服务
- FlinkYarnSessionCli yarn-session的进程
- NameNode hdfs主节点
- DataNode hdfs从节点
- ResourceManager yarn主节点
- NodeManager yarn从节点
- CanalLauncher canal的进程
- YarnSessionClusterEntrypoint flink的jobmanager
- SqlClient flink sql的命令行
- Kafka kafka进程
- SecondaryNameNode hdfs合并元数据的进程
关于FineBI
在虚拟机中启动FineBI
进入到 /opt/FineBI5.1/bin 下
- 命令:./finebi