大数据框架使用文档_创建topic需要开启hadoop吗-CSDN博客

本文链接：https://blog.csdn.net/weixin_52731998/article/details/124085201

文章目录

关于mysql
- - - 开启/关闭/重启数据库
    - 登录数据库
关于hadoop
关于Redis
- - - 启动/停止/重启 systemctl start/stop/restart redis
    - 开机自启 systemctl enable redis
关于Hive
- - - 登录hive
    - 开启元服务
关于HBase
关于zookeeper
关于kafka
关于Spark
关于Flink
常见进程
关于FineBI
- - - 在虚拟机中启动FineBI
    - 在web端查看： http://IP:37799/webroot/decision

关于mysql

开启/关闭/重启数据库

命令：service mysqld start/stop/restart

登录数据库

命令：mysql –u用户名 –p密码

关于hadoop

启动进程

第一种：全部启动集群所有进程

启动：sbin/start-all.sh
停止：sbin/stop-all.sh

第二种：单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程

启动：sbin/start-dfs.sh sbin/start-yarn.sh
停止：sbin/stop-dfs.sh sbin/stop-yarn.sh
每次重新启动集群的时候使用

第三种：单独启动某一个进程

启动hdfs：sbin/hadoop-daemon.sh start (namenode | datanode)
停止hdfs：sbin/hadoop-daemon.sh stop (namenode | datanode)
启动yarn：sbin/yarn-daemon.sh start (resourcemanager | nodemanager)
停止yarn：sbin/yarn-daemon.sh stop(resourcemanager | nodemanager)
用于当某个进程启动失败或者异常down掉的时候，重启进程

访问hdfs的web界面 http://master:50070

访问yarn的web界面 http://master:8088

hdfs – HA

启动zookeeper 三台都需要启动

命令：zkServer.sh start
启动JN 存储hdfs元数据

三台JN上执行

启动命令： /usr/local/soft/hadoop-2.7.6/sbin/hadoop-daemon.sh start journalnode关于Hive
格式化在一台NN上执行，这里选择master
hdfs namenode -format
启动当前的NN
hadoop-daemon.sh start namenode
执行同步没有格式化的NN上执行在另外一个namenode上面执行这里选择node1
/usr/local/soft/hadoop-2.7.6/bin/hdfs namenode -bootstrapStandby
格式化ZK 在master上面执行
！！一定要先把zk集群正常启动起来
/usr/local/soft/hadoop-2.7.6/bin/hdfs zkfc -formatZK
启动hdfs集群,在master上执行
start-dfs.sh

yarn – HA

启动yarn 在master启动
命令：start-yarn.sh
在node1上启动另一个RM
命令：/usr/local/soft/hadoop-2.7.6/sbin/yarn-daemon.sh start resourcemanager

master:8088
node1:8088

关于Redis

启动/停止/重启 systemctl start/stop/restart redis

开机自启 systemctl enable redis

关于Hive

登录hive

命令：hive

开启元服务

命令：nohup hive --service metastore &

关于HBase

启动hbase之前先启动zk,每一台服务器都要启动

命令：zkServer.sh start

再启动hbase集群

start-hbase.sh

进行hbase命令行

命令：hbase shell

访问web界面：http://master:16010

关于zookeeper

启动/停止zk，所有节点都要执行

通过jps可以查看zk的进程：QuorumPeerMain

当有一个leader的时候启动成功

命令：zkServer.sh start/stop

查看状态

命令：zkServer.sh status

连接zk

zk 是一个目录结构，每个节点可以存数据，同时可以有子节点

命令：zkCli.sh

关于kafka

1、启动kafka之前先启动zk，需要在所有节点启动

命令：zkServer.sh start

2、在每台节点启动broker，kafka是去中心化的架构

-daemon 后台启动需要在所有节点启动

命令：kafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.properties

注意：后面的路径是指定配置时的配置文件

3、kafka不依赖hadoop，所以不需要启动hadoop

4、kafka的使用

1、创建topic

–replication-factor —每一个分区的副本数量
–partition --分区数，根据数据量设置

kafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3 --topic test_topic2

2、查看topic描述信息
kafka-topics.sh --describe --zookeeper master:2181 --topic test_topic1

3、获取所有topic
kafka-topics.sh --list --zookeeper master:2181

4、创建控制台生产者
kafka-console-producer.sh --broker-list master:9092 --topic test_topic1

5、创建控制台消费者 --from-beginning 从头消费，，如果不在执行消费的新的数据
kafka-console-consumer.sh --bootstrap-server master:9092 --from-beginning --topic student3

关于Spark

集群模式

启动集群，在master中执行

命令：./sbin/start-all.sh

访问web界面 http://master:8080

提交任务

1、standalone client模式日志在本地输出，一般用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

命令：spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

2、standalone cluster模式上线使用，不会再本地打印日志

命令：spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512M --total-executor-cores 1 --deploy-mode cluster spark-examples_2.11-2.4.5.jar 100

整合yarn模式：在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架

1、停止Spark集群，并且配置文件需要重新配置

2、启动yarn

命令：start-yarn.sh

3、spark on yarn client模式日志在本地输出，一般用于上线前测试

命令：spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100

4、4.spark on yarn cluster模式上线使用，不会再本地打印日志减少io

命令：spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100