- 博客(14)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 shell定期删除hdfs上的过期文件
#!/bin/bashexport JAVA_HOME=/opt/jdk#HADOOP所在的bin目录HADOOP_BIN_PATH=/opt/hadoop/bin#当前时间戳today_timestamp=(date−d"(date -d "(date−d"(date +"%Y-%m-%d %H:%M")" +%s)#Func: 删除指定时间之前的过期,这里设置的是1天前removeOutDate(){HADOOPBINPATH/hdfsdfs−ls/data/∗>temp.txtc
2021-01-29 10:48:17 582 1
原创 CDH 组件参数调优
1 集群参考1.1 集群服务1.2 Cloudera Management服务选项配置值Activity MonitorJava Heap Size2GAlert PublisherJava Heap Size2GEvent ServerJava Heap Size2GHost MonitorJava Heap Size4GService MonitorJava Heap Size4G1.3 Zookeeper服务
2020-11-17 11:47:42 1718 1
原创 YARN资源调度策略
YARN资源调度策略YARN 资源调度器是直接从MR基础上修改而来,它提供了三种可用资源调度器 :FIFO Scheduler ,Capacity Scheduler,FairScheduler。一、调度原理1.1 FIFO SchedulerFIFO是Hadoop设计之初提供的一个最简单的调度机制: 即先来先服务。是最简单、也是默认的调度器。只有一个队列,所有用户共享。资源分配的过程也非常简单,先到先得,所以很容易出现一个用户占满集群所有资源的情况。可以设置ACL,但不能设置各个用户的优先级。优
2020-11-03 11:12:54 1181
原创 kafka动态权限认证(SASL SCRAM + ACL)
kafka动态权限认证(SASL SCRAM + ACL)创建三个测试用户bin/kafka-configs.sh --zookeeper 192.168.x.x:2181 --alter --add-config ‘SCRAM-SHA-256=[iterations=8192,password=admin],SCRAM-SHA-512=[password=admin]’ --entity-type users --entity-name adminPS:用户 admin 这里配置admin用户用于实
2020-10-19 13:35:28 3278 4
原创 hive批量导入导出建表语句
导出#!/bin/bash#数据库名称database=$1create_table_sql=$2#获取hive建表语句tables=$(hive -e "use $database ; show tables;" > table_names.txt)#指定hive建表所在的数据库echo "use $database ;" >> $database cat table_names.txt | while read eachline do hive -e
2020-07-10 16:14:52 1702
原创 CDH 6.2.0启用kerberos认证
1. 整体说明集群主机角色划分(cdh6.2.0(续))n76.aa-data.cn作为master节点,安装kerberos Server其他节点作为slave节点,安装kerberos client2. 安装 Kerberos在 n76.aa-data.cn上安装 krb5、krb5-server 和 krb5-client。yum install krb5-server -y#klist等命令找不大时执行下面安装yum install -y krb5-server krb5-works
2020-07-06 15:32:54 808
原创 spark读取mysql中文乱码问题
解决方案打开mysql控制台,输入如下代码:show variables like "%char%";输入一下代码进行修改:SET character_set_client = 'utf8';SET character_set_connection='utf8';SET character_set_server = 'utf8';SET character_set_results...
2020-06-29 15:59:28 734
原创 maven中scala去依赖打包插件
maven中scala去依赖打包插件<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration>
2020-06-29 14:39:20 1863
原创 win下Sparksql 无法获取文件权限问题
Caused by: java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hiveCaused by: java.lang.RuntimeException: Error while running command to get file permissi
2020-06-29 14:28:02 899
原创 Spark自定义聚合函数
Spark自定义聚合函数package com.offcn.sparkimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{DataType, StringType, StructField, StructType}class
2020-06-29 14:19:21 589
原创 SparkStreaming 消费Kafka中数据
SparkStreaming 消费Kafka中数据import java.text.{DateFormat, SimpleDateFormat}import java.util.Dateimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSessionimp
2020-06-29 14:15:52 259
原创 日志监控平台:flume-kafka-ELK
日志监控平台flume-kafka-logstash-elasticsearch-kibana一、部署环境Centosos7xJdk1.8二、安装教程2.1 flume安装下载地址:http://archive.apache.org/dist/flume/1.8.0/下载完后将tar包上载到linux /usr/local下上载完后,到/usr/local下解压tar包...
2020-05-06 17:16:33 1156
原创 cdh6.2离线安装(傻瓜式安装教程)
CDH6.2离线安装流程1 安装准备1.1 cdh6.2下载方式一:官网下载https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/都下载下来https://archive.cloudera.com/cdh6/6.2.0/parcels/只要el7.parcel 和 el7.parcel.sha1下载式二:...
2020-04-29 17:09:23 6456
TA创建的收藏夹 TA关注的收藏夹
TA关注的人