zuoseve01-CSDN博客

转载 Hadoop集群一般需要关注的几个重要指标

原文来自hackershell,转载请注明出处通用监控指标对于每个RPC服务应该监控RpcProcessingTimeAvgTime(PRC处理的平均时间)通常hdfs在异常任务突发大量访问时，这个参数会突然变得很大，导致其他用户访问hdfs时，会感觉到卡顿，从而影响任务的执行时间CallQueueLength(RPC Call队列的长度)如果callqueue队列数值一直处于较高的水平，例如对于NN来说CallQueue的长度等于handler*100，也就是说NN可能收到了大量的

2021-04-19 22:06:38 1055

转载一套很专业的监控方案：HDFS监控落地背后的思考

HDFS监控挑战 HDFS是Hadoop生态的一部分，监控方案不仅需适用HDFS，其他组件如Yarn、Hbase、Hive等，也需适用 HDFS API提供的指标较多，部分指标没必要实时采集，但故障时需能快速获取到 Hadoop相关组件的日志，比较重要，如问题定位、审计等监控方案不仅能满足监控本身，故障定位涉及指标也应覆盖 Hadoop监控方案Hadoop监控数据采集通过HTTP API，或者JMX。实际中，用到比较多的产品主要有：CDH、Am...

2021-04-19 22:04:04 645

转载 Hadoop NameNode 高可用 (High Availability) 实现解析

问题导读：1.怎样实现NameNode 主备切换？2.怎样实现NameNode 共享存储？3.NameNode 高可用运维中的注意事项有哪些？NameNode 高可用整体架构概述在 Hadoop 1.0 时代，Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题，这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息，一旦 NameNode 挂掉，整个 HDFS 就无法访问，..

2021-04-12 13:01:33 735

转载 MySQL JDBC 及其连接池--转载

JDBCJDBC，即Java数据库连接，是SUN公司推出的Java访问数据库的标准规范（接口）。1. JDBC是一种用于执行SQL语句的Java API。2. JDBC可以为多种关系数据库提供统一访问入口。3. JDBC是由一组Java工具类和接口组成。JDBC开发步骤1. 注册驱动。2. 获得连接。3. 获得语句执行者。4. 执行sql语句。5. 处理结果。6. 释放资源。1、导入jar包a、创建lib目录，用于存放当前项目需要的所有jar包b、选择jar包，右键执行 bu

2021-03-29 15:05:12 129

转载 Linux字符串截取和处理命令（cut、printf、awk、sed、sort、wc)

文章目录Linux字符串截取和处理命令（cut、printf、awk、sed、sort、wc）笔记1.cut 命令2. printf 命令3. awk 命令4. sed 命令5. sort 命令6. wc命令7.Linux字符串截取命令1.cut 命令cut [选项] 文件名-f 列号　　#提取第几列（分隔符默认为\t）-d 分隔符　　#指定分隔符12例如：cut -f 2 a.txt　　#截取文件a.txt内容的第二列（列号从1开始）　　　cut -f 2,4 a..

2021-03-25 18:31:41 1119

原创 hive 优化设置

#添加第三方jar包, 添加临时函数add jar ***.jar;#启动非严格模式，可以进行笛卡尔积连接（含非等值连接），order by不必接limit, 分区表查询where中不一定非要加分区字段set hive.mapred.mode =nonstrict;#MR框架配置set hive.execution.engine=mr; --设置执行引擎为mapreduceset mapreduce.framework.name=yarn; --设置框架为新的yarn框架#...

2021-03-04 16:11:35 492 1

转载 #!/bin/bash 和 #!/usr/bin/env bash 的区别

目录起因区别`#!/bin/bash``#!/usr/bin/env bash``#!/bin/bash` 和 `#!/usr/bin/env bash` 到底该用哪个`#!/usr/bin/env bash` 的优缺点`#!/bin/bash` 的优缺点到底用哪个参考资料起因为什么会想到写 #!/bin/bash 和 #!/usr/bin/env bash 的区别呢？还要从一次装插件的过程说起。由于刚开始接触 Shell Script 不久，对一些语法用法等还不是很熟悉，所以，当时

2021-03-04 15:32:42 1098 1

转载详解shell中source、sh、bash、./执行脚本的区别

1、source命令用法：　　source FileName　　作用:在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限" 注：该命令通常用命令“.”来替代。如：source .bash_profile . .bash_profile两者等效。 source(或点)命令通常用于重新执行刚修改的初始化文档。 source命令(从 C Shell 而来)是bash shell的内置命令。点...

2021-03-04 13:44:32 530 1

转载 shell中如何判断一个变量是否为空

1.变量通过" "引号引起来 1 2 3 4 5 6 7 #!/bin/sh para1= if [ ! -n "$para1" ]; then echo "IS NULL" else echo "NOT NULL" fi 【输出结果】"IS NULL"2.直接通过变量判断 1 2 3 4 5 6 7...

2021-03-04 11:01:11 3046 1

转载 hive数据清洗过程csv表格字段出现分割符逗号的解决方案--转载

在创建表进行数据清洗的过程中 csv表格字段中可能存在csv表格的分割符号，如图此时如果还是按照原来的写法：%hivecreate external table if not exists ext_transaction_details(transaction_id string,customer_id string,store_id string,price string,product string,`date` string,time string)row format

2021-03-02 19:33:56 1044

转载真正让你明白Hive参数调优系列1：控制map个数与性能调优参数--转载

1.Hive有哪些参数，如何查看这些参数Hive自带的配置属性列表封装在HiveConfJava类中，因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性有上千个吧，一般Hive的自带属性都是以hive.开头的，每个属性且自带详细的描述信息，其次Hive官网也有，但是属性不是特别全。Hive官方参数网址Hive除了自身带了一些配置属性，因为其底层使用的是hadoop(HDFS,MR,YARN),所以有些HAD

2021-02-28 22:10:51 430

转载 HBase-GC性能优化

1 JVM调优1.1 堆内存默RegionServer的堆内存为1G，这里Memstore默认站40%，也就是400M，在实际场景中很容易因为Memstore太小导致阻塞，修改参数,在cong/hbase-env.sh：export HBASE_HEAPSIZE=8G该参数会将Master和RegionServer的堆内存都设置为8G，所以有需要的话尽量使用专用的堆内存设置项：export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -Xms4g -

2021-02-24 15:13:52 575

转载 Spark3-AQE-数据倾斜Join优化

Adaptive Query Exection(自适应查询计划)简称AQE，在最早在spark 1.6版本就已经有了AQE;到了spark 2.x版本，intel大数据团队进行了相应的原型开发和实践；到了spark 3.0时代，AQE终于面向用户可以使用了注：以下代码分析基于Spark3.0.1版本1 Join的自适应数据倾斜处理代码位于sql.core模块的org.apache.spark.sql.execution.adaptive.OptimizeSkewedJoin主要原理就是基.

2021-02-24 15:09:37 1276

转载 Hive调优-01

Hive调优前言 1.数据的压缩与存储格式 2.合理利用分区分桶 3.hive参数优化 4.sql优化 4.1 where条件优化 4.2 union优化 4.3 count distinct优化 4.4 用in 来代替join 4.5 优化子查询 4.6 join 优化 5.数据倾斜 5.1 sql本身导致的倾斜 5.2 业务数据本身的特性(存在热点key) 5.3 开启数据倾斜时负载均衡 5.4 控制空值分布 6.合并小文件 7.查看

2021-02-22 14:58:41 102

转载 shell判断给定日期是否是周末or月末

一、shell 判断某日期是否是周日1、shell 判断某日期是周几通过date命令获取，获取结果：0为星期日，1-6为星期一至星期六。 date +%w 取得当天是星期几 date -d 20120311 +%w 取得2012年3月11日是星期几date -d 2012-03-11 +%w 取得2012年3月11日是星期几date -d $datebuf +%w 取得datebuf是星期几2、shell 判断某日期是否是周日########################

2021-02-04 16:23:49 2614

转载 0483-如何指定PySpark的Python运行环境

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github：https://github.com/fayson/cdhproject提示：代码块部分可以左右滑动查看噢1文档编写目的在使用PySpark进行开发时，由于不同的用户使用的Python环境不同，有基于Python2的开发也有基于Python3的开发，这个时候会开发的PySpark作业不能同时兼容Python2和Python3环境从而导致作业运行失败。那Fayson接下来.

2021-02-03 11:55:32 617

转载 sparksql读取parquet格式hive表的配置

使用sparksql访问几个hive表join的情况时结果为空，且这个sql在hive里执行是成功的。 val sparkSession = SparkSession .builder() .config("jars","lib/*") .appName("Spark Hive Example") .enableHiveSupport() .getOrCreate() sparkSession.sql("select t1.

2021-01-22 14:29:51 698

转载 PySpark︱DataFrame操作指南：增/删/改/查/合并/统计与数据处理

文章目录1、-------- 查 -------- --- 1.1 行元素查询操作 --- **像SQL那样打印列表前20元素** **以树的形式打印概要** **获取头几行到本地：** **查询总行数：** 取别名 **查询某列为null的行：** **输出list类型，list中每个元素是Row类：** 查询概况去重set操作随机抽样

2021-01-08 17:53:47 1526

转载 pyspark dataframe 字段类型转换 pandas和pyspark的dataframe互转

知识点：1、使用pyspark读取csv：spark.read.format("csv").load('/user/data.csv',header=True, inferSchema="true")2、dataframe补充空值：fillna()3、dataframe字段表示方式："APP_HOBY_CASH_LOAN"或df.APP_HOBY_CASH_LOAN或data_df["APP_HOBY_CASH_LOAN"]pysparkdataframe使用astype实现data..

2021-01-08 17:47:28 1471

转载 Spark(Hive) SQL数据类型使用详解(Python)

Spark SQL使用时需要有若干“表”的存在，这些“表”可以来自于Hive，也可以来自“临时表”。如果“表”来自于Hive，它的模式（列名、列类型等）在创建时已经确定，一般情况下我们直接通过Spark SQL分析表中的数据即可；如果“表”来自“临时表”，我们就需要考虑两个问题：（1）“临时表”的数据是哪来的？（2）“临时表”的模式是什么？通过Spark的官方文档可以了解到，生成一张“临时表”需要两个要素：（1）关联着数据的RDD；（2）数据模式；也就是说，我...

2021-01-05 14:04:02 780

转载 pyspark建立RDD以及读取文件成dataframe

（2）pyspark建立RDD以及读取文件成dataframe目录别人的相关代码文件：https://github.com/bryanyang0528/hellobi/tree/master/pysparkTop~~1、启动spark（1）SparkSession是 Spark SQL 的入口。（2）通过SparkSession.builder来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。Builder 是 ...

2021-01-05 00:36:38 736

原创 hive中两种日期格式的转换

在解析埋点数据时会遇到两种不同的日期格式：yyyymmdd和yyyy-mm-dd，此类型之间的转换主要有两种思路：第一种方法：from_unixtime+unix_timestamp --20180905转成2018-09-05 select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd') from dw.ceshi_data --结果如下： 2018-09-05.

2020-12-31 16:15:07 5817

转载【hive】String to Date 转化大全

原文链接：http://bigdataprogrammers.com/string-date-conversion-hive/Input column name: dt (String).Replace dt with your column name.Input Format Code Output Format ddMMyyyy to_date(from_unixtime(UNIX_TIMESTAMP(dt,’ddMMyyyy’))) yyyy-MM-d.

2020-12-31 16:13:54 1861

转载 spark-core-转载

第1章 RDD 概念1.1 RDD 为什么会产生 RDD：Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石，是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢？ Hadoop 的 MapReduce 是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备。数据更多面临的是一次性处理。 MR 的这种方式对数据领域两种常见的操作不是很高效。第一种是迭

2020-09-18 15:21:34 224

原创关于RDD的打印输出 collect 和 foreach print

Printing elements of an RDDAnother common idiom is attempting to print out the elements of an RDD using rdd.foreach(println) or rdd.map(println). On a single machine, this will generate the expected output and print all the RDD’s elements. However, in cl

2020-09-18 11:12:35 749

MobaXterm_Portable_v20.2.zip.7z

Cloudera_HiveJDBC_2.5.4.1006-hive.zip.7z

空空如也