行走荷尔蒙-CSDN博客

原创 spark 操作map中执行self.方法报错

spark不允许在action或transformation中访问SparkContext，如果你的action或transformation中引用了self，那么spark会将整个对象进行序列化，并将其发到工作节点上，来确保每个执行任务的节点都能够访问到该方法以及它所依赖的类实例状态，但是序列化有一个限制，那就是不是所有的对象都可以被序列化。spark把对象序列化时这其中就保留了SparkContext，即使没有显式的访问它，它也会在闭包内被引用，所以会出错。在pyspark中调用类方法，报错。

2024-07-22 17:27:53 656

原创 SQL join和EXISTS效率

一般而言，如果内层查询（即满足特定条件的vid）返回的结果集较小，且外层表较大，EXISTS可能会更高效，因为它避免了不必要的全表扫描。相反，如果内层查询返回的结果集相对较大，而外层表较小，预先计算并JOIN去重结果集的方法可能会更优。实际效率还需根据具体的数据库系统优化器、索引策略、数据分布等因素来确定，建议在实际环境中进行性能测试来决定最佳方案。

2024-06-13 14:20:57 824

原创 dataworks调度参数

根据业务日期的系统内置参数$bizdate（昨天）获取以下时间周期的取值。比如每月1号任务，20240601号执行，配置参数${yyyyMM}，那么业务日期就是20240531,配置的参数为202405前/后N年 ${yyyy±N}前/后N月 ${yyyymm±N}前/后N周 ${yyyymmdd±7*N}前/后N天 ${yyyymmdd±N}年月日加/减N天 ${yyyymmdd±N}加/减N年（yyyy格式） ${yyyy±N}年。

2024-06-01 09:55:23 2753 1

原创 hive 数据类型坑

1.若执行sum，avg, count,函数则不用转为数字类型，hive会自动转成数字类型然后统计。2.若执行max,min 函数需要转成数字类型，不然hive统计出来不是最大最小值。3.若执行select string 和数字类型比较大小，需要有一边为数字类型。vid,dt,all_km均为string类型。

2023-11-30 17:24:57 534

原创 kafka配置SASL/PLAIN 安全认证

由上一步可发现，认证方式使用的是Kafka的认证类org.apache.kafka.common.security.plain.PlainLoginModule。网上的说法是 Client，是kafka作为用户使用zk的认证信息，这里的username和password一定要和zk_server_jaas.conf的配置对的上。user_kafka=“kafkapasswd"定义了一个用户"kafka”，密码是"kafkapasswd"，本次测试用户是kafka broker。在zkEnv.sh添加。

2023-08-29 18:24:43 3051 1

原创 Spark2.2出现异常：ERROR SparkUI: Failed to bind SparkUI

Consider explicitly setting the appropriate port for the service ‘SparkUI’ (for example spark.ui.port for SparkUI) to an available port or increasing spark.port.maxRetries.初始化SparkConf时，添加conf.set(“spark.port.maxRetries”,“100”)语句；16次重试都失败后，会放弃该任务的运行。

2023-08-11 14:39:01 1144

原创 linux检测服务端口连通性四种方法

telnet是linux最常用的测试端口工具，默认一般都自带。用法为 telnet ip prot，如下表示端口连接成功。，如下表示端口连接成功，另：nc还可以模拟监听端口，nc -lk port。nc是linux常用的测试端口工具，默认一般都自带。wget是linux下的下载工具，需要先安装。，如下表示端口连接成功。,如下表示成功和失败。

2023-07-04 16:58:10 4003

原创 spark 读写数据

对于基本文件的数据源，例如 text、parquet、json 等，您可以通过 path 选项指定自定义表路径，例如 df.write.option(“path”, “/some/path”).saveAsTable(“t”)。与 createOrReplaceTempView 命令不同， saveAsTable 将实现 DataFrame 的内容，并创建一个指向Hive metastore 中的数据的指针。相反， bucketBy将数据分布在固定数量的桶中，并且可以在唯一值的数量不受限制时使用。

2023-04-13 11:03:44 1770

原创 sql多表关联查询使用JOIN..ON与where的优化场景

逻辑查询处理阶段简介FROM：对FROM子句中的前两个表执行笛卡尔积（Cartesian product)(交叉联接），生成虚拟表VT1ON：对VT1应用ON筛选器。只有那些使为真的行才被插入VT2。

2023-03-17 17:39:36 2235

原创 hadoop 读取orc文件和读取lzo文件

测试结果：”org.apache.hadoop.hive.ql.io.orc.OrcInputFormat” 性能高于 “org.apache.orc.mapred.OrcInputFormat”Hadoop jar提交参数。

2023-03-08 16:39:59 1204

原创 hive窗口函数计算累加值

rows是物理窗口，是哪一行就是哪一行，与当前行的值（order by key的key的值）无关，只与排序后的行号相关，就是我们常规理解的那样。range是逻辑窗口，与当前行的值有关（order by key的key的值）,在key上操作range范围。简要：如果当前行的值有重复的，range会默认把重复的值加一块，rows是按照行号来，是哪一行就是哪一行不加行号默认是按照range，id都为1的话，会把1的加一块

2023-02-14 16:02:25 2080

原创 spark---dataFrame保存成表和csv文件

【代码】spark---dataFrame保存成表和csv文件。

2022-12-29 17:03:31 1459

原创 hive 比大小误区

select ‘数字字符串’ > 100 （>后面必须跟数值，不能跟’100’ ，这样就是比较字符大小了）hive 表中如果字段类型为string类型。就可以select 9

2022-12-27 15:54:24 893

原创 java日志

lombok + logbok首先应该安装lombok插件引入jar包 <dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.18.12</version> </dependency>

2022-05-20 14:18:26 223

原创 shell 脚本

示例#!/bin/bashBEGIN_DATE="20220221"END_DATE="20220227"_log() { ts=$(date "+%Y-%m-%d %H:%M:%S") echo "${ts} $@"}info_log() { _log "[INFO]" $@}warn_log() { _log "[WAR...

2022-05-18 01:00:58 154

原创 java 执行jar包命令

不依赖外部jar包执行java -cp xxx.jar xxx.xxxx.xxxx.MainClass 参数一，参数二依赖外部jar包当main类依赖多个jar时，可以把多个jar打包到一个目录，然后用-Djava.ext.dirs指定该目录，引用依赖的多个jar。java -Djava.ext.dirs=/mnt/disk1/business_ads/gu...

2022-04-24 17:56:56 1231

原创 hive-参数调优

set hive.vectorized.execution.enabled=false; set mapreduce.map.speculative=false; set mapreduce.reduce.speculative=false; use ads_chpp_dev; set mapreduce.job.queuename=badm; ...

2022-04-19 05:08:52 2771

原创表整理归总

表车辆车辆运营车辆入网统计-日更 ads_bigdata.vehicle_enter_net_online_result函数add jar hdfs://emr-cluster/user/badm/open/open-dencry-1.0-SNAPSHOT.jar;create temporary function my_DecryUDF as ...

2022-04-15 07:35:36 250

原创 vim 操作

将多行合并为一行文本内容：$cat test.txt0010020030040050060000999需要格式化成：001 002 003 004 005 006 0000999使用paste命令格式化打印，-d指定分隔符，-s表示合并成一行：paste -d" " -s - < test.txtlinux在文件末尾追加字符串,L...

2022-04-12 12:54:10 348

原创 es --- java操作

查询操作 SearchRequest用于与搜索文档、聚合、定制查询有关的任何操作，还提供了在查询结果的基于上，对于匹配的关键词进行突出显示的方法构建对象1，首先创建搜索请求对象：SearchRequest searchRequest = new SearchRequest();2，对搜索请求进行基本参数设置1)设置查询指定的某个文档库：Search...

2022-03-18 07:25:46 1287

原创 java es操作

es之java各种查询操作matchAllQuery 匹配所有文档queryStringQuery 基于Lucene的字段检索wildcardQuery 通配符查询匹配多个字符，?匹配1个字符*termQuery 词条查询matchQuery 字段查询idsQuery 标识符查询fuzzyQuery 文档相似度查询inc...

2022-03-18 01:02:55 381

原创 shell脚本修改换行符

windows传文件之后会有换行符问题输入:sed -i 's/\r//' 文件名

2022-03-15 06:38:55 961

原创 ES------索引别名

别名解决的问题在运行的集群中可以从一个索引切换到另一个索引可以给多个索引进行分组可以与路由搭配使用别名的相关操作准备数据阶段PUT l1/doc/1{ "title":"我想要睡你"}PUT l2/doc/1{ "title":"你却拿我当兄弟"}PUT l3/doc/1{ "title":"不过，我不介意"}注意：...

2021-12-17 04:02:20 919

原创 es curl 命令接口

查看ES所有nodecurl -i -XGET 'http://10.60.32.243:9750/_cat/nodes?v&pretty'查看所有索引curl -i -XGET 'http://10.60.32.243:9750/_cat/indices?v&pretty'查看所有索引模板curl -i -XGET 'http://10...

2021-12-09 01:01:29 266

原创 spark中读取路径下的多个文件（spark textFile读取多个文件）

1.spark textFile读取File1.1 简单读取文件val spark = SparkSession.builder() .appName("demo") .master("local[3]") .getOrCreate()// 读取hdfs文件目录spark.sparkContext.textFile("/user/...

2021-11-15 13:32:56 1643

原创 Hadoop之HDFS的FileSystem接口

Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中操作包括：打开文件，读写文件，删除文件具体方法实现1、publicboolean mkdirs(Path f) throws IOException一...

2021-11-05 11:33:07 583

原创 flatMap 和 Map区别

mapmap算子对一个DataStream中的每个元素使用用户自定义的map函数进行处理，每个输入元素对应一个输出元素，最终整个数据流被转换成一个新的DataStream。输出的数据流DataStream[OUT]类型可能和输入的数据流DataStream[IN]不同。flatMapflatMap算子和map有些相似，输入都是数据流中的每个元素，与之不同的是...

2021-11-02 14:47:41 2331

原创 HIVE---sql相关命令

创建表命令如何将数据导入到hive中可以通过多种方式将数据导入hive表1、hdfs建立表注意：加EXTERNAL建立的是外部表，删除表的数据，hdfs上的文件还是会保留，不加建立的是内部表，删除表的数据，hdfs上的文件也会删除CREATE EXTERNAL TABLE ：建立外部表create table:建立内部表use ads_ggjs;...

2021-10-30 06:23:48 352

原创 linux 发送邮件命令

echo "TEST " | mail -s"magang-two" -a car_20211029.txt</home/common_teq/commontask/chpp_spark/car_portrait/doc_text guoxinqing@sinoiov.com

2021-10-29 07:29:47 175

原创 spark提交任务命令

Spark submitspark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。spark 提交到 yarn 执行的例子如下。spark-submit --master yarn --executor-memory 20G --executor-cores 2 --driver-memory...

2021-10-21 05:38:52 4369

原创 RDD和DataFrame转换（Java+Scala）

一：RDD与DataFrame转换通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的，例如Person，而Person有name,id等，而record是不知道这些的，但是变成DataFrame背后一定知道，通过反射的方式就可以了解到背后这些元数据，进而转换成DataFrame。如何反射？Scala: 通过case class...

2021-10-20 17:09:29 1560

原创 SparkSeesion

https://www.cnblogs.com/yanshw/p/11975572.html

2021-10-20 12:12:07 113

原创 java RDD操作

spark学习(六)Java版RDD基本的基本操作1.map算子private static void map() {//创建SparkConfSparkConf conf = new SparkConf().setAppName("map").setMaster("local"); //创建JavasparkContext JavaS...

2021-10-20 01:20:30 951

原创 jts学习——com.vividsolutions.jts.geom包

介绍jts是一个为GIS服务提供的api，内部可以用坐标点构建空间模型，判断模型之间的关系等CoordinateJTS内部封装的一个坐标类Coordinate(坐标)是用来存储坐标的轻便的类。它不同于点，点是Geometry的子类。不像模范Point的对象(包含额外的信息，例如一个信包，一个精确度模型和空间参考系统信息)，Coordinate只包含纵座标值和...

2021-10-13 15:37:19 4623

原创【地理空间】Uber H3使用

h3简介H3把全球经纬度划分成了六边形格子，每个六边形格子都有一个ID,可以调用H3Core中的一系列方法获取到当前经纬度在哪一个格子。正六边形优点首先正六边形相邻单元距离相等，且近似圆，不仅自身近似圆形，贴合密度概念，很适合大多数的汇总分析场景，而且周围相近近似圆形且等距，方便附近查找，阶梯分析等等。全球怎么划分成正六边形h3分辨率对应表如何使用...

2021-10-13 09:00:41 2655

原创 NC工具

nc的使用方法netcat被誉为网络安全界的‘瑞士军刀’，相信没有什么人不认识它吧......一个简单而有用的工具，透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门工具，能够直接由其它程序和脚本轻松驱动。同时，它也是一个功能强大的网络调试和探测工具，能够建立你需要的几乎所有类型的网络连接，还有几个很有意思的内置功能(详情请看下面的使用方...

2021-10-08 00:00:14 1138

原创 redis操作命令集.

远程连接redis redis-cli -h host -p port -a password -c 备注：加-c作用是查询某一个key的时候，会自动找到某一个端口，不加的话必须指定特定端口才能找到指定的key.字符串操作设置key的值set key value获取指定key的值get key将给定 key 的值设为 value ，并返回 key 的...

2021-09-26 16:55:58 92

原创 pyspark-hive表操作

PySpark之选择特征select、筛选filter、聚合运算、group by、join table、inner join 、left join、right join、full outer join，如下所示：from __future__ import print_function, divisionfrom pyspark import SparkCo...

2021-09-24 03:43:39 458

原创静态资源无法访问问题

博客中修改发布的博客功能，要给后段返回一个id比如这种<a th:href="@{/up/{id}(id=${p.id})}" class="ui mini teal basic button">编辑</a>后端是这样写的这是访问静态资源路径就会编程localhost:8080/up/静态资源所以引入静态资源的时候需要是绝对路径要加static比如这种需要加上…/static才能访问，否则会报404找不到静态资源的错误这个问题tmd找了一整天，就是找不到，因为网

2021-03-28 19:49:57 770

转载 springboot打包 -- 项目JAR包和依赖JAR包分离_赵俊夫的博客-CSDN博客

https://blog.csdn.net/u011177064/article/details/104038302

2021-03-12 20:14:07 379

空空如也

空空如也