叹了口丶气
专注于大数据技术,Hadoop、HBase、Spark、Kafka、ZK、Flink、Alluxio等
展开
-
【Spark】yarn模式启动spark sql shell 带上自己想要的环境变量
【Spark】yarn模式启动spark sql shell 带上自己想要的环境变量原创 2024-07-17 18:08:03 · 18 阅读 · 0 评论 -
【Spark】一些简单的算子示例程序收藏
【Spark】一些简单的算子示例程序收藏原创 2023-11-25 20:52:42 · 39 阅读 · 0 评论 -
【Spark】.scala文件在IDEA中几种图标的解释
【Spark】.scala文件在IDEA中几种图标的解释原创 2022-06-25 09:29:09 · 1152 阅读 · 3 评论 -
【DolphinScheduler】一文初步了解DolphinScheduler
【DolphinScheduler】一文初步了解DolphinScheduler,参考自官方文档转载 2022-06-19 22:45:43 · 3751 阅读 · 2 评论 -
【Hive】解决sqoop从mysql数据库导入数据到hive报错Hive exited with status 64
【Hive】解决sqoop从mysql数据库导入数据到hive报错Hive exited with status 64原创 2022-06-15 18:25:09 · 1028 阅读 · 0 评论 -
【Hive】if函数用法
【Hive】if函数用法原创 2022-06-12 21:15:13 · 2386 阅读 · 0 评论 -
【Spark】Java API中的一些Function的说明
【Spark】Java API中的一些Function的说明原创 2022-06-08 22:54:17 · 237 阅读 · 0 评论 -
【MapReduce】一个完整MR程序案例教你如何用IDEA打包及运行
【MapReduce】一个完整MR程序案例教你如何用IDEA打包及运行原创 2022-06-07 14:27:00 · 564 阅读 · 0 评论 -
【Hive】时间函数unix_timestamp、current_timestamp、date_format、from_unixtime
【Hive】时间函数unix_timestamp、current_timestamp、date_format、from_unixtime原创 2022-05-27 11:04:35 · 2041 阅读 · 0 评论 -
【PySpark系列(五)】窗口Window定义、窗口函数超详细实例讲解
【PySpark系列(五)】窗口Window定义、窗口函数超详细实例讲解原创 2022-05-18 22:55:38 · 1487 阅读 · 0 评论 -
【PySpark系列(四)】SparkSQL中partition by和group by区别及使用
【PySpark系列(四)】SparkSQL中partition by和group by区别及使用原创 2022-05-18 11:16:10 · 1586 阅读 · 0 评论 -
【PySpark系列(一)】快速上手DataFrame
【PySpark系列(一)】快速上手DataFrame原创 2022-05-17 12:57:25 · 564 阅读 · 0 评论 -
【PySpark系列(二)】cogroup、applyInPandas、merge_asof实例讲解
【PySpark系列(二)】cogroup、applyInPandas、merge_asof实例讲解原创 2022-05-17 17:53:26 · 995 阅读 · 0 评论 -
【精】简述Alluxio load命令及原理
一、Load功能简述load 命令将底层文件系统(Under File System)中的数据载入到Alluxio中。如果运行该命令的机器上正在运行一个Alluxio worker,那么数据将移动到该worker上,否则,数据会被随机移动到一个worker上。 如果该文件已经存在在Alluxio中,设置了–local选项,并且有本地worker,则数据将移动到该worker上。 否则该命令不进行任何操作。如果该命令的目标是一个文件夹,那么其子文件和子文件夹会被递归载入。使用举例: ./bin/allu原创 2021-11-29 00:37:03 · 1474 阅读 · 0 评论 -
聊聊分布式存储系统中的心跳机制以及主节点下发指令给从节点
心跳( heartbeat )是分布式系统中常用的技术。顾名思义,心跳就是以固定的频率向其他节点汇报当前节点状态的方式。收到心跳,一般可以认为发送心跳的这个节点在当前的网络中状态是良好的。同时分布式存储系统中经常会采用master-slave架构(也即主从架构),从节点通常会使用心跳技术向主节点汇报自身的健康状况,或者其他请求,主节点处理接收到的心跳信息,并响应给从节点一些操作指令,从节点收到这些操作指令后,会进行相应的操作。今天这篇文章就来分析总结一下这个实现方案。一、 概述先总结一下如何基于心跳机原创 2021-11-28 00:20:02 · 2714 阅读 · 1 评论 -
protoc buffer 2.5.0和3.17.2版本无缝切换
#!/bin/bashexport CXXFLAGS="-I/usr/local/include" LDFLAGS="-L/usr/local/lib"PROTOBUF_VERSION=3.17.2curl -LO https://github.com/protocolbuffers/protobuf/releases/download/v$PROTOBUF_VERSION/protobuf-all-$PROTOBUF_VERSION.tar.gztar -xzf protobuf-all-$PRO原创 2021-11-24 11:16:30 · 882 阅读 · 0 评论 -
解决AlluxioProperties#merge方法的一个小并发问题
一、问题描述:使用测试工具对新开发的一个Alluxio功能进行读数据性能压测,启动了50线程进行并发读数据,结果客户端侧总是抛出找不到配置项的错误或者是配置项读取错乱的错误,类似如下:看到异常栈说没有给alluxio.ns1.zookeeper.enabled这个属性设置值,于是首先去检查配置文件中是否配置了alluxio.ns1.zookeeper.enabled这个属性,经检查配置文件没有问题,接着修改为单线程用shell脚本循环多此执行,发现不会报这个错误,所以可以初步判定是发生了线程并发修改问原创 2021-11-15 23:54:50 · 1166 阅读 · 0 评论