Harvester~-CSDN博客

原创 Dolphinscheduler 参数使用说明

【代码】Dolphinscheduler 参数使用说明。

2024-03-14 10:51:10 1442

HDFS 读写流程HDFS组成架构HDFS,是一个文件系统,用于存储文件,通弄个目录树来定位文件,(分布式的)HDFS的使用场景:适合一次写入,多次读的场景,且不支持文件的修改HDFS快的大小HDFS中文件物理上是分块存储(Block),块的大小可以通过(dfs.blocksize)来规定,默认大小Hadoop2.x版本128M,老版本中是64M思考:为什么块的大小不能设置太小,也不能设置太大1.HDFS的块设置太小,会增加(寻址)寻找的时间,程序一直在找块的开始位置2.如果太大,从磁盘传

2022-05-28 14:54:43 270

原创 MapReduce 理解

MapReduce 理解MapReduce原语句MapReduce原语：“相同”key的键值对为一组调用一次Reduce方法，方法内迭代这组数据进行计算。MapReduce 采用分治的思想 MapTask & ReduceTaskMapReduce的执行流程数据一般都是存放在HDFS上，MapReduce 计算框架第一步就是先通过InputFormat的子类将计算需要的数据进行分片（分片的方法式getSplits()），分片的数量决定了MapTask的数量Ps:并不是所有的文件都可

2022-05-26 17:59:05 540

原创 brew过慢

brew安装总是卡住问题brew install composer总是卡在brew install composer中解决方法平时我们执行 brew 命令安装软件的时候，跟以下 3 个仓库地址有关：brew.githomebrew-core.githomebrew-bottles通过以下操作将这 3 个仓库地址全部替换为 Alibaba 提供的地址替换 brew.git 仓库地址# 替换成阿里巴巴的 brew.git 仓库地址:cd "$(brew --repo)"git

2022-05-12 11:19:47 422

原创 Hive表的存储格式

Hive表的存储格式文件格式-概述Hive的文件格式-TextFileTextFile 是Hive中默认的文件格式存储形式为按行存储工作中最常见的数据文件格式就是TextFile，几乎所有的原始数据生成都是TextFile格式，所以HIve设计时考虑到为了避免各种编码以及数据错乱的问题选用TextFile为默认的格式建表时不指定格式即为TextFile 导入数据时把数据文件拷贝HDFS不做任何处理文件大小在hdfs和本地没有什么变化Hive的文件格式-SequenceFile

2022-05-11 15:18:15 2650

原创 Spark运行架构

Spark运行架构Spark 架构的核心是一个计算引擎，整体来说，它采用了标准的master-slave的结构Driver—>master Executor->slave核心组建Driver & Execute 计算Spark Driver驱动节点用于执行Spark任务重的main方法，负责实际代码的执行工作Driver 在Spark作业执行时主要负责1.将用户程序转化为作业job2.在Executor之间调度任务task3.跟踪Execute的执行情况4.通过UI

2022-05-09 15:51:31 1094

原创 HIve 常用函数

HIve函数

2022-02-23 10:22:29 1118

原创 Gaussdb 存储过程

数据仓库服务是一种基于云基础架构和平台的在线数据处理数据库，提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB(DWS) 是基于融合数据仓库GaussDB产品的云原生服务，兼容标准ANSI SQL 99和SQL 2003，同时兼容PostgreSQL/Oracle数据库生态，为各行业PB级海量大数据分析提供有竞争力的解决方案。GaussDB(DWS) 提供了简单易用的Web管理控制台，帮助您快速创建数据仓库集群，轻松执行数据仓库管理任务。

2022-02-09 10:59:29 5437 1