- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 HDFS架构和读写流程
HDFS 读写流程HDFS组成架构HDFS,是一个文件系统,用于存储文件,通弄个目录树来定位文件,(分布式的)HDFS的使用场景:适合一次写入,多次读的场景,且不支持文件的修改HDFS快的大小HDFS中文件物理上是分块存储(Block),块的大小可以通过(dfs.blocksize)来规定,默认大小Hadoop2.x版本128M,老版本中是64M思考:为什么块的大小不能设置太小,也不能设置太大1.HDFS的块设置太小,会增加(寻址)寻找的时间,程序一直在找块的开始位置2.如果太大,从磁盘传
2022-05-28 14:54:43 237
原创 MapReduce 理解
MapReduce 理解MapReduce原语句MapReduce原语:“相同”key的键值对为一组调用一次Reduce方法,方法内迭代这组数据进行计算。MapReduce 采用分治的思想 MapTask & ReduceTaskMapReduce的执行流程数据一般都是存放在HDFS上,MapReduce 计算框架第一步 就是先通过InputFormat的子类将计算需要的数据进行分片(分片的方法式getSplits()),分片的数量决定了MapTask的数量Ps:并不是所有的文件都可
2022-05-26 17:59:05 478
原创 brew过慢
brew安装总是卡住问题brew install composer总是卡在brew install composer中解决方法平时我们执行 brew 命令安装软件的时候,跟以下 3 个仓库地址有关:brew.githomebrew-core.githomebrew-bottles通过以下操作将这 3 个仓库地址全部替换为 Alibaba 提供的地址替换 brew.git 仓库地址# 替换成阿里巴巴的 brew.git 仓库地址:cd "$(brew --repo)"git
2022-05-12 11:19:47 376
原创 Hive表的存储格式
Hive表的存储格式文件格式-概述Hive的文件格式-TextFileTextFile 是Hive中默认的文件格式 存储形式为按行存储工作中最常见的数据文件格式就是TextFile,几乎所有的原始数据生成都是TextFile格式,所以HIve设计时考虑到为了避免各种编码以及数据错乱的问题 选用TextFile为默认的格式建表时不指定格式即为TextFile 导入数据时把数据文件拷贝HDFS不做任何处理文件大小在hdfs和本地 没有什么变化Hive的文件格式-SequenceFile
2022-05-11 15:18:15 2591
原创 Spark运行架构
Spark运行架构Spark 架构的核心是一个计算引擎,整体来说,它采用了标准的master-slave的结构Driver—>master Executor->slave核心组建Driver & Execute 计算Spark Driver驱动节点 用于执行Spark任务重的main方法,负责实际代码的执行工作Driver 在Spark作业执行时主要负责1.将用户程序转化为作业job2.在Executor之间调度任务task3.跟踪Execute的执行情况4.通过UI
2022-05-09 15:51:31 1063
原创 Gaussdb 存储过程
数据仓库服务是一种基于云基础架构和平台的在线数据处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB(DWS) 是基于融合数据仓库GaussDB产品的云原生服务,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。GaussDB(DWS) 提供了简单易用的Web管理控制台,帮助您快速创建数据仓库集群,轻松执行数据仓库管理任务。
2022-02-09 10:59:29 5178 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人