HDFS
新手路上的程序员
这个作者很懒,什么都没留下…
展开
-
Hive 笔记五 hive的优化
1.参数调整本地模式严格模式JVM重用并行执行推测还行合并小文件Fetch模式2.SQL优化1.列裁剪和分区裁剪列裁剪是在查询时只读取需要的列;分区裁剪就是只读取需要的分区。2.sort by 代替 order by 3.group by 代替 count(distinct) 3.join 基础优化 1、common join普通连接,在SQL中不特殊指定连接方式使用的都是这种普通连接。缺点:性能较差(要将数据分区,有shuffle)2.map joinmap端连接,与原创 2020-07-11 16:59:19 · 128 阅读 · 0 评论 -
HDFS 笔记二
1.HDFS元数据管理机制计算机中存储数据两种:内存或者是磁盘 元数据存储磁盘:存储磁盘无法面对客户端对元数据信息的任意的快速低延迟的响应,但是安全性高 元数据存储内存:元数据存放内存,可以高效的查询以及快速响应客户端的查询请求,数据保存在内存,如果断点,内存中的数据全部丢失。权衡:内存+磁盘;NameNode内存+FsImage的文件(磁盘)两个合并=完整数据:NameNode引入了一个edits文件(日志文件:只能追加写入)edits文件记录的是client的增删改操作...原创 2020-07-01 15:56:21 · 274 阅读 · 0 评论 -
HDFS 笔记一
1.HDFS主要的组件:2.HDFS读数据流程1. 客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据, 找到文件块所在的DataNode地址。 2. 挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。 3. DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。 4. 客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。3.HDFS写数.原创 2020-07-01 15:47:26 · 159 阅读 · 0 评论