hadoop笔记
hadoop系列笔记
wpheternal
从0基础学习大数据
展开
-
hive基础笔记
hive基础笔记大数据分析利器之hive一、知识要点1.数据仓库的基本概念1.数据仓库的基本概念2.数据仓库的主要特征3. 数据仓库与数据库区别4.数据仓库分层架构2. Hive是什么1 hive的概念2 Hive与数据库的区别3 Hive的优缺点4 Hive架构原理3. Hive的安装部署4. hive的交互方式1 Hive交互shell2 Hive JDBC服务6、Hive的DDL操作1 hive的数据库DDL操作1、创建数据库2、显示所有数据库3、查询数据库4、查看数据库详情5、显示数据库详细信息6、原创 2020-12-06 10:56:39 · 129 阅读 · 0 评论 -
MapReduce进阶笔记3
MapReduce进阶笔记312. 二次排序12.1 需求12.2 逻辑分析12.3 MR代码12.4 总结13. 自定义分组&topN13.1 需求13.2 逻辑分析13.3 MR代码13.4 总结14. MapReduce数据倾斜14.1 如何诊断是否存在数据倾斜14.2 减缓数据倾斜15. MR调优16. 抽样、范围分区16.1 数据16.2 需求16.3 实现方案16.4 MR代码16.5 总结二、面试题12. 二次排序12.1 需求如一个简单的关于员工工资的记录;每条记录如下,有原创 2020-12-06 10:39:24 · 185 阅读 · 0 评论 -
MapReduce进阶笔记2
MapReduce进阶笔记27. 自定义分区7.1 分区原理7.2 默认分区7.3 自定义分区7.4 总结8. 自定义Combiner8.1 需求8.2 逻辑分析8.3 MR代码8.4 小结9. MR压缩9.1 需求9.2 逻辑分析9.3 MR代码9.4 总结10. 自定义InputFormat10.1 MapReduce执行过程10.2 需求10.3 逻辑分析10.4 MR代码10.5 总结11. 自定义OutputFormat11.1 需求11.2 逻辑分析11.3 实现要点11.4 MR代码11.5原创 2020-12-06 10:38:04 · 112 阅读 · 0 评论 -
MapReduce进阶笔记1
MapReduce进阶笔记14. MapReduce编程:数据清洗4.1 需求4.2 数据结构4.3 逻辑分析4.4 MR代码4.5 总结5. MapReduce编程:用户搜索次数5.1 需求5.2 数据结构5.3 逻辑分析5.4 MR代码5.5 总结6. Shuffle6.1 shuffle细节6.2 map端6.3 reduce端6.4 总结4. MapReduce编程:数据清洗mapreduce在企业中,可以用于对海量数据的数据清洗;当然,随着新一代大数据框架的出现,也可以使用spark、fli原创 2020-12-06 10:36:04 · 292 阅读 · 0 评论 -
YARN进阶笔记
YARN进阶笔记3. YARN应用运行原理3.1 YARN应用提交过程3.2 MapReduce on YARN3.3 yarn应用生命周期4. 如何使用YARN4.1 配置文件4.2 YARN启动停止4.3 YARN常用命令5. YARN调度器5.1 调度器5.2 FIFO Scheduler5.3 Capacity Scheduler5.4 Fair Scheduler6. YARN应用状态二、总结3. YARN应用运行原理3.1 YARN应用提交过程Application在Yarn中的执行过原创 2020-12-06 10:31:04 · 202 阅读 · 0 评论 -
ZooKeeper进阶笔记
ZooKeeper进阶笔记5. ZooKeeper工作原理6. ZooKeeper应用场景7. 访问控制ACL8 ACL访问控制列表8.1 为什么要用ACL8.2 何为ACL8.3 ACL种类8.4 如何设置ACL二、思考5. ZooKeeper工作原理ZooKeeper使用原子广播协议叫做Zab(ZooKeeper Automic Broadcast)协议Zab协议有两种模式恢复模式(选主):因为ZooKeeper也是主从架构;当ZooKeeper集群没有主的角色leader时,从众多服务器中原创 2020-12-06 10:27:47 · 193 阅读 · 1 评论 -
HDFS进阶笔记2
HDFS进阶笔记28. Hadoop联邦8.1 为什么需要联邦8.2 联邦8.3 扩展8.4 小结9. 文件压缩9.1 压缩算法9.2 编程实践10. 小文件治理10.1 有没有问题10.2 HAR文件方案10.3 Sequence Files方案11. 文件快照11.1 什么是快照11.2 快照操作8. Hadoop联邦8.1 为什么需要联邦虽然HDFS HA解决了“单点故障”问题,但HDFS在扩展性、整体性能和隔离性方面仍有问题系统扩展性方面,元数据存储在NN内存中,受限于内存上限(每个文件原创 2020-12-05 21:06:50 · 106 阅读 · 0 评论 -
HDFS进阶笔记1
HDFS进阶笔记14. 核心概念block4.1 数据块block**4.2 block副本****4.3 机架存储策略**4.4 block的一些操作4.5 小结5. HDFS架构5.1 NameNode5.2 DataNode5.3 SeconddaryNameNode5.4 心跳机制5.5 负载均衡5.6 小结6. HDFS读写流程6.1 数据写流程6.2 数据读流程7. Hadoop HA高可用7.1 HDFS高可用原理4. 核心概念block4.1 数据块block4.1.1 HDFS bl原创 2020-12-05 21:05:27 · 109 阅读 · 0 评论 -
ZooKeeper基础笔记
ZooKeeper学习笔记一、ZooKeeper知识要点1. 为什么要用ZooKeeper2. 什么是ZooKeeper?3. ZooKeeper应用初体验3.1 zkCli命令行3.2 Java API编程4.基本概念和操作4.1 ZooKeeper数据结构**4.2 数据节点**ZNode4.3 会话(Session)**4.4 请求**4.5 事务zxid4.6 Watcher监视与通知4.7 总结5. ZooKeeper工作原理6. ZooKeeper应用场景7. 访问控制ACL8 ACL访问控制列原创 2020-12-04 21:21:45 · 152 阅读 · 0 评论 -
YARN基础笔记
YARN资源调度系统YARN资源调度系统一、YARN资源调度系统知识要点1. YARN介绍2. YARN架构2.1 **ResourceManager**2.2 **NodeManager**2.3 Container2.4 **ApplicationMaster**2.5 Resource Request2.6 JobHistoryServer2.7 Timeline Server3. YARN应用运行原理3.1 YARN应用提交过程3.2 MapReduce on YARN3.3 yarn应用生命周期4原创 2020-12-02 19:35:11 · 152 阅读 · 0 评论 -
MapReduce基础笔记
MapReduce编程模型MapReduce编程模型一、 MapReduce知识要点1. MapReduce编程模型1.1 Map阶段1.2 Reduce阶段1.3 Map&Reduce2. MapReduce编程示例2.1 MapReduce原理2.2 MR中key的作用2.3 创建MAVEN工程2.4 MR参考代码2.5 本地运行2.6 集群运行2.7 总结3. WEB UI查看结果3.1 Yarn3.2 HDFS结果4. MapReduce编程:数据清洗4.1 需求4.2 数据结构4.3 逻辑原创 2020-12-02 19:25:50 · 380 阅读 · 0 评论 -
HDFS用户及权限配置
HDFS用户及权限配置使用linux用户bruce,格式化hadoop的namenode,那么bruce成为hdfs的超级用户在bruce用户下运行命令:# 创建/user/hadoop目录hadoop fs -mkdir -p /user/hadoop# 修改/user/hadoop的所有者hadoop fs -chown hadoop:hadoop /user/hadoop# 修改hdfs用户hadoop对hfds的/user/hadoop目录的最大磁盘占用量hfds dfsadmi原创 2020-12-01 22:36:13 · 3364 阅读 · 0 评论 -
HDFS命令
HDFS命令1. hdfs基本操作HDFS命令有两种风格: hadoop fs开头的 hdfs dfs开头的两种命令均可使用,效果相同1.1 常用命令如何查看hdfs或hadoop子命令的帮助信息,如ls子命令hdfs dfs -help lshadoop fs -help ls #两个命令等价查看hdfs文件系统中已经存在的文件。对比linux命令lshdfs dfs -ls /hadoop fs -ls /在hdfs文件系统中创建文件hdfs dfs原创 2020-12-01 22:32:45 · 313 阅读 · 0 评论 -
HDFS基础笔记
HDFS分布式文件系统Hadoop学习笔记1. Hadoop简介1.1 Hadoop架构1.2 Hadoop历史2. HDFS是什么?2.1 HDFS特点2.2 小结3. HDFS篇3.1 HDFS命令3.2 WEB UI界面3.3 HDFS编程3.4 小结4. 核心概念block4.1 数据块block**4.2 block副本****4.3 机架存储策略**4.4 block的一些操作4.5 小结5. HDFS架构5.1 NameNode5.2 DataNode5.3 SeconddaryNameNo原创 2020-12-01 22:26:21 · 106 阅读 · 0 评论