大数据学习笔记

最新推荐文章于 2024-03-13 21:28:44 发布

IU小迷弟

最新推荐文章于 2024-03-13 21:28:44 发布

阅读量252

点赞数 1

分类专栏：大数据文章标签： hadoop hdfs hive

本文链接：https://blog.csdn.net/weixin_44366140/article/details/113920964

版权

大数据专栏收录该内容

9 篇文章 1 订阅

订阅专栏

1.Hadoop从2.x开始，把存储和计算分离开来，形成两个相对独立的子集群：HDFS和YARN，MapReduce依附于YARN来运行
2.Hadoop2.x以上支持双机热备
3.Hadoop神奇的一部分在于sort和shuffle过程
4.Hadoop本身提供了一套可优化网络序列化传输的基本类型：

LongWritable 相对于 Java 的Long
Text 相对于String
IntWritable相对于Integer```

5.Hadoop将作业分成若干个小任务（Task）来执行，器中包括两类任务：Map和Reduce
6.Hadoop将MapReduce的输入数据划分成等长的小数据块称为“切片”
7.Hadoop为每一个切片构建一个map任务
8.Hadoop允许用户针对map任务的输出指定一个combiner(合并器)
9.Hadoop Streaming 使用Unix标准流作为Hadoop和应用程序之间的接口
10.Hadoop存储小文件效率非常低
11.Hadoop存档文件可以使用MapReduce的输入
12.Hadoop自带一套原子操作用于数据I/O操作
13.Hadoop的LocalFile Systen执行客户端的校验和验证
14.Hadoop配置后添加的资源文件属性会覆盖之前定义的属性
15.Hadoop_CLASSPATH是一项客户端的设置
16.Hadoop的web界面用来浏览job信息
17.Hadoop的web界面用来浏览作业信息
18.Hadoop MapReduce 使用一个提交协议来确保作业和任务都完成功或失败
19.Hadoop在他们自己的Java虚拟机上运行任务，以区别其他正在运行的任务
20.Hadoop为每个作业维护若干内置计数器，以描述多项指标
21.Hadoop控制脚本依赖SSH来执行针对整个集群的操作
22.Hadoop内置一些脚本来运行指令，在集群内启动和终止守护进程
23.Hadoop为各个守护进程分配1GB内存
24.Hadoop守护进程一般同时运行RPC和HTTP两个服务器
25.Hadoop使用委托令牌来支持后续认证访问
26.Hadoop团队通常会将Hive和Pig结合使用
27.Hadoop面向批处理系统,不擅长实时计算
28.Hadoop起源于Apache Nutch的子项目
29.Hadoop：HDFS、MapReduce、YARN
30.Hadoop提供了钩子（hook）来辅助分析过程
31.Hadoop使用dfs，Mapred，rpc和jvm四个上下文根
32.Hadoop还为mapper和reduce提供了一个包含了常用函数的库
33.Hadoop包括多个托管bean（MBean），可以将hadoop度量发布给支持JMX的应用
34.Hadoop RPC调用是基于Probobuf实现的
35.Hadoop RPC不足以支持大文件读写
36.Hadoop RPC框架底层采用Java NIO，Java动态代理以及protobuf等
37.Hadoop中的每一个HDFS数据块都称为一个RDD分区
38.HDFS的块大小默认是64MB
39.HDFS以流式数据访问模式来存储超大文件
40.HDFS中的文件可能只有一个writer
41.HDFS的块大，目的为最小化寻址开销
42.HDFS集群有两类节点：管理者-工作者模式运行
43.HDFS的权限模式与POSIX非常相似
44.HDFS提供了一个方法来使所有缓存与数据节点强行同步
45.HDFS中关闭文件其实还隐含执行syn（）方法
46.HDFS会对写入的存储数据计算校验和，并在读取数据时验证校验和
47.HDFS中fsck指令可以显示块信息
48.HDFS只允许对一个打开的文件顺序写入，或者在现有文件的末尾追加数据
49.HDFS为性能牺牲了一些Posix要求（可移植操作系统接口）
50.HDFS能够容忍datanode故障，但这并不意味着允许随意终止datanode
51.HDFS目前不支持断点续传
52.HDFS 2.3版本添加了集中式缓存管理功能
53.HDFS除了RPC调用还定义了流式接口（TCP/HTTP）
54.HDFS文件系统的命名空间是以/为根的整个目录树，是通过FSDirectory类来管理的
55.HDFS中文件与目录都被当做系统目录树的一个INode节点
56.HDFS会将命名空间保存到namenode的本地系统上一个叫fsimage的文件汇总
57.HDFS的检查点机制会定时将editlog文件与fsimage文件合并以产生新的fsimage文件
58.HDFS管理员通过DFSAdmin工具管理与配置HDFS
59.Hive是一个构建在Hadoop上的数据仓库框架
60.Hive一般在工作站上运行
61.Hive把数据组织为表
62.Hive外壳环境是我们交互的主要方式
63.HiveQL是Hive的查询语言
64.Hive操作表而Pig直接操作数据集
65.HiveQL大小写不敏感
66.Hive把表组织成“分区”
67.Hive从两个维度对表的存储进行管理：行格式和文件格式
68.Hive不支持事务
69.Hive是最适合数据仓库应用程序的
70.Hive和Mysql提供的SQL方言最接近
71.Hive驱动计算的“语言”是一XML形式编码的
72.Hive通过和Jobtracker通信来初始化MapReduce任务（Job）
73.Hive无法提供数据库特性（如行级别更新，快速查询响应和支持事务）
74.Hive会将输出写到标准输出中
75.Hive Cli 可执行Hadoop的dfs命令
76.Hive本身提供了不同时区互相转换的内置函数
77.Hive中的列支持使用strct、map和arry集合数据类型
78.Hive中并没有键的概念
79.Hive不会再数据加载时进行验证，而是在查询时进行
80.Hive中数据库的概念本质上仅仅是表的一个目录式命名空间
81.Hive会为每个数据接库创建一个目录
82.Hive中并没有嵌套数据库的概念
83.Hive会自动增加两个表属性：last_modified_by|last_modified_time
84.Hive总是将创建的表的目录放置在这个所属的数据库目录之后
85.Hive没有行级操作
86.Hive通常指定的路径应该是一个目录，而不是单独的文件
87.Hive要求源文件和目标文件以及目录应该在同一个文件系统中
88.Hive并不会验证用户装载的数据和表的模式是否匹配
89.Hive会验证文件格式是否和表结构定义的一致
90.Hive中没有临时表的概念
91.Hive目前不支持on中的or
92.Hive值有有限的索引功能
93.Hive中分区的功能是非常有用的
94.Hive提供了serde抽象，其用于从输入中提取数据
95.Hive提供了一个列式SerDe来以混合列式格式存储信息
96.Hive中通常使用“UDF”来表示任意的函数（用户自定义函数）
97.Hive中通常使用“UDF”来表示任意的函数（用户自定义函数）
98.Hive文本文件格式选择和记录格式是对应的
99.Hive功能强大的一个方面体现在不同的存储格式间转换数据非常地简单
100.Hive引擎使用定义的InputFormat来读取一行数据记录
101.HiveServer使用Thrift提供服务

IU小迷弟

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据学习笔记

1.Hadoop从2.x开始，把存储和计算分离开来，形成两个相对独立的子集群：HDFS和YARN，MapReduce依附于YARN来运行2.Hadoop2.x以上支持双机热备3.Hadoop神奇的一部分在于sort和shuffle过程4.Hadoop本身提供了一套可优化网络序列化传输的基本类型：LongWritable 相对于 Java 的LongText 相对于StringIntWritable相对于Integer```5.Hadoop将作业分成若干个小任务（Task）来执行，器中包括两类
复制链接

扫一扫