大数据学习笔记

1.Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集群:HDFS和YARN,MapReduce依附于YARN来运行
2.Hadoop2.x以上支持双机热备
3.Hadoop神奇的一部分在于sort和shuffle过程
4.Hadoop本身提供了一套可优化网络序列化传输的基本类型:

LongWritable 相对于 Java 的Long
Text 相对于String
IntWritable相对于Integer```

5.Hadoop将作业分成若干个小任务(Task)来执行,器中包括两类任务:Map和Reduce
6.Hadoop将MapReduce的输入数据划分成等长的小数据块称为“切片”
7.Hadoop为每一个切片构建一个map任务
8.Hadoop允许用户针对map任务的输出指定一个combiner(合并器)
9.Hadoop Streaming 使用Unix标准流作为Hadoop和应用程序之间的接口
10.Hadoop存储小文件效率非常低
11.Hadoop存档文件可以使用MapReduce的输入
12.Hadoop自带一套原子操作用于数据I/O操作
13.Hadoop的LocalFile Systen执行客户端的校验和验证
14.Hadoop配置后添加的资源文件属性会覆盖之前定义的属性
15.Hadoop_CLASSPATH是一项客户端的设置
16.Hadoop的web界面用来浏览job信息
17.Hadoop的web界面用来浏览作业信息
18.Hadoop MapReduce 使用一个提交协议来确保作业和任务都完成功或失败
19.Hadoop在他们自己的Java虚拟机上运行任务,以区别其他正在运行的任务
20.Hadoop为每个作业维护若干内置计数器,以描述多项指标
21.Hadoop控制脚本依赖SSH来执行针对整个集群的操作
22.Hadoop内置一些脚本来运行指令,在集群内启动和终止守护进程
23.Hadoop为各个守护进程分配1GB内存
24.Hadoop守护进程一般同时运行RPC和HTTP两个服务器
25.Hadoop使用委托令牌来支持后续认证访问
26.Hadoop团队通常会将Hive和Pig结合使用
27.Hadoop面向批处理系统,不擅长实时计算
28.Hadoop起源于Apache Nutch的子项目
29.Hadoop:HDFS、MapReduce、YARN
30.Hadoop提供了钩子(hook)来辅助分析过程
31.Hadoop使用dfs,Mapred,rpc和jvm四个上下文根
32.Hadoop还为mapper和reduce提供了一个包含了常用函数的库
33.Hadoop包括多个托管bean(MBean),可以将hadoop度量发布给支持JMX的应用
34.Hadoop RPC调用是基于Probobuf实现的
35.Hadoop RPC不足以支持大文件读写
36.Hadoop RPC框架底层采用Java NIO,Java动态代理以及protobuf等
37.Hadoop中的每一个HDFS数据块都称为一个RDD分区
38.HDFS的块大小默认是64MB
39.HDFS以流式数据访问模式来存储超大文件
40.HDFS中的文件可能只有一个writer
41.HDFS的块大,目的为最小化寻址开销
42.HDFS集群有两类节点:管理者-工作者模式运行
43.HDFS的权限模式与POSIX非常相似
44.HDFS提供了一个方法来使所有缓存与数据节点强行同步
45.HDFS中关闭文件其实还隐含执行syn()方法
46.HDFS会对写入的存储数据计算校验和,并在读取数据时验证校验和
47.HDFS中fsck指令可以显示块信息
48.HDFS只允许对一个打开的文件顺序写入,或者在现有文件的末尾追加数据
49.HDFS为性能牺牲了一些Posix要求(可移植操作系统接口)
50.HDFS能够容忍datanode故障,但这并不意味着允许随意终止datanode
51.HDFS目前不支持断点续传
52.HDFS 2.3版本添加了集中式缓存管理功能
53.HDFS除了RPC调用还定义了流式接口(TCP/HTTP)
54.HDFS文件系统的命名空间是以/为根的整个目录树,是通过FSDirectory类来管理的
55.HDFS中文件与目录都被当做系统目录树的一个INode节点
56.HDFS会将命名空间保存到namenode的本地系统上一个叫fsimage的文件汇总
57.HDFS的检查点机制会定时将editlog文件与fsimage文件合并以产生新的fsimage文件
58.HDFS管理员通过DFSAdmin工具管理与配置HDFS
59.Hive是一个构建在Hadoop上的数据仓库框架
60.Hive一般在工作站上运行
61.Hive把数据组织为表
62.Hive外壳环境是我们交互的主要方式
63.HiveQL是Hive的查询语言
64.Hive操作表而Pig直接操作数据集
65.HiveQL大小写不敏感
66.Hive把表组织成“分区”
67.Hive从两个维度对表的存储进行管理:行格式和文件格式
68.Hive不支持事务
69.Hive是最适合数据仓库应用程序的
70.Hive和Mysql提供的SQL方言最接近
71.Hive驱动计算的“语言”是一XML形式编码的
72.Hive通过和Jobtracker通信来初始化MapReduce任务(Job)
73.Hive无法提供数据库特性(如行级别更新,快速查询响应和支持事务)
74.Hive会将输出写到标准输出中
75.Hive Cli 可执行Hadoop的dfs命令
76.Hive本身提供了不同时区互相转换的内置函数
77.Hive中的列支持使用strct、map和arry集合数据类型
78.Hive中并没有键的概念
79.Hive不会再数据加载时进行验证,而是在查询时进行
80.Hive中数据库的概念本质上仅仅是表的一个目录式命名空间
81.Hive会为每个数据接库创建一个目录
82.Hive中并没有嵌套数据库的概念
83.Hive会自动增加两个表属性:last_modified_by|last_modified_time
84.Hive总是将创建的表的目录放置在这个所属的数据库目录之后
85.Hive没有行级操作
86.Hive通常指定的路径应该是一个目录,而不是单独的文件
87.Hive要求源文件和目标文件以及目录应该在同一个文件系统中
88.Hive并不会验证用户装载的数据和表的模式是否匹配
89.Hive会验证文件格式是否和表结构定义的一致
90.Hive中没有临时表的概念
91.Hive目前不支持on中的or
92.Hive值有有限的索引功能
93.Hive中分区的功能是非常有用的
94.Hive提供了serde抽象,其用于从输入中提取数据
95.Hive提供了一个列式SerDe来以混合列式格式存储信息
96.Hive中通常使用“UDF”来表示任意的函数(用户自定义函数)
97.Hive中通常使用“UDF”来表示任意的函数(用户自定义函数)
98.Hive文本文件格式选择和记录格式是对应的
99.Hive功能强大的一个方面体现在不同的存储格式间转换数据非常地简单
100.Hive引擎使用定义的InputFormat来读取一行数据记录
101.HiveServer使用Thrift提供服务

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值