大数据
文章平均质量分 56
z425955498
这个作者很懒,什么都没留下…
展开
-
hadoop-hdfs简介(一)
1. HDFS 专为解决大数据存储问题而产生的,其具备了以下特点: 1).可存储超大文件 文件系统是要构建于磁盘上的,有块的逻辑概念,是磁盘块的整数倍,通常文件系统为几千个字节,而磁盘块一般为 512 个字节。 HDFS 是一种文件系统,文件块要比普通磁盘上文件系统大的多,默认是 64MB HDFS文件的大小可以大于网络中任意一个磁盘的容量,文件的所有块并不需要存储在一个磁盘上原创 2017-12-22 21:54:03 · 260 阅读 · 0 评论 -
hadoop-hdfs简介(二)
1.HDFS 体系架构 1) HDFS 是一个主/从(Master/Slave)体系架构,由于分布式存储的性质,集群拥有两类节点 NameNode 和 DataNode。 2)NameNode(名字节点):系统中通常只有一个,中心服务器的角色,管理存储和检索多个 DataNode 的实际数据所需的所有元数据。 3)DataNode(数据节点):系统中通常有多个,是文件系统中真正存储数据的地方原创 2017-12-22 22:10:12 · 113 阅读 · 0 评论 -
hadoop-hdfs简介(三)
1.操作 HDFS 的基本命令 1) 打印文件列表(ls) hadoop fs -ls hdfs:/ #hdfs: 明确说明是 HDFS 系统路径 简写:hadoop fs -ls / #默认是 HDFS 系统下的根目录 hadoop fs -ls /package/test/ #HDFS 系统下某个目录 2) 上传文件、目录(put、copyFromLocal)原创 2017-12-22 23:50:33 · 272 阅读 · 0 评论 -
hadoop-Mapreduce 简介(一)
1.整个MapReduce计算过程分为 Map 阶段和 Reduce阶段,也称为映射和缩减阶段, 这两个独立的阶段实际上是两个独立的过程,即 Map 过程和 Reduce 过程, 在 Map 中进行数据的读取和预处理,之后将预处理的结果发送到 Reduce 中进行合并 2.MapReduce 执行流程 input -> map -> middle result Shuffle 派发原创 2017-12-23 12:21:17 · 171 阅读 · 0 评论 -
hadoop - MapReduce 简介(二)
1.MapReduce 错误处理机制 1) 硬件故障 在 Hadoop Cluster 中,只有一个 JobTracker,因此,JobTracker 本身是存在单点故障的。我们可以采用主备部署方式 除了 JobTracker 错误就是 TaskTracker 错误。TaskTracker 故障相对较为常见,MapReduce 通常是通过重新执行任务来解决该故障。 正常情况下,Ta原创 2017-12-23 13:23:26 · 148 阅读 · 0 评论 -
hadoop - 安装
Hadoop 1.0 环境 1) 下载 Hadoop 安装包: 在http://pan.baidu.com/s/1qXSN3hM 地址中可以找到hadoop-1.2.1-bin.tar.gz文件 使用securtCRT的rz功能上传hadoop-1.2.1-bin.tar.gz这个文件到虚拟机的系统中 2) 安装 Hadoop 安装包: 1.首先将安装包解压缩: tar zxvf原创 2017-12-23 14:53:08 · 188 阅读 · 0 评论