大数据
文章平均质量分 56
z425955498
这个作者很懒,什么都没留下…
展开
-
hadoop-hdfs简介(一)
1. HDFS 专为解决大数据存储问题而产生的,其具备了以下特点:1).可存储超大文件文件系统是要构建于磁盘上的,有块的逻辑概念,是磁盘块的整数倍,通常文件系统为几千个字节,而磁盘块一般为 512 个字节。HDFS 是一种文件系统,文件块要比普通磁盘上文件系统大的多,默认是 64MBHDFS文件的大小可以大于网络中任意一个磁盘的容量,文件的所有块并不需要存储在一个磁盘上原创 2017-12-22 21:54:03 · 269 阅读 · 0 评论 -
hadoop-hdfs简介(二)
1.HDFS 体系架构1) HDFS 是一个主/从(Master/Slave)体系架构,由于分布式存储的性质,集群拥有两类节点 NameNode 和 DataNode。2)NameNode(名字节点):系统中通常只有一个,中心服务器的角色,管理存储和检索多个 DataNode 的实际数据所需的所有元数据。3)DataNode(数据节点):系统中通常有多个,是文件系统中真正存储数据的地方原创 2017-12-22 22:10:12 · 125 阅读 · 0 评论 -
hadoop-hdfs简介(三)
1.操作 HDFS 的基本命令1) 打印文件列表(ls)hadoop fs -ls hdfs:/ #hdfs: 明确说明是 HDFS 系统路径简写:hadoop fs -ls / #默认是 HDFS 系统下的根目录hadoop fs -ls /package/test/ #HDFS 系统下某个目录2) 上传文件、目录(put、copyFromLocal)原创 2017-12-22 23:50:33 · 287 阅读 · 0 评论 -
hadoop-Mapreduce 简介(一)
1.整个MapReduce计算过程分为 Map 阶段和 Reduce阶段,也称为映射和缩减阶段,这两个独立的阶段实际上是两个独立的过程,即 Map 过程和 Reduce 过程,在 Map 中进行数据的读取和预处理,之后将预处理的结果发送到 Reduce 中进行合并2.MapReduce 执行流程input -> map -> middle result Shuffle 派发原创 2017-12-23 12:21:17 · 185 阅读 · 0 评论 -
hadoop - MapReduce 简介(二)
1.MapReduce 错误处理机制1) 硬件故障在 Hadoop Cluster 中,只有一个 JobTracker,因此,JobTracker 本身是存在单点故障的。我们可以采用主备部署方式除了 JobTracker 错误就是 TaskTracker 错误。TaskTracker 故障相对较为常见,MapReduce 通常是通过重新执行任务来解决该故障。正常情况下,Ta原创 2017-12-23 13:23:26 · 160 阅读 · 0 评论 -
hadoop - 安装
Hadoop 1.0 环境1) 下载 Hadoop 安装包:在http://pan.baidu.com/s/1qXSN3hM 地址中可以找到hadoop-1.2.1-bin.tar.gz文件使用securtCRT的rz功能上传hadoop-1.2.1-bin.tar.gz这个文件到虚拟机的系统中2) 安装 Hadoop 安装包: 1.首先将安装包解压缩:tar zxvf原创 2017-12-23 14:53:08 · 196 阅读 · 0 评论