![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop系列
yust此号已弃用
这个作者很懒,什么都没留下…
展开
-
2-1.HDFS原理(Hadoop系列day02)
思考:自己设计一份分布式文件系统hdfs有两种角色: namenode, datanode. (secondarynamenode先不考虑)一个namenode,多个datanode。 namenode相当于仓库管理员,维护自己的一个账本datanode相当于仓库,负责存储数据client相当于送货员a.log:100M 货物 客户端向namenode发送一个上传数据的请求 name原创 2016-09-23 16:15:33 · 276 阅读 · 0 评论 -
3-2MR第一个例子(Hadoop系列day03)
一行数据解析为一个key-value,每个key-value调用一次map方法。启动HDFS、启动YARM(MapReduce运行在YARM上) 边解析,边运行: —并不是把文件内容全加载到内存再执行Map,,,是一边加载,,一边Map client向RM发送一个RPC请求(client告诉RM他要提交一个作业)RM返回给client一个JobId和一个存放jar包的路径原创 2016-10-23 20:26:19 · 339 阅读 · 0 评论 -
3-1MR介绍(Hadoop系列day03)
MR是什么MR是一个 分布式计算编程模型Google在2004年提出来MR模型,后来Hadoop借鉴了。我们通过他提供的一些接口和类就可以实现分布式计算。MR解决了海量数据的计算。 (Map并行计算;Reduce汇总) MR概述 用户只要写Map和Reduce的实现就可以了。 MR的输入和输出都是key、value对。 Hadoop1.0时代: MR老大叫JobTracker原创 2016-10-22 19:24:09 · 376 阅读 · 0 评论 -
1-7.配置ssh免密码登陆配置和ssh原理(Hadoop系列day01)
问题: 启动需要多次输入密码 关闭也需要输入多次密码 (需要输入密码的原因是底层走的是ssh协议) 一台机器给另一台机器发送命令,如果走的是ssh协议,必须输入密码,即使是ssh给本机发送指令 解决方式: 配置ssh免密码登陆配置 ssh: secure shell 安全的shell命令 SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利原创 2016-09-21 21:39:23 · 310 阅读 · 0 评论 -
1-6.测试MR和YARN (Hadoop系列day01)
share目录–存放jar 找到官方的小例子 上传到hdfs 测试 查看日志原创 2016-09-21 14:16:25 · 369 阅读 · 0 评论 -
1-1.什么是Hadoop(Hadoop系列day01)
一:简介*1. 什么是Hadoop* What Is Apache Hadoop? The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.根据Hadoop官网介绍。Hadoop是一个开源的,分布式的,可靠的,灵活的 计算系统。很多大公司都原创 2016-09-18 21:51:27 · 323 阅读 · 0 评论 -
1-2.伪分布模式安装步骤(Hadoop系列之day01)
伪分布模式安装步骤关闭防火墙修改IP修改hostname设置ssh自动登录安装jdk安装Hadoop关闭防火墙如果是对外网提供服务的,当然不能关闭防火墙,容易被别人搞死。 那么Hadoop为什么要关闭防火墙呢? 因为Hadoop集群一般是公司内部使用。公司内部有多台节点,通信需要占用端口,如果防火墙把那个端口保护起来,就没法进行通信了。/** 如果不想关闭防火墙,那么还有另外一原创 2016-09-19 12:48:47 · 372 阅读 · 0 评论 -
1-3.linux下安装JDK(Hadoop系列day01)
复习: HDFS解决海量存储 MapReduce解决海量计算 YARN–其他计算模型也可以运行在YARN上伪分布式: Windows下装VM-启动起来-修改主机名、IP-关闭防火墙-修改主机名和IP的映射关系接下来-[安装JDK]=>1.下载jdk=》2.上传JDK >>方式一:设置共享文件夹(仅适用于虚拟机) Windows和虚拟机都可以访问这个共享文件夹>>方式二:上传到Linux原创 2016-09-19 21:36:45 · 275 阅读 · 0 评论 -
1-4.Hadoop安装配置-伪分布式(Hadoop系列day01)
http://archive.apache.org/dist/ (apache所有的项目都在这里)下载Hadoop到WindowssecureCRT 有上传功能 上传Hadoop到Linux,解压到指定目录上传成功!创建存放目录,解压到此目录 配置Hadoop修改的第一个配置文件 修改第二个配置文件 修改第三个配原创 2016-09-20 21:57:45 · 288 阅读 · 0 评论 -
1-5.将Hadoop添加到环境变量,初始化HDFS,启动Hadoop,测试hdfs(Hadoop系列day01)
>>将Hadoop添加到环境变量1.[root@itcast01 Hadoop]# vim /etc/profile2.#打开这个文件之后,在文件末尾添加以下代码(上次配置的JDK也在下方写了出来)export JAVA_HOME=/uer/java/jdk1.7.0_60export HADOOP_HOME=/itcast/hadoop-2.2.0export PATH =$PATH原创 2016-09-21 11:33:01 · 2447 阅读 · 0 评论 -
2-7HDFS读取数据过程(Hadoop系列day02)
首先得到FileSystem类 通过get()方法。(读取配置信息,反射) 构建了一个DistributedFileSystem 调用 initialize()方法, 构建了DFSClient对象,作为DistributedFileSystem的成员变量DFSClient通过Hadoop的代理机制得到$Proxy代理对象 通过这个代理对象获得块信息原创 2016-09-25 16:03:47 · 278 阅读 · 0 评论 -
2-6Hadoop RPC(Hadoop系列day02)
RPC原创 2016-09-25 15:08:40 · 261 阅读 · 0 评论 -
2-5HDFS的java接口(Hadoop系列day02)
java接口操作hdfs新建项目java project 保证jdk版本和以后Linux中jdk版本一直(大版本一致即可)导入jar包new folder lib 将jar包放在这个lib文件夹下 build path开始写程序 新建HDFSDemo类FileSystem 类 —org.apache.hadoop.fs (是一个抽象类,不能new)下载文件下载的简洁写法上传文原创 2016-09-24 19:01:35 · 222 阅读 · 0 评论 -
2-4.HDFS原理2(Hadoop系列day02)
块存放位置关于副本假如有一个保存副本的服务器宕机了。这个块就剩2份了。这个时候怎么办? 宕掉一个,那副本的数量就小于默认配置的数量。NameNode就会给一些机器下发一些命令,让他把数据块再复制一份。 NameNode是怎么检测到机器宕掉的? 答: 是通过一个心跳机制,小弟(DataNode)会主动将信息汇报给老大(NameNode),如果一个小弟长时间没有和老大联系,那么老大就认为这个小弟宕原创 2016-09-24 18:10:25 · 301 阅读 · 0 评论 -
2-3HDFS原理(Hadoop系列day02)
hdfs架构Metadata–>元数据元数据信息, 内存保留一份,磁盘保留一份 (为了快速读取,保存在内存; 为了防止丢失,序列化到硬盘一份)元数据存储细节元数据存储细节: 文件名,几个副本,分成几块,每块存放在哪台主机上 namenode是啥 namenode维护文件路径树。接收客服端请求。操作datanodefsimage:元数据镜像文件(内存中的元数据序列化到磁盘上的文件)NameNo原创 2016-09-24 17:42:33 · 287 阅读 · 0 评论 -
2-2.1.Hadoop2.0x HDFS shell命令(Hadoop系列day02)
Hadoop2 HDFS shell命令 1. hdfs dfs -appendToFile ... 可同时上传多个文件到HDFS里面 2. hdfs dfs -cat URI [URI ...] 查看文件内容 3. hdfs dfs -chgrp [-R] GROUP URI [URI ...] 修改文件所属组 4. hdfs df原创 2016-09-23 18:25:25 · 666 阅读 · 0 评论 -
2-2.HDFS的shell操作(Hadoop系列day02)
oohdfs:建立在Linux系统之上的一个分布式文件系统 通过命令行的方式来操作hdfs查看是否启动Hadoop 关闭Hadoop 单独启动hdfs查看启动的服务查看hdfs根目录查看hdfs根目录(简写)hdfs的管理界面Linux上文件上传到hdfs查看hdfs根目录的某个文件的内容分页查看hdfs根目录的某个文件的内容查看hdfs根目录下文件(包括文件夹中的文件),文件夹(包括文件原创 2016-09-23 18:06:02 · 708 阅读 · 0 评论 -
3-3序列化(Hadoop系列day03)
序列化概念序列化(Serialization): 把结构化对象转化为字节流。反序列化(Deserialization): 序列化的逆过程,即把字节流转回结构化对象。java序列化(java.io.Serializable)—-标记类型的接口,实现它并没有实现任何方法。只是告诉虚拟机,这个对象可以序列化。 不仅保存序列化信息,还要保存集成结构。Hadoop没有使用这套序列化机制。原创 2016-10-23 21:35:21 · 320 阅读 · 0 评论