hadoop学习笔记
文章平均质量分 67
Jiawen_
这个作者很懒,什么都没留下…
展开
-
好记性不如烂笔头---YARN作业运行机制
YARN将jobtracker的职能进行了划分,划分了两个独立的守护进程:管理集群上资源使用的资源管理器ResourceManager,管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是:AM与RM协商集群的计算资源:容器Container,在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视,以确保应用程序使用的资源不会超过翻译 2017-12-27 21:56:42 · 268 阅读 · 0 评论 -
hadoop之map结果写入hbase数据库,无reduce
算法需要读取整个文件作为一个分片,因此自定义了WholeFileInputFormat类和WholeFileRecordReader类用于实现一个map能够读取一整个文件。 Configuration类实例化的对象和HBaseConfiguration类实例化的对象作用不同,我遇到的问题是:若是只用Configuration类创建的对象conf,则job任务可以提交成功,输入分片也成...原创 2018-03-19 20:49:55 · 362 阅读 · 0 评论 -
eclipse中远程操作hbase例子,只有map过程没有reduce,map中读取hbase表的所有列
本文例子能够成功运行的前提是,hadoop分布式运行正常,hbase分布式运行正常,eclipse远程操作hadoop和hbase正常。话不多说,撕代码。 代码尽量加了详尽的注释,可以成功运行,过程中碰了不少壁,但是遇到问题解决问题才是科研的乐趣所在,O(∩_∩)O哈哈~package hbasetest;import java.io.BufferedWriter;import java.i原创 2018-01-19 11:33:48 · 286 阅读 · 0 评论 -
好记性不如烂笔头---hadoop分布式文件系统HDFS
何为分布式文件系统,即管理网络中跨多台计算机存储的文件系统称为分布式文件系统,该系统架构于网络之上,引入了网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。 HDFS的设计 HDFS以流式数据访问模式来存储超大文件,超大文件指具有MB、GB、TB级的文件目前也已经有存储PB级数据的hadoop集群了。流式数据访问是指一次写入,多次读取,这是最高效的访问模式,也翻译 2018-01-09 21:17:41 · 293 阅读 · 0 评论 -
分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子
共三台服务器,安装的Redhat7系统,Redhat7命令与常用的Linux命令稍有不同。第一次写博客,记录过程方便自己的同时方便他人,直接开始正题,环境搭建过程如下。一、安装Redhat7.1系统1.用光盘安装,服务器开启后启动过程中按del键进入BIOS,在boot菜单中将boot priority的CD/ROM选项设置为1st,具体做法是选中CD/ROM选项并按shift+键。 2.安装设置原创 2017-12-18 14:54:54 · 699 阅读 · 1 评论 -
好记性不如烂笔头---MapReduce1作业运行机制
学习hadoop先从搞懂作业运行机制开始,不看懂运行机制总感觉MapReduce的执行是一件很神秘的事情,现在来解开她的神秘面纱,本想自己看看书就算了,但是记忆力真的是个好东西,然而我却没有。。。只好把看到的内容记下来,也好留下更深的印象。另外,本文内容摘抄自《hadoop权威指南第3版》。jobtracker接收到对其的submitjob()方法的调用后,会把此调用放入一个内部队列中,交由作翻译 2017-12-26 09:32:01 · 280 阅读 · 1 评论 -
hadoop2.6.1+hbase1.4.0完全分布式
写这篇之前已经搭建好一个hadoop集群,集群中有三台服务器,能正常运行。具体见第一篇博文。 1.官网下载与hadoop对应的HBASE,我下载的是Hbase-1.4.0-bin.tar.gz,master节点服务器中新建目录/home/hbase,将下载的文件上传至新建的目录下。 2.进入新建的目录中,解压下载的文件,[root@master hadoop]# cd /hom原创 2018-01-11 14:48:50 · 946 阅读 · 0 评论 -
eclipse远程连接操作hbase数据库
远程操作只是为了调试测试,学习hbase的一些基本用法,在hadoop集群上运行之前先对程序进行调试测试运行。1.在eclipse中新建一个Java project,并新建一个包hbasetest2.导入所有的jar包。jar包在哪里找:将集群中hbasehome目录下lib目录中的所有文件拷贝到eclipse所在的机器上,导入jar包只需要将所有刚才拷贝的文件都导入即可。下面是成原创 2018-01-15 10:51:49 · 2160 阅读 · 0 评论 -
hadoop属性的配置调优记录
1.配置网页查看hadoop集群状态在浏览器输入http://ip地址:8088/cluster,即可用网页查看hadoop集群状态,配置好之后查看某个作业时会报错,这是因为没有设置域名重定向,我的电脑是Win7操作系统,设置域名重定向的方法是:在本地计算机的C:\Windows\System32\drivers\etc目录下找到hosts文件,记事本打开hosts文件,在hosts文件的最后,添...原创 2018-01-03 10:16:33 · 392 阅读 · 0 评论 -
好记性不如烂笔头---hadoop的shuffle和sort过程
MapReduce确保每个reducer的输入都是按键排序的,系统执行排序的过程称为shuffle。 在map端,map函数开始产生输出时,并不是直接写入到磁盘,而是利用缓冲的方式写到内存并出于效率的考虑进行预排序,具体过程:每个map任务都有一个环形内存缓冲区用于存储任务输出,该缓冲区默认大小为100m,可以通过io.sort.mb属性调整该值,一旦缓冲达到阈值io.sort.spill.pe翻译 2017-12-29 10:48:29 · 641 阅读 · 0 评论 -
好记性不如烂笔头---hadoop的作业调度
早期的hadoop 使用非常简单的方法调度用户作业:按照作业的提交顺序,使用FIFO调度算法来运行作业。典型情况下,每个作业都会使用整个集群,但是这样作业需要等待直到轮到自己运行。不久后,增加了设置作业优先级的功能,可以通过设置mapred.job.priority属性或者jobclient的setjobpriority()方法来设置作业的优先级,在这两种方法中可以选择VERY-HIGH,HIGH翻译 2017-12-28 19:41:08 · 251 阅读 · 0 评论 -
hbase shell 中list命令报错ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
hbase运行了好多天,今天需要重启一下,于是执行stop-hbase.sh命令,先是报错stopping hbasecat: /tmp/hbase-hadoop-master.pid: No such file or directory,网上找到的解决办法,是修改hbase-env.sh配置文件,在当中设置export HBASE_PID_DIR属性,指定一个文件目录,做了这个操作后,启...原创 2018-05-10 17:12:52 · 2341 阅读 · 0 评论