![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
奋斗吧_攻城狮
JUST DO IT!
展开
-
Win下hadoop、eclipse开发环境搭建
一、hadoop下载hadoop下载以及安装和配置请查看上一篇文章:hadoop2.7.3安装和配置windows下和Linux差不多,配置也可以复用二、eclipse下hadoop插件自己编译或者网上下载(附:hadoop2.7.3 win下插件下载地址)一个都可,本地我使用的是hadoop2.7.3,下载的请注意,需要两部分文件(1)、hadoop-eclipse-plugin-2.7.3.ja原创 2017-04-08 14:03:52 · 705 阅读 · 0 评论 -
Hadoop 2.7.3安装与配置
一、JDK的安装与配置(1)、自行前往Oracle官网下载JDK(2)、下载后解压到相关路径,配置环境变量:vi /etc/profile添加如下配置export JAVA_HOME=/usr/lib/jvm/java-8-oracleexport JAVA_BIN=$JAVA_HOME/binexport JAVA_LIB=$JAVA_HOME/libexport CLASSPATH=.:$原创 2017-04-06 15:58:57 · 1496 阅读 · 1 评论 -
Hadoop几个常见类的作用
1、自定义bean中的CopmareTo()public class KeyPair implements WritableComparable<KeyPair> { private int year; private int hot; @Override /** * 定义CopmareTo()是在溢出和merge时用来来排序的 ...原创 2018-03-09 09:52:25 · 1433 阅读 · 0 评论 -
hadoop 2.7.3 源码分析超简单源码修改测试
前言在上一节中我们搭建起了测试环境,这一节我们根据前边序言中的内容,修改一下nameNode的启动代码看是否生效。修改代码在工程 hadoop-hdfs-project中的hadoop-hdfs中找到源文件NameNode.java(在包org.apache.hadoop.hdfs.server.namenode 内)在main 函数内添加以下代码System.out.pri...转载 2017-06-01 19:08:03 · 1014 阅读 · 0 评论 -
hadoop入门级总结二:Map/Reduce
在上一篇博客:hadoop入门级总结一:HDFS中,简单的介绍了hadoop分布式文件系统HDFS的整体框架及文件写入读出机制。接下来,简要的总结一下hadoop的另外一大关键技术之一分布式计算框架:Map/Reduce。一、Map/Reduce是什么:Map/Reduce是在2004年谷歌的一篇论文中提出大数据并行编程框架,由两个基本的步骤Map(映射)和Reduce(化转载 2017-06-01 11:56:03 · 369 阅读 · 0 评论 -
hadoop入门级总结一:HDFS
虽然Hadoop经历了多年的发展,作为技术人员都或多或少的使用过或者了解过。这里还是做一个简单的总结,主要原因是之前主要是做hadoop的开发,对hadoop的运维知之甚少,但真正的接触到hadoop运维的工作的时候,其实会发现,对hadoop的一整套框架和理论知识都需要系统的学习,才能把工作做得更好,同时做基于hadoop的数据分析工作的时候,也时常会涉及到一些hadoop参数的调优。因此,在这转载 2017-06-01 11:57:44 · 353 阅读 · 0 评论 -
二次排序
1 原理 二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。 这里主要讲如何使用一个Mapreduce就可以实现二次排序。Hadoop有自带的SecondarySort程序,但这个程序只能对整数进行排序,所以我们需要对其进行改进,使其可以对任意字符串进行排序。下面会分别列出这两个程序的详解。转载 2017-06-01 11:16:07 · 1094 阅读 · 0 评论 -
Hadoop2.6.4伪分布式环境及Spark、Intellij IDEA安装
环境信息及软件准备 系统信息:Linux promote 4.1.12-1-default #1 SMP PREEMPT Thu Oct 29 06:43:42 UTC 2015 (e24bad1) x86_64 x86_64 x86_64 GNU/Linux需要的软件:jdk-8u101-linux-x64.rpmscala-2.11.8.rpmhadoop-2.6.4.tar.gzspa原创 2017-05-10 15:03:31 · 930 阅读 · 0 评论 -
IDEA调试本地Hadoop程序
1、新建IntelliJ下的maven项目点击File->New->Project,在弹出的对话框中选择Maven,JDK选择你自己安装的版本,点击Next2、填写Maven的GroupId和ArtifactId你可以根据自己的项目随便填,点击Next这样就新建好了一个空的项目这里程序名填写WordCount,我们的程序是一个通用的网上的范例,用来计算文件中单词出现的次数3、设置程序的编译版本打开I原创 2017-05-17 15:38:22 · 796 阅读 · 0 评论 -
hadoop HDFS常用文件操作命令
命令基本格式:hadoop fs -cmd 1.lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件2.puthadoop fs -put local file > hdfs file >hdfs file的父目录一定要存在,否则命转载 2017-05-03 18:02:34 · 270 阅读 · 0 评论 -
Hadoop2.x 让你真正明白yarn
问题导读1.hadoop1.x中mapreduce框架与yarn有什么共同点?2.它们有什么不同点?3.yarn中有哪些改变?4.yarn中有哪些术语?原文:Hadoop2.x 让你真正明白yarn yarn是比较难懂的一个地方,也是很重要的一个组件,不止hadoop使用yarn,spark,storm也可以使用yarn。因此yarn的理解是转载 2017-04-24 20:20:27 · 1965 阅读 · 0 评论 -
Hadoop MapReduce执行过程详解(带hadoop例子)
问题导读1.MapReduce是如何执行任务的?2.Mapper任务是怎样的一个过程?3.Reduce是如何执行任务的?4.键值对是如何编号的?5.实例,如何计算没见最高气温?分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Red转载 2017-04-24 18:43:09 · 7383 阅读 · 0 评论 -
ssh配置无密码登录,以及配置完不能登录的解决方法
第一步:使用ssh-keygen -t rsa ,在出现的对话框里一路回车就行了 在~/.ssh/目录下会生成id_rsa(私钥)和id_rsa.pub(公钥)文件。 第二步:要确保ssh的配置正确。 使用命令sudo vim /etc/ssh/sshd_config 查看ssh的配置文件。 要确保下面这三个项目前面没有# RSAAuthentication yes Pub转载 2017-04-06 10:38:08 · 2405 阅读 · 0 评论 -
一文读懂大数据计算框架与平台
1.02前言计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等转载 2017-05-11 09:10:50 · 567 阅读 · 0 评论 -
CentOS7.3下安装Cloudera Manager5.11.1
概述最近公司需要研究大数据方向的内容,经初步讨论,决定使用CDH版本 的Hadoop,使用Cloudera生态下的Cloudera Manager平台。CDH(Cloudera’s Distribution, including Apache Hadoop),是hadoop分支中的一种,由Cloudera 维护,基于稳定版本的Apache hadoop构建,并继承了许多补丁,可以直接用于原创 2017-08-25 12:06:54 · 831 阅读 · 0 评论