DB-大数据-Hadoop
DB-大数据-Hadoop
编程圈子
编程圈子,谢厂节的博客
展开
-
Hadoop 学习笔记一 基础知识及常用命令
今天开始对Hadoop进行系统化的学习。此博文系列将会记录我的学习过程。了解Hadoop简介 Hadoop目前属于Apache基金会,是针对海量数据处理的理想工具。我的学习教材主要是Hadoop权威指南(中文版)。 Hadoop起源于Nutch,在Yahoo的帮助下,Nutch的分布式运算这部分被独立出来,命名为Hadoop。Hadoop克隆了Google运行系统的主要框架,包括文件系统HDFS原创 2015-06-20 09:52:23 · 1660 阅读 · 0 评论 -
Hadoop 学习笔记二 单机安装
安装环境:Ubuntu kylin 14.04下载hadoop2.7.0新增用户 sudo addgroup hadoop sudo adduser -ingroup hadoop hadoop sudo gedit /etc/sudoers 在文件里给hadoop权限: hadoop ALL=(ALL) ALL sudo reboot 然后用hadoop账原创 2015-06-24 09:18:20 · 3388 阅读 · 0 评论 -
Hadoop 学习笔记三 MapReduce
JAVA 工程使用MapReduce准备两个文件:file1.txthello, worldhello, chinahello, hefeifile2.txthello, worldhello, chinahello, hefei统计每个单词出现的次数。新建Eclipse创建一个Java工程导入Hadoop的JAR文件 编码: WordMapper类:package wordcount原创 2016-03-14 22:43:22 · 789 阅读 · 0 评论 -
Hadoop 学习笔记四 分布式文件系统HDFS
HDFSHDFS特点硬件故障流式的数据访问:HDFS设计适合批量处理大数据集简单一致性模型移动计算比移动数据更经济轻便访问异构的软硬件平台名字节点和数据节点:HDFS是主从结构的体系文件名字空间:支持传统的继承式的文件组织,一个用户或一个程序可以创建目录,存储文件到很多目录之中。数据复制:HDFS能可靠地在集群中的机器之间存储非常大量的文件,它以块序列的形式存储每一个文件。属于文件原创 2016-03-16 18:20:22 · 2268 阅读 · 0 评论 -
Hadoop 学习笔记五 集群安装
准备4台机器 机器 主机名 IP 机器1 master.hadoop 192.10.200.242 机器2 slave1.hadoop 192.10.200.243 机器3 slave2.hadoop 192.10.200.244设置主机名示例:hostnamectl --static set-hostname master.hadoop设置hosts原创 2016-12-12 16:57:19 · 890 阅读 · 0 评论 -
Hadoop 学习笔记六 Hadoop2.X 64位编译
实验环境 : 实验楼-安装mavenwget http://mirror.bit.edu.cn/apache/maven/maven-3/3.0.5/binaries/apache-maven-3.0.5-bin.tar.gztar -zxf apache-maven-3.0.5-bin.tar.gzmv apache-maven-3.0.5 /app/libsudo vim /etc/p原创 2017-04-16 21:26:18 · 572 阅读 · 0 评论 -
Hadoop 学习笔记七 任务远程提交--Eclipse插件
Hadoop运行计算任务,大概有以下几种方式把MapReduce任务打包到jar里,上传到服务器,用命令行启动通过Java向Hadoop集群提交MapReduce任务服务器的hadoop配置拷到本地,设置hosts指向namenode和resourcemanager,本地执行hadoop jar任务做成schedule,定时调用shell脚本运行java任务Eclipse的hadoop插件原创 2017-05-02 10:42:57 · 1729 阅读 · 1 评论 -
Hadoop 学习笔记八 任务远程提交--Java远程提交
Hadoop运行计算任务,大概有以下几种方式把MapReduce任务打包到jar里,上传到服务器,用命令行启动通过Java向Hadoop集群提交MapReduce任务服务器的hadoop配置拷到本地,设置hosts指向namenode和resourcemanager,本地执行hadoop jar任务做成schedule,定时调用shell脚本运行java任务Eclipse的hadoop插件原创 2017-05-03 08:30:02 · 2062 阅读 · 0 评论 -
Hadoop 学习笔记九 HA高可用设置
一、概述早期的hadoop版本,NN是HDFS集群的单点故障点,每个集群只有一个NN。为了解决 个问题,出现了一堆针对HDFS HA的解决方案,如:Linux HA,VMware FI,shared NAS+NFS,BookKeeper,QJM/Quorum Journal Manager,BackupNode等。1. SPOF方案Secondary NameNode,并非HABackup Na原创 2017-05-03 16:58:04 · 815 阅读 · 0 评论 -
Hadoop 学习笔记十 常见问题汇总
1could only be replicated to 0 nodes instead of minReplication (=1)运行hive时出现这个错误,在hadoop上运行jps,发现datanode没有启动起来,需要启动datanode 2FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization fail原创 2017-05-18 13:49:26 · 658 阅读 · 0 评论 -
Hadoop学习笔记十一 使用Oozie自动化数据处理(未完)
使用Oozie自动化数据处理本文学习资源部分来自《Hadoop高级编程——构建与实现大数据解决方案》清华大学出版社。一、简介Oozie是一个Workflow协调系统,可以用来管理Apache Hadoop作业。Oozie的主要组件之一是Oozie服务器————一个运行于Java Servlet容器(标准的Oozie发布使用Tomcat)的Web应用程序。该服务器支持读取和执行Workflow、Coo原创 2017-06-13 20:00:58 · 1544 阅读 · 0 评论 -
Hadoop学习笔记十二 YARN基础知识
本文学习内容来自《精通Hadoop Mastering Hadoop》中国工信出版集团、人民邮电出版社一、简介YARN(Yet Another Resource Negotiator)是Hadoop2.0 为集群引入的一个资源管理层。基本思想是将JobTracker的两个主要功能:资源管理和作业调试/监控分离,它将JobTracker守护进程的职责分离了出来。JobTracker的职责有:Hado原创 2017-06-16 08:50:26 · 1035 阅读 · 0 评论 -
Hadoop学习笔记十三 Hadoop 更换Datanode位置
环境: 4台hadoop集群 原磁盘40G,各挂载新的1T磁盘。原位置:vi /home/hadoop/hadoop-2.7.3/etc/hadoop/hdfs-site.xml <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/d原创 2017-08-03 10:54:09 · 1208 阅读 · 0 评论