从零开始Hadoop
换新电脑了,一切从头开始,从软件安装到集群的搭建,简单的案例实现...
该专栏包括部分Hadoop权威指南的内容,也算是Hadoop权威指南的读书笔记吧。
一切,加油!
xxydzyr
愿有岁月可回首,且以深情共白头!@猪头
展开
-
linux安装JDK
linux安装JDK在虚拟机上装很多软件的时候,都需要先装jdk,但是虚拟机自带了一个openjdk,安装前需要先卸载openjdk,才能装sun公司的jdk。openjdk和我们装的jdk区别:来源:https://www.cnblogs.com/zhaojingyu/p/8888934.html1. 授权协议的不同OpenJDK采用GPL V2协议放出,而SUN JDK则采用JRL放...原创 2019-06-03 21:39:03 · 229 阅读 · 0 评论 -
SSH安全协议
SSH安全协议概念:SSH 为 Secure Shell 的缩写,是一种网络安全协议, 专为远程登录会话和其他网络服务提供安全性的协议。通过使用 SSH,可以把传输的数据进行加密,有效防止远程管理过程中的信息泄露问题。它是一种非对称加密,有一个公钥(加密),私钥(解密),它是单向的,即只能用公钥加密,私钥解密,反着则不行。从客户端来看,有两种验证方式:基于密码、基于密钥。基于密码登录:...原创 2019-06-03 21:31:32 · 1319 阅读 · 0 评论 -
Linux文件上传、下载
Linux文件上传、下载我们需要搭建集群,到时候很多文件都是在Windows上下载好的,然后在上传到Linux上,这时候我们就要用到Linux的上传功能。同时我们上传到一台虚拟机后,我们不会在用相同的步骤上传到其他机器,虽然在自己电脑上玩可以,但是一旦集群大了起来,这个操作就很麻烦,所以我们一般是使用分发,将需要发送到各个节点的文件先上传到一台虚拟机,然后将这台虚拟机上的文件分发到其他虚拟机上...原创 2019-06-03 21:23:26 · 5357 阅读 · 0 评论 -
Linux常用命令
Linux常用命令1. 查找1.1 grepgrep 命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。格式:grep [option] pattern [file]可使用 —help 查看更多参数。使用实例:ps -ef | grep sshd # 查找指定 ssh 服务进程ps -ef | grep sshd | grep -v grep...原创 2019-06-03 21:19:21 · 314 阅读 · 0 评论 -
VMware 虚拟机克隆
VMware 虚拟机克隆虚拟机除了自己安装外,还可以对现有的虚拟机进行克隆以达到直接创建虚拟机的功能。VMware 支持两种类型的克隆:**完整克隆、链接克隆 **完整克隆 :是和原始虚拟机完全独立的一个拷贝,它不和原始虚拟机共享任何资源。可以脱离原始虚拟机独立使用。链接克隆 :需要和原始虚拟机共享同一虚拟磁盘文件,不能脱离原始虚拟机独立运行。但采用共享磁盘文件却大大缩短了创建克隆虚拟机...原创 2019-06-03 21:15:29 · 2417 阅读 · 2 评论 -
linux命令ifconfig显示不出IP地址
linux命令ifconfig显示不出IP地址之前修改了一下mac地址,再次登录后使用ifconfig查出来发现IP变成127.0.0.1。一脸懵逼。修改该问题时,从网上找了几个解决方案,没有解决,可能是问题点不同,各位要是遇到类似的可以照着修改一下。其中还涉及了这个问题:1. IP设置不对之前IP是DHCP服务器来帮忙分配,现在想设置成静态的,于是修改了IP地址。开始以为是这个问...原创 2019-06-03 21:08:27 · 16915 阅读 · 3 评论 -
使用SQLyang连接Mysql时报Error no. 1251
使用SQLyang连接Mysql时报Error no. 1251获取SQLyang:链接:https://pan.baidu.com/s/1rOMvuTygY2YrzYzjFLDg3w提取码:9lia错误内容:Error no. 1251: "Client does not support authentication protocol requested by server - con...原创 2019-06-03 21:04:02 · 3503 阅读 · 7 评论 -
如何自定义设置虚拟机的的IP地址
如何自定义设置虚拟机的的IP地址之前我们装虚拟机的时候是选择使用DHCP服务器帮我们自动分配,现在我们想固定一个IP给虚拟机,方便以后使用。1. 首先我们需要知道虚拟机可用的网段是哪一段在VMware的主页点击编辑,然后点击里面的虚拟网络编辑器。然后在打开的窗口里面点击DHCP设置。点击后我们可以在新打开的窗口里看到网络的网段的范围。我们再查看一下网关。点击一下下面的更改...原创 2019-06-03 20:54:51 · 58592 阅读 · 0 评论 -
虚拟机创建--创建一个NET模式的虚拟机
虚拟机创建–创建一个NET模式的虚拟机上传这篇博客时都忘记这个是什么时候写的了,然后发现自己没有写VMware的安装教程,没办法了,网上找了下,大家参考下面的来吧。最新超详细VMware虚拟机下载与安装个人推荐百度经验这篇,毕竟百度出品,应该ok : VMware Workstation 14 Pro安装教程之前已经安装好VMWare了,基础的概念也总结了一下,现在我们来装一台虚拟机玩玩,...原创 2019-06-03 20:48:18 · 1047 阅读 · 0 评论 -
IDEA集成MAVEN插件
IDEA集成MAVEN插件1. 使用cmd命令窗口,输入mvn - v ,查看是否已经安装好maven。这个之前有安装教程。2. 打开IDEA,进入主界面后点击 configure 然后点击 settings3. 在上面的快捷查找框中输入maven,查找与maven相关的设置,然后点击maven,再点击右边的设置,找到与maven安装路径。4. 找到之前解压的位置,选择如图的路径。...原创 2019-05-31 22:52:36 · 20975 阅读 · 1 评论 -
初识VMware
初识VMware1. VMware 虚拟网络在搭建虚拟机之前,还是得熟悉一下虚拟机的概念。1.1 虚拟网卡、虚拟交换机当使用 VMware Workstation 安装一个虚拟机时就会自动安装一块虚拟网卡,此外还可手动给虚拟机添加多块虚拟网卡。交换机用于电(光)信号的转发。可以为接入交换机的任意两个网络节点提供独享的电信号通路。简单的理解可以把一些电脑连接在一起组成一个局域网。常用的...原创 2019-05-31 22:49:41 · 183 阅读 · 0 评论 -
安装maven
安装maven1. 下载maven管理工具1. 百度搜索maven,进入官网2. 选择download,然后选择最新的版本下载,因为是装在windows上面,所以选择 .zip 结尾的文件maven安装1. 下载完后是一个压缩包,maven不需要像装软件那样安装,只需要将其解压到一个没有中文路径的地方。我这边解压放到了C盘。这个可以也安装在其他盘。2. 解释一下各个文件的含义:...原创 2019-05-31 22:48:05 · 222 阅读 · 0 评论 -
Mysql安装教程
Mysql安装教程虽然暂时用不到在数据库之间传递数据,但是还是先安装一下,之后再说。附:MySQL连接工具下载:链接:https://pan.baidu.com/s/1rOMvuTygY2YrzYzjFLDg3w提取码:9lia下载:先打开百度搜索mysql,然后进入官网点击 DOWNLOADS进入下载页面,然后选择Windows,在选择Windows installer...原创 2019-05-31 22:44:23 · 5573 阅读 · 1 评论 -
eclipse安装教程
eclipse安装教程毛线安装教程,eclipse有免安装绿色版,而且可以直接从官网下载。页面直达:免安装绿色版注意:之前本想直接找个链接给大家去下载就好了,但是发现有些直达的链接因为年代久远失效了,所以这里我给出了直达的链接,失效了可以通知我一声进行修改,也可以按下面流程进行下载。详细找包流程:打开官网,点击下载eclipse官网选择安装包下载找到这个:Eclip...原创 2019-05-27 21:41:15 · 574 阅读 · 0 评论 -
jdk安装教程
jdk安装教程1. jdk概念1. jrejre是java的运行环境,它包含了jvm,jre=jvm+ java的核心类库。如果你想要运行一个开发好的java 程序. 只需要下载jre 即可. jre下载地址: www.oracle.com (这个里面还有许多内容,没事可以进去逛逛) jre下载流程:www.oracle.com ->java->javase ->下载-...原创 2019-05-27 21:35:06 · 229 阅读 · 0 评论 -
HDFS 元数据管理机制
HDFS 元数据管理机制文章目录HDFS 元数据管理机制元数据管理概述元数据目录相关文件dfs.namenode.name.dirVERSIONseen_txidFsimage & editssecondary namenodeCheckpointCheckpoint 详细步骤Checkpoint 触发条件元数据管理概述HDFS 元数据,按类型分,主要包括以下几个部分:文件、目...原创 2019-09-17 08:39:00 · 407 阅读 · 0 评论 -
Hive练习
Hive练习文章目录Hive练习博客资源:创建表创建分区表创建单分区表创建多个分区表创建分桶表开启分桶功能创建分桶表映射数据:多重插入:动态分区Hive数据导出Hive的本地模式博客资源:一些自己编造的数据,还有一个从朋友那里获取到的数据,随意玩玩。当前下面练习描述中我会用到。链接:https://pan.baidu.com/s/15Ix8wlQ5zQOEB6Q-7mW9yA提取码:z7...原创 2019-09-17 09:01:21 · 434 阅读 · 0 评论 -
Hive的基本操作
Hive的基本操作1. DDL 操作1.1. 创建表建表语法:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_typ...原创 2019-09-17 08:55:40 · 345 阅读 · 0 评论 -
Hive表与内部数据的映射关系
Hive表与内部数据的映射关系1. 在练习Hive之前,先创建一个文件夹来存放Hive的练习数据。命令:cd /export/data/ ,然后创建对应文件夹: mkdir hivedata2. 进入hivedata文件夹,创建一个名为1.txt 的文件,将如下数据复制进去。1,allen,182,jack,283,rose,204,lucy,103. 然后将文件上传值HDF...原创 2019-09-17 08:53:21 · 2658 阅读 · 0 评论 -
Hive的几种启动方式
Hive的几种启动方式A. shell客户端启动使用命令:/export/server/hive/bin/hive 直接启动。B. 远程访问Hiveshell客户端启动只能启动本机上的Hive,如果要在别的客户端上启动,就不能使用这个方式,所以这里提供一种远程访问的启动方式。1. 在Hive的bin目录下可以启动一个服务器来接受远程服务。进入Hive的安装目录,使用命令:bin/hi...原创 2019-09-17 08:50:31 · 10473 阅读 · 0 评论 -
Hive安装部署
Hive安装部署博客资源:Hive的安装包和源码包:链接:https://pan.baidu.com/s/13xvIMzJ69PZUJ75Eo11cHQ提取码:olnlHive连接MySQL的驱动:链接:https://pan.baidu.com/s/1eNiSY_GBRh6s-x-atbNlGw提取码:cfdxHive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。...原创 2019-09-17 08:48:13 · 547 阅读 · 0 评论 -
Hadoop Federation(联邦)
Hadoop Federation(联邦)单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode 进程使用的内存可能会达到上百 G,NameNode 成为了性能的瓶颈。因而提出了 namenode 水平扩展方案-- Federation。Federation 中文意思为联邦,联盟,是 NameNode 的 Federation,也...原创 2019-09-17 08:43:56 · 345 阅读 · 0 评论 -
Hadoop HA
Hadoop HA文章目录Hadoop HA概述Namenode HANamenode HA 详解架构上的修改:Failover ControllerZKFailoverController 主要职责:YARN HA概述HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正...原创 2019-09-17 08:42:55 · 293 阅读 · 0 评论 -
HDFS 安全模式
HDFS 安全模式文章目录HDFS 安全模式安全模式概述安全模式配置安全模式命令安全模式概述安全模式是 HDFS 所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。在 NameNode 主节点启动时,HDFS 首先进入安全模式,集群会开始检查数据块的完整性。DataNode 在启动的时候会向 namen...原创 2019-09-17 08:41:01 · 346 阅读 · 0 评论 -
Hive中文乱码解决
Hive中文乱码解决在练习Hivesql语句时,发现中文插入乱码。首先查看文件的编码格式使用命令:cd /export/data/hivedata/ 进入数据存储位置然后使用命令:file t_map.txt发现文件编码格式时UTF-8 ,所以不是文件编码格式问题。查看MySQL的编码格式先使用命令mysql -uroot -p ,然后输入密码,进入MySQL;使用命令:show...原创 2019-09-17 09:04:56 · 4910 阅读 · 0 评论 -
Hive 参数配置
Hive 参数配置1. Hive 命令行直接输入 $HIVE_HOME/bin/hive 会进入Hive的shell客户端交互窗口。输入$HIVE_HOME/bin/hive –H或者 –help可以显示帮助选项:说明:-i 初始化 HQL 文件。-e 从命令行执行指定的 HQL-f 执行 HQL 脚本-v 输出执行的 HQL 语句到控制台-p <port> con...原创 2019-09-18 10:28:21 · 271 阅读 · 0 评论 -
Azkanban基本概念
Azkanban基本概念博客资源:链接:https://pan.baidu.com/s/1XgXXyGdSz4T9qDXK44ypjA提取码:n2ay内包含Azkaban安装所需的三个tar包。介绍Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 使用 job 配置文件建立任务之间的依赖关系...原创 2019-09-18 10:53:46 · 1109 阅读 · 0 评论 -
Sqoop的导入和导出
Sqoop的导入和导出博客资源:MySQL创建测试表和数据,Sqoop相关练习脚本:链接:https://pan.baidu.com/s/1M_Zr3-cJNJMZQHhUA3XZKQ提取码:csgw导入将MySQL的数据导入到hdfs本地连接node-1上的数据库:使用SQLyog连接先新建一个测试数据库,名为:userdb先在本地使用之前安装好的sqlyang连接nod...原创 2019-09-18 10:47:49 · 340 阅读 · 0 评论 -
Sqoop的安装
Sqoop的安装博客资源:Sqoop 1.4.6版和MySQL连接驱动包:链接:https://pan.baidu.com/s/19CFgnSt6dCgoet2tSx2adQ提取码:b614前置工作:需要先具备 java 和 hadoop 的环境。安装流程:先将安装包上传到软件保存位置命令:cd /export/server/然后使用 rz 命令上传Sqoop的安装包...原创 2019-09-18 10:43:26 · 160 阅读 · 0 评论 -
Hive创建UDTF函数
Hive创建UDTF函数文章目录Hive创建UDTF函数参考:这部分不知道建一个什么样的函数,就照着网上的来了,所以就不写其他东西了package com.chinasofti.hive.udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec...转载 2019-09-18 10:40:22 · 343 阅读 · 0 评论 -
Hive创建UDAF函数
Hive创建UDAF函数文章目录Hive创建UDAF函数1. 在之前的maven工程上重新创建一个java类2. 将写好的程序打包3. 上传至Linux系统上4. 连接上Hive5. 使用命令,将jar包添加进Hive中6. 创建一个临时函数与添加进来的jar包进行关联7. 测试一下参考:1. 在之前的maven工程上重新创建一个java类package com.chinasofti.hiv...原创 2019-09-18 10:39:19 · 1184 阅读 · 0 评论 -
Hive创建自定义GenericUDF函数
Hive创建自定义GenericUDF函数文章目录Hive创建自定义GenericUDF函数本文需要了解的几个点:1. 在之前的maven工程上重新创建一个java类2. 将写好的程序打包3. 上传至Linux系统上4. 连接上Hive5. 使用命令,将jar包添加进Hive中6. 创建一个临时函数与添加进来的jar包进行关联7. 测试一下参考:本文需要了解的几个点:ObjectInsp...原创 2019-09-18 10:35:58 · 2301 阅读 · 0 评论 -
Hive创建自定义UDF函数
Hive创建自定义UDF函数文章目录Hive创建自定义UDF函数博客资源:1. 首先打开IDEA,创建一个maven项目2. 导入所需要的依赖3. 创建一个包来存储相关的类4. 写一个 java 类,继承 UDF,并重载 evaluate 方法5. 将写好的程序打包6. 上传至Linux系统上7. 连接上Hive8. 使用命令,将jar包添加进Hive中9. 创建一个临时函数与添加进来的jar包...原创 2019-09-18 10:33:18 · 1267 阅读 · 1 评论 -
Hive索引
Hive索引文章目录Hive索引Compact索引Aggregation索引Bitmap索引Compact索引CREATE INDEX idx_xxx ON TABLE xxx(tablename) AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' WITH DEFERRED REBUILD;使用 show ...原创 2019-09-18 10:30:04 · 300 阅读 · 0 评论 -
Hive MR优化
Hive MR优化文章目录Hive MR优化1. map reduce个数选择2. 调整一批运行的map数3. 动态调整4. 设置合理的reduce启动时间5. 设置sort时的内存6. 对map的输出结果进行压缩,提升从map到reduce的传输效率7. 对于复杂的任务,还需要通过并行来提升整体运行速度1. map reduce个数选择在这方面,尤其是map的选择,基本上决定了整个job的...原创 2019-09-18 10:29:16 · 437 阅读 · 0 评论 -
HDFS 的 JAVA API 操作
HDFS 的 JAVA API 操作本节资源:Hadoop在window上编译好的压缩包:链接:https://pan.baidu.com/s/1QvialqyxBu_eHvLEkwBcAw提取码:q8f7HDFS 在生产应用中主要是客户端的开发,其核心步骤是从 HDFS 提供的 api中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS 上的文件。1...原创 2019-08-13 22:49:24 · 240 阅读 · 0 评论 -
HDFS基本原理
HDFS基本原理NameNode 概述NameNode 是 HDFS 的核心。NameNode 也称为 Master。NameNode 仅存储 HDFS 的元数据:文件系统中所有文件的目录树,并跟踪整个集群中的文件。NameNode 不存储实际数据或数据集。数据本身实际存储在 DataNodes 中。NameNode 知道 HDFS 中任何给定文件的块列表及其位置。使用此信息Name...原创 2019-08-13 22:47:28 · 184 阅读 · 0 评论 -
MapReduce 优化参数
MapReduce 优化参数文章目录MapReduce 优化参数资源相关参数以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效以下参数应该在 yarn 启动之前就配置在服务器的配置文件中才能生效shuffle 性能优化的关键参数,应在 yarn 启动之前就配置好容错相关参数效率跟稳定性参数资源相关参数以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效m...原创 2019-09-16 15:39:42 · 1623 阅读 · 1 评论 -
MapReduce工作机制详解
MapReduce工作机制详解文章目录MapReduce工作机制详解MapTask 工作机制简单概述:详细步骤:ReduceTask 工作机制简单概述:详细步骤:Shuffle 机制MapReduce 并行度机制FileInputFormat 切片机制Reducetask 并行度机制Task 并行度经验之谈MapTask 工作机制简单概述:input File 通过 split 被逻辑切分...原创 2019-09-16 15:38:48 · 337 阅读 · 0 评论 -
Mapreduce 的 combiner
Mapreduce 的 combiner每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络 IO 性能,是 MapReduce 的一种优化手段之一。combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件combiner 组件的父类就...原创 2019-09-16 15:36:48 · 241 阅读 · 0 评论