大数据
既然你选择了进入大数据行业,那么便只顾风雨兼程。正所谓不忘初心、方得始终,学习大数据你最需要的还是一颗持之以恒的心。
张反水
创业爱好者,软件开发学子
此博客用于学习笔记和分享学习知识,内容如有侵权,联系删除
展开
-
HBASE启动报错
报错信息:ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing\导致问题的原因可能是因为服务器之间的时间不同步或因为zk的znode上有历史数据导致。解决方法是将服务器时间进行同步:ntpdate -u cn.pool.ntp.org删除zk上的hbase的znode节点zkCli.sh -server 服务器地址:2181(默认端口号)查看hbase在服务器上的节点信息ls /..原创 2020-05-25 08:38:20 · 568 阅读 · 0 评论 -
MapReduce的几个企业级经典面试案例
MapReduce的几个企业级经典面试案例一、官方统计案例:要求:统计一下单词出现的次数测试数据:zhangyong zhangrui zhangqinzhangyong zhangrui zhangqinzhangyong zhangrui zhangqinzhangyong zhangrui zhangqinzhangyong zhangrui zhangqinzha...原创 2020-04-21 14:17:59 · 315 阅读 · 0 评论 -
超详细的企业必备HDFS高可用性集群搭建
HDFS高可用性集群搭建1.环境准备主机从机从机主机名anshun112anshun113anshun114hostnameanshun112anshun113anshun114IP地址192.168.153.112192.168.153.113192.168.153.114用户名zhangyongzhangyongzhangy...原创 2020-04-07 10:17:15 · 261 阅读 · 0 评论 -
搭建Hadoop集群需要多少时间,5分钟够吗???
快速搭建Hadoop集群1.环境准备主机从机从机主机名hadoop201hadoop202hadoop203hostnamehadoop201hadoop202hadoop203IP地址192.168.153.201192.168.153.202192.168.153.203用户名zhangyongzhangyongzhangy...原创 2020-03-23 00:04:23 · 884 阅读 · 1 评论 -
一篇文章搞定大数据Zookeeper,让你少走很多弯路
大数据技术之Zookeeper第1章 Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注...原创 2020-03-18 08:32:33 · 2529 阅读 · 2 评论 -
大数据之Linux自动化部署系统——无人值守
Linux自动化部署系统实现思路、方法:FTP+TFTP+DHCP+Kickstart+PXE:1、搭建 yum 源1.1用 yum 来安装所需要的软件包,先来搭建 yum 光盘源:在根目录下创建mnt文件夹,挂载[root@localhost ~]# mkdir /mnt/[root@localhost ~]# mount /dev/cdrom /mnt/mount: bl...原创 2020-03-15 11:07:42 · 4481 阅读 · 0 评论 -
大数据之Linux的常用命令
第1章:文件与目录操作文件管理是操作系统的重要功能。在Linux中所有的软硬件资源都被认为是特殊文件。1.1 ls指令:显示目录内容:【语法】ls [选项] [参数]【功能介绍】ls指令用来显示目录列表。【常见的选项说明】选项功能-a显示包括隐藏文件(文件名以“.”开头)在内的所有文件-l长列表显示-hhuman 以人性化的方式显示出来...原创 2020-03-14 11:43:02 · 382 阅读 · 0 评论 -
大数据之vim
vim1.什么是vim:它是一个类似vi的文本编辑器/文本编辑工具。只是在vi的基础之上增添了很多的新 功能,vim被公认为是类vi编辑器中最好用的一个之一。2.为什么一定要学习vim:vim在vi的基础之上所增加的新功能,可以有效的帮助工程师快速的排查问题。比 如为不同字段进行颜色的区分很多系统都会内建vi编辑器,其他的文本编辑器不一定有。众多软件都会主动的调 用vi的接口。...原创 2020-03-12 00:14:04 · 430 阅读 · 0 评论 -
大数据技术之Shell
第1章 Shell概述Shell是一个命令行解释器,它接收应用程序/用户命令,然后调用操作系统内核。Shell还是一个功能相当强大的编程语言,易编写、易调试、灵活性强。第2章 Shell解析器(1)Linux提供的Shell解析器有:[root@localhost ~]$ cat /etc/shells (2)bash和sh的关系[root@localhost bin]$ ...原创 2020-03-11 14:02:47 · 366 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(3)——Shuffle机制
3.3 Shuffle机制3.3.1 Shuffle机制Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle:3.3.2 Partition分区3.3.3 Partition分区案例实操需求将统计结果按照手机归属地不同省份输出到不同文件中(分区)(1)输入数据1 13736230513 192.196.100.1 www.atguigu.com 248...原创 2020-03-10 21:10:08 · 273 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(3)——MapReduce工作流程
3.2 MapReduce工作流程1.流程示意图:2.流程详解上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3)多个溢出文件会被合并成大的溢出文件4)在溢出过程及合...原创 2020-03-09 11:19:39 · 328 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(3)——自定义InputFormat案例实操
3.1.9 自定义InputFormat案例实操无论HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。1.需求将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),Sequ...原创 2020-03-06 23:06:15 · 275 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(3)——NLineInputFormat使用案例
3.1.8 NLineInputFormat使用案例1.需求对每个单词进行个数统计,要求根据每个输入文件的行数来规定输出多少个切片。此案例要求每三行放入一个切片中。(1)输入数据banzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hado...原创 2020-03-06 09:38:39 · 188 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(3)——KeyValueTextInputFormat使用案例
3.1.7 KeyValueTextInputFormat使用案例1.需求统计输入文件中每一行的第一个单词相同的行数。(1)输入数据banzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhang(2)期望结果数据banzhang 2xihuan 22.需求分析在本地的Hadoop3.1...原创 2020-03-06 09:03:09 · 199 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(3)——CombineTextInputFormat
3.1.5 CombineTextInputFormat案例实操示例:统计单词个数准备工作在hdfs的根目录下创建input文件夹,然后在里面放置4个大小分别为1.5M、35M、5.5M、6.5M的小文件作为输入数据具体代码Mapper类public class WordCountMapper extends Mapper<LongWritable, Text, Text...原创 2020-03-06 08:27:36 · 205 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(3)——MapReduce框架原理概念一
第3章 MapReduce框架原理3.1 InputFormat数据输入3.1.1 切片与MapTask并行度决定机制问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因...原创 2020-03-05 22:03:05 · 181 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(2)——Hadoop序列化
第2章:Hadoop序列化2.1 序列化概述2.1.1什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2.1.2为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被...原创 2020-03-05 20:33:56 · 160 阅读 · 0 评论 -
大数据技术之Hadoop之MapReduce(1)——MapReduce概述
第1章 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 MapReduce优缺点1.2.1 优点MapReduce 易于编程它简单的实...原创 2020-03-05 13:05:31 · 485 阅读 · 0 评论 -
大数据技术之Hadoop之HDFS(7)——HDFS读写数据流程
第七章:HDFS写数据流程7.1 HDFS写数据流程HDFS写数据流程图1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为...原创 2020-03-05 09:18:10 · 232 阅读 · 0 评论 -
大数据技术之Hadoop之HDFS(6)——HDFS的I/O流操作
第六章:HDFS的I/O流操作(扩展)上面我们学的API操作HDFS系统都是框架封装好的。自己实现上述API的操作该怎么实现呢?可以采用IO流的方式实现数据的上传和下载。6.1 HDFS文件上传需求:把本地d盘上的QQ里面的QQWhatsnew.txt文件上传到HDFS根目录编写代码 /** * 把本地D盘上的/QQ/QQWhatsnew.txt文件上传到HDFS根目录 ...原创 2020-03-04 17:09:50 · 216 阅读 · 1 评论 -
大数据技术之Hadoop之HDFS(5)——HDFS的API操作
第五章:HDFS的API操作5.2 从本地中上传文件到HDFS第一步:用IDEA创建Maven形式的Java项目第二步:添加Maven依赖在pom.xml添加HDFS的坐标,<dependencies> <dependency> <groupId>junit</groupId> <art...原创 2020-03-04 09:27:19 · 202 阅读 · 0 评论 -
大数据技术之Hadoop之HDFS(4)——HDFS搭建客户端并测试
第四章:HDFS搭建客户端并测试4.1 测试连接虚拟机第一步:用IDEA创建Maven形式的Java项目第二步:添加Maven依赖在pom.xml添加HDFS的坐标,<dependencies> <dependency> <groupId>junit</groupId> <artifac...原创 2020-03-03 22:46:28 · 216 阅读 · 0 评论 -
大数据技术之Hadoop之HDFS(3)—— win10安装hadoop3.1.2
第三章:win10安装hadoop3.1.21、安装环境win10 64位jdk1.8hadoop3.1.22、安装jdk1.8,并配置环境变量3、安装配置hadoop3.1、下载到hadoop官网下载hadoop的最新版本压缩包,下载地址:Hadoop3.1.2,解压过后目录如下所示:3.2、解压并配置环境变量在环境变量中新建HADOOP_HOME变量,变量值是hado...原创 2020-03-03 16:23:42 · 627 阅读 · 0 评论 -
大数据技术之Hadoop之HDFS(2)—— HDFS的Shell操作
第2章 HDFS的Shell操作1.基本语法bin/hadoop fs 具体命令 bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[zhangyong@hadoop101 hadoop-3.1.2]$ bin/hadoop fs3.常用命令实操(0)启动Hadoop集群(方便后续的测试)[zhangyong@hadoop101 hadoop-3.1.2...原创 2020-03-03 14:55:25 · 319 阅读 · 0 评论 -
大数据技术之Hadoop之HDFS(1)——HDFS概述
第1章 :HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点原创 2020-03-03 13:22:54 · 231 阅读 · 2 评论 -
安装Linux以及搭建Hadoop3.1.2集群(9)——集群时间同步(完成)
第十章:集群时间同步时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。配置时间同步具体实操:时间服务器配置(必须root用户)(1)检查ntp是否安装[root@hadoop104 ~]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-f...原创 2020-03-02 09:13:37 · 149 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(8)——SSH无密登录配置
第九章:SSH无密登录配置9.1SSH无密登录配置配置ssh(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[zhangyong@hadoop104 opt] $ ssh 192.168.153.105The authenticity of host '192.168.1.105 (192.168.1...原创 2020-03-02 08:48:41 · 225 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(7)——完全分布式集群配置
第八章:集群配置8.1集群配置集群部署规划hadoop104hadoop105hadoop106HDFSNameNode DataNodeDataNodeSecondaryName NodeDataNodeYARNNodeManagerResourceManager NodeManagerNodeManager配置集群(1)核心配置文...原创 2020-03-01 23:10:37 · 305 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(6)——伪分布式环境搭建
第七章:完全分布式运行模式(开发重点)7.1.1 虚拟机准备主机从机从机主机名hadoop104hadoop105hadoop106hostnamehadoop104hadoop105hadoop106IP地址192.168.153.104192.168.153.105192.168.153.1067.1.2 编写集群分发脚本xsyn...原创 2020-03-01 22:48:27 · 217 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(5)——Hadoop运行模式
第六章 Hadoop运行模式Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。Hadoop官方网站:http://hadoop.apache.org/6.1 本地运行模式6.1.1 官方Grep案例创建在hadoop-3.1.2文件下面创建一个input文件夹[zpark@hadoop104 hadoop-3.1.2]$ mkdir input将H...原创 2020-03-01 11:40:55 · 356 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(4)——安装JDK1.8以及hadoop3.1.2
第五章:安装JDK1.8以及hadoop3.1.25.1 安装JDK卸载现有JDK (1)查询是否安装Java软件: [zpark@hadoop104 opt]$ rpm -qa | grep java(2)如果安装的版本低于1.7,卸载该JDK: [zpark@hadoop104 opt]$ sudo rpm -e 软件包(3)查看JDK安装路径: [zpark@hadoop104 ~]...原创 2020-02-29 15:50:07 · 459 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(3)——克隆虚拟机并配置网络
第四章:克隆虚拟机4.1 关闭虚拟机克隆4.2克隆完成4.3为虚拟机指定主机名》改hadoop105vi /etc/hostnamehadoop105》改hadoop10hadoop105vi /etc/hostnamehadoop1064.4为虚拟机指定IP》改hadoop105vi /etc/sysconfig/network-scripts/ifcfg-en...原创 2020-02-27 18:38:05 · 264 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(2)——网络配置和系统管理操作
第3章 Hadoop运行环境搭建3.1 虚拟机环境准备主机从机从机主机名hadoop104hadoop105hadoop106hostnamehadoop104hadoop105hadoop106IP地址192.168.153.104192.168.153.105192.168.153.1063.2防火墙查看防火墙状态firewa...原创 2020-02-27 12:59:24 · 233 阅读 · 0 评论 -
安装Linux以及搭建Hadoop3.1.2集群(1)——VMWare安装和CentOS安装
如何安装linux以及搭建Hadoop3.1.2集群1、第1章 Linux入门1.1 linux和Windows的区别!1.2 Centos下载地址http://mirrors.163.com/centos/7/isos/x86_64/第2章 VM与Linux的安装2.1 VMWare安装VMware Workstation Pro安装向导,如图:安装完成下...原创 2020-02-26 15:13:00 · 245 阅读 · 0 评论