自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 HiveSql转MR 源码解析

HiveSql转MR 源码解析步骤。

2022-12-13 00:42:31 204 1

原创 zookeeper面试题

1 请简述ZooKeeper的选举机制1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。3)以一个简单的例子来说明整个选举的过程。假设有五台服务器...

2020-04-13 15:16:15 513

原创 zookeeper分布式安装

1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装(1)解压Zookeeper安装包到/opt/module/目录下[ch@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/(2)同步/opt/module/zookeeper-3...

2020-04-13 15:01:35 140

原创 Hadoop序列化

1 序列化概述1.1 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将接受到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。1.2 为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另一台计算机。然而序列化可以...

2020-03-03 17:47:45 361

原创 MapReduce概述

1 MapReduce定义MapReduce是一个分布式运算程序的变成框架,是基于Hadoop的数据分析计算的核心框架。MapReduce处理工程分为两个阶段:Map和Reduce。Map负责把一个任务分解成多个任务;Reduce负责把分解后的多任务处理的结果汇总。2 MapReduce优缺点2.1 优点1.MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这...

2020-03-03 16:47:51 413

原创 HDFS 2.X新特性

1 集群间数据拷贝1.scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/ch/hello.txt // 推 pushscp -r root@hadoop103:/user/ch/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/ch/hello.txt roo...

2020-03-03 12:32:57 214

原创 DataNode

1. DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器...

2020-03-03 12:20:37 1733

原创 NameNode和SecondaryNameNode工作机制

NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsIm...

2020-03-02 10:03:46 238

原创 Linux文件与目录结构

1.Linux文件linux系统中一切皆文件2.Linux目录结构Linux目录结构常见目录作用其中/bin,/home,/root,/etc,/usr,/boot,/media,/mnt,/opt,/var这几个的功能一般要记住。

2020-03-02 09:46:21 1459

原创 HDFS的数据流

1 HDFS写数据流程1.1 剖析文件写入HDFS写数据流程,如下图1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为DN...

2020-03-02 09:40:10 213

原创 Fsimage中没有记录块所对应DataNode,为什么?

从以上fsimage中加载如namenode内存中的信息中可以很明显的看出,在fsimage中,并没有记录每一个block对应到哪几个datanodes的对应表信息,而只是存储了所有的关于namespace的相关信息。而真正每个block对应到datanodes列表的信息在hadoop中并没有进行持久化存储,而是在所有datanode启动时,每个datanode对本地磁盘进行扫描,将本datano...

2020-03-01 12:41:17 1350

原创 NameNode故障后的数据恢复

NameNode故障后,可以采用如下两种方法恢复数据。方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录;kill -9 NameNode进程删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[ch@hadoop102 hadoop-2.7.2]$ rm -rf /opt/module...

2020-02-27 18:33:13 1406

转载 HDFS块大小的计算与设计规则

HDFS块大小的计算与设计规则

2020-02-26 18:12:19 2458

原创 SSH无密登录原理及配置方法

1.ssh无密登录原理看网上都不太清除,就自己画了一张。2.ssh配置1. 配置ssh(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[ch@hadoop102 opt] $ ssh 192.168.1.103The authenticity of host '192.168.1.103 (192.1...

2020-02-26 17:45:04 1350

原创 Hadoop常见错误及解决方案

1)防火墙没关闭、或者没有启动YARNINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)IP地址配置错误4)ssh没有配置好5)root用户和atguigu两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unable to load ...

2020-02-26 16:30:16 1528

转载 hadoop为什么要编译源码

https://blog.csdn.net/summerxiachen/article/details/79145456

2020-02-26 16:09:17 2774

原创 Shell面试题

1 京东问题1:使用Linux命令查询file1中空行所在的行号[ch@hadoop102 datas]$ awk '/^$/{print NR}' sed.txt 5问题2:有文件chengji.txt内容如下:张三 40李四 50王五 60使用Linux命令计算第二列的和并输出[ch@hadoop102 datas]$ cat chengji.txt | awk -F " "...

2020-02-25 17:17:59 1350

原创 常用的Shell工具详解

1. cutcut的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。1.基本用法cut [选项参数] filename说明:默认分隔符是制表符2.选项参数说明选项参数功能-f列号,提取第几列-d分隔符,按照指定分隔符分割列3.案例实操(0)数据准备[ch@had...

2020-02-25 17:08:40 1948

原创 Linux企业面试题

1 百度&考满分问题:Linux常用命令参考答案:find、df、tar、ps、top、netstat等。(尽量说一些高级命令)2 瓜子二手车问题:Linux查看内存、磁盘存储、io 读写、端口占用、进程等命令答案:1、查看内存:top2、查看磁盘存储情况:df -h3、查看磁盘IO读写情况:iotop(需要安装一下:yum install iotop)、iotop -o...

2020-02-23 15:48:02 1455

原创 虚拟化支持异常解决方法

若出现如下几种情况则表示虚拟化支持异常问题原因:宿主机BIOS设置中的硬件虚拟化被禁用了解决办法:需要打开笔记本BIOS中的IVT对虚拟化的支持...

2020-02-23 12:40:50 3681

原创 Linux预读迟写与sync

预读Linux系统很重要的一个性能提升点就是它的Pagecache, 因为内存比IO快太多了,所以大家都想进办法来利用这个cache。 文件系统也不例外,为了达到高性能,文件读取通常采用预读来预测用户的行为,把用户可能需要的数据预先读取到cache去,达到高性能的目的。迟写当用户保存文件时,Linux核心并不一定立即将保存数据写入物理磁盘中,而是将数据保存在缓冲区中,等缓冲区满时再写入磁盘,...

2020-02-23 11:36:45 1832

原创 Centos6.8找回root用户密码

1.重启Linux,见到下图,在3秒钟之内按下回车2.三秒之内要按一下回车,出现如图3.按下e键就可以进入下图4.移动到下一行,再次按e键,如图5.移动到下一行,进行修改,如图修改完成后回车键,然后按b键进行重新启动进入系统6.移动到下一行,进行修改最终修改完密码,reboot一下即可。...

2020-02-22 18:32:03 1874 1

原创 如何区分桥接、NAT、仅主机这三种网络模式

三种网络模式的特点网络模式特点Bridged(桥接模式)将虚拟机的虚拟网络适配器与主机的物理网络适配器进行交接,虚拟机中的虚拟网络适配器可通过主机中的物理网络适配器直接访问到外部网络。简而言之,这就好像在局域网中添加了一台新的、独立的计算机一样。因此,虚拟机也会占用局域网中的一个IP地址,并且可以和其他终端进行相互访问。桥接模式网络连接支持有线和无线主机网络适配器。如果想把...

2020-02-22 18:16:24 1946

原创 个人作品展示---基于Spark的电影推荐系统

该项目是本人参加山东省软件设计大赛过程中参照网上相关开源算法完成的作品一、项目背景随着互联网技术的快速发展与普及,在线电影数量飞速增长,要想从众多的电影中选择一部自己想看的电影变得越来越困难。为了得到更好的观影体验,推荐系统应运而生。推荐系统是解决在海量信息中获取用户想得到数据的利器,给用户带来良好的体验。二、项目简介该作品是以MovieLens数据集和TMDB网站数据作为依托,基于Sp...

2019-12-06 19:35:29 3952 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除