CSDN如何将插入图片缩小并且居中 CSDN的插入图有时候显示比较大,不方便查看,这时只需要在原图片的地址上增加缩放比即可。例如插入后系统给的地址为:https://img-blog.csdnimg.cn/f348670dbadc4da2a52db5926c16d10b.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5Y2X5rSyLg==,size_20,color_FFFFFF,t_70,g_se,x_16
Flume 数据流监控——Ganglia的安装与部署 1、Ganglia的安装(1) 安装 dhttpd 服务与 php[yasin@hadoop102 flume]$ sudo yum -y install httpd php(2)安装其他依赖[atguigu@hadoop102 flume]$ sudo yum -y install rrdtool perl-rrdtoolrrdtool-devel[atguigu@hadoop102 flume]$ sudo yum -y install apr-devel(3)安装 gangli
Flume介绍 1、Flume定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。2、Flume架构Flume 组成架构如图所示:(1)AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel、Sink。(2) SourceSource 是负责接收
5道Hive典型题目解析 一、连续问题如下数据为蚂蚁森林中用户领取的低碳排放量(lowcarbon)id dt lowcarbon1001 2021-12-12 1231002 2021-12-12 451001 2021-12-13 431001 2021-12-13 451001 2021-12-13 231002 2021-12-14 451001 2021-12-14 2301002 2021-12-15 451001 2021-12-15 23… …找出连续 3 天及以上领取的
Hive优化方法汇总 1、Fetch抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive 默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limi
order by, sort by, distribute by, cluster by 区别 四种在hive中都有排序和聚集的作用,但它们在执行时所启动的MR却各不相同。1、order byOrder By:全局排序,只有一个 Reducer。排序:ASC(ascend): 升序(默认)DESC(descend): 降序按照薪资水平对员工升序排列:hive (default)> select ename,sal from emp order by sal;ename salSMITH 800.0JAMES 950.0ADAMS 1100.0MARTIN 1250.0W
Linux系统下删除乱码类型文件 在linux下操作“rz”命令时,使得目录下产生了乱码文件,如下:对于有些有英文字母的文件可以直接按Tab 补全用rm命令删除,带???号文件则不行。这个乱码的文件需要通过iNode删除。查看iNode号ls -i[yasin@hadoop102 software]$ ls -i105583886 - 105583881 ??? 102424207 hadoop-3.1.3.tar.gz 104804033 zookee
Hive基本知识 1、Hive概念(1)Hive简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。(2)Hive本质本质:将 HQL 转化成 MapReduce 程序1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的实现是 MapReduce3)执行程序运行在 Yarn 上2、Hive优缺点Hive优点:(1)操作接口采用类 SQL 语法,提
Zookeeper监听器原理 1、监听器详情1)首先要有一个main()线程2)在main线程中创建Zookeeper客户端,这时就会创建两个线程,一个负责网络连接通信(connet),一个负责监听(listener)。3)通过connect线程将注册的监听事件发送给Zookeeper。4)在Zookeeper的注册监听器列表中将注册的监听事件添加到列表中。5)Zookeeper监听到有数据或路径变化,就会将这个消息发送给listener线程。6)listener线程内部调用了process()方法。2、常见的监听1
Zookeeper选举机制 SID:服务器ID。用来唯一标识一台ZooKeeper集群中的机器,每台机器不能重复,和myid一致。ZXID:事务ID。ZXID是一个事务ID,用来标识一次服务器状态的变更。在某一时刻,集群中的每台机器的ZXID值不一定完全一致,这和ZooKeeper服务器对于客户端“更新请求”的处理逻辑有关。Epoch:每个Leader任期的代号。没有Leader时同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加。1、第一次启动(1)服务器1启动,发起一次选举。服务器1投自己一票。此时服务器
Yarn常用命令 1、yarn application查看任务yarn application -list2021-08-09 16:08:29,196 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.10.103:8032Total number of applications (application-types: [], states: [SUBMITTED, ACCEPTED, RUNNING] and tags:
Yarn基础结构及工作机制 1、Yarn基础结构2、Yarn工作机制(1)MR 程序提交到客户端所在的节点。(2)YarnRunner 向 ResourceManager 申请一个 Application。(3)RM 将该应用程序的资源路径返回给 YarnRunner。(4)该程序将运行所需资源提交到 HDFS 上。(5)程序资源提交完毕后,申请运行 mrAppMaster。(6)RM 将用户的请求初始化成一个 Task。(7)其中一个 NodeManager 领取到 Task 任务。(8)该 NodeManag
MapReduce中的WritableComparable 排序 1、排序概述排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序。对于ReduceT
MapReduce中FileInputFormat解析 1、概述在map阶段,文件先被切分成split块,而后每一个split切片对应一个Mapper任务。FileInputFormat这个类先对输入文件进行逻辑上的划分,以128M为单位,将原始数据从逻辑上分割成若干个split,每个split切片对应一个Mapper任务。2、切片与与MapTask并行度决定机制数据块:Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是Ma
HDFS概述 1、HDFS 产出背景及定义(1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。(2)HDFS 定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色
MapReduce介绍及核心思想 1、定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上2、优点(1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapRedu
DateNode的工作机制 DataNode的工作机制:(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息。DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时。DN 扫描自己节点块信息列表的时间,默认 6 小时。(3)心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 Data
NameNode 和 和 SecondaryNameNode工作机制 1、引入问题:NameNode 中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。**因此