hadoop
普罗米修斯之火
这个作者很懒,什么都没留下…
展开
-
yarn的WEB页面上不能看log日志
要是yarn的WEB页面上不能看。 就直接 yarn logs -applicationId applicationid_XXX_XX > XXX_XX.txt原创 2021-12-29 16:52:19 · 1086 阅读 · 0 评论 -
大数据之ZooKeeper_java端监听节点信息变化,代码实现
首先用Java操作zookeeper之前需要先创建一个Maven项目,然后导入如下依赖:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.原创 2020-08-23 21:17:16 · 898 阅读 · 0 评论 -
大数据之ZooKeeper基础介绍及安装部署
1.什么是 ZooKeeper是一个底层的分布式协调服务工具,它是hadoop生态体系中很多分布式系统(HDFS、YARN、HBASE、KAFKA…)的基础组件2.ZooKeeper的基本功能为客户提供写数据的功能,要求数据信息不大,属于状态信息数据为客户提供读取数据的功能为用户提供数据变化时的监控功能3.ZooKeeper的作用分布式系统中进行主节点选举分布式系统中主从节点的感知分布式系统中配置文件的同步分布式系统中动态上下线的感知分布式系统中分布式锁的实现,分布式中的同一个对象,类原创 2020-08-21 22:24:26 · 365 阅读 · 0 评论 -
大数据之Hadoop_MapReduce自定义输出和输入类型
自定义输出和输入类型介绍我们在使用MapReduce处理需要两次聚合的数据时,我们会进行两次输出,第二次输出的结果是读取第一次输出的结果进程聚合处理的,但我们只需要看到第二次的聚合的结果就可以了,第一次聚合的结果我们是否能看懂都无所谓,此时我们在进行第一次输出时,我们可以将输出类型由原来(当我们未自定义时默认的输入和输出类型都是TextInputFormat和TextOutputFormat)改为SequenceFileOutputFormat,Sequence相对于Text类型处理速度较快,且更节约内原创 2020-08-21 21:07:00 · 581 阅读 · 1 评论 -
大数据之Hadoop_MapReduce电影评分案例之高效TopN
电影评分案例之高效TopN例如:我们要求每部电影的最高评分的前n条记录,按照之前的做法在map端是以电影名为key,MovieBean为value,输出到reduce端,然后分组,将每组数组放入到List集合中按分数高低进行排序,取前n条.此时我么可以考虑在map端时将MovieBean作为key,输出到缓存区中,让缓存区自动按电影名分区并排序,然后分组,在reduce端我们只需要取出前n条记录即可.这样我们可以避免放入List集合中再排一遍序,大大的减少了运算量.那么当我们以MovieBean为ke原创 2020-08-21 20:43:00 · 2107 阅读 · 1 评论 -
大数据之Hadoop_Yarn的调度策略及Yarn的基本运行流程
Yarn的调度策略资源调度分三种:1.FIFO : 队列的形式调度,即这个节点中只有这一个队列,当这个队列中有个大文件在处理,处理的时间较长,这时其他的小文件就需要等待它执行完成后,其他文件文件才能执行,这种调度策略已经被淘汰.2.资源调度 : 设置多个节点并行执行不同的任务,不会造成队列的堵塞,但是即使是一个小文件也会占用一个节点,会造成资源的浪费3.公平调度 : 在一个节点中设两个队列,当只有一个任务在执行时,这个任务会占用所有的资源,即将两个队列都占满,但有另一个任务进来时,就会在另一个队列中原创 2020-08-20 23:54:21 · 402 阅读 · 0 评论 -
大数据之Hadoop_Yarn的基本介绍,及入门程序的书写
Yarn的基本介绍Yarn:分布式资源调度平台和任务交互平台.主要负责在hadoop集群中管理各节点的cpu.内存.磁盘(IO),网络的使用情况,实时监控集群中每台机器的运算资源,合理分配资源,及任务进度的监控,任务再分配Yarn与hdfs相似,也分主从结点:主节点:resourcemanage从节点:nodemanage安装Yarn1.上传Yarn的安装包2.解压到指定目录下3.进入到hadoop的etc下修改yarn-site.xml配置文件,将以下配置信息加入进去<confi原创 2020-08-20 22:49:18 · 207 阅读 · 0 评论 -
大数据之Hadoop_MapReduce处理数据内部基本流程
MR处理数据内部基本流程一.任务切分1.根据文件的大小,及文件的个数进行任务切分,如:有一个文件200M,还有另一个文件100M,就会先将200M的文件按数据切块的原理分成两块,然后这两个文件就会被划分成三个任务,这就叫数据切块,和任务切分2.任务切分后,就会去找LineRecordReader读取数据, 在LineRecordReader就会使用readLine()读取数据,每读一行,就会生成一个key(偏移量LongWriable)和一个value(读取到的一行数据Text).然后就会将k,v给到原创 2020-08-19 22:38:45 · 757 阅读 · 0 评论 -
大数据之Hadoop_MapReduce数据倾斜问题及解决方案
Join案例将以下两个文件进行根据uid整合成一个文件,统计出每个用户,购买的商品import org.apache.commons.beanutils.BeanUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;i原创 2020-08-19 20:42:42 · 322 阅读 · 0 评论 -
大数据之Hadoop05_MapReduce经典案例
1. 将以下日志信息按手机号进行流量汇总import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapp原创 2020-08-17 23:22:22 · 671 阅读 · 0 评论 -
大数据之Hadoop03_namenode对元数据的管理及MapReduce原理基础
元数据元数据职责:1.维护虚拟访问目录2.储存数据块信息.副本个数.物理块的位置3.储存块描述信息,起始位置,大小namenode对元数据的管理1.客户端在发起读取数据的请求时,需要元数据要在很高的效率下找出数据储存的位置,所以元数据储存在内存中,并以Tree型数据结构储存,但储存设备宕机后,内存中的数据会消失,所以元数据就也会写入到磁盘中,做持久化储存.因此在内存中和磁盘中各有一份元数据.2.内存中的元数据称之为FSImage(类),序列化(持久化)到磁盘中后变成image文件3.但如果频原创 2020-08-16 23:12:41 · 221 阅读 · 0 评论 -
大数据之Hadoop02-java客户端操作hdfs及hdfs原理增强
java客户端操作hdfs** *(1)java客户端操作hdfs,上传文件,删除文件,创建文件夹, */public class Demo01 { public static void main(String[] args) { //配置信息对象 Configuration conf = new Configuration(); conf.set("dfs.replication","4"); FileSystem fs =原创 2020-08-14 23:41:11 · 194 阅读 · 0 评论 -
大数据之Hadoop01-安装Hadoop及基础使用
Hadoop的简介:HDFS(Hadoop Distribute File System)分布式存储:解决海量数据存储问题MapReduce:Hadoop分布式运算编程框架Yarm:分布式资源调度平台Commons:Hadoop底层技术支持Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是设计用来依靠硬件来提供高可用性,而是旨在检测和处理应用程序层的故障,因此可原创 2020-08-13 22:38:56 · 412 阅读 · 0 评论