Hadoop
zhaoxiaoba123
这个作者很懒,什么都没留下…
展开
-
压缩在大数据中的使用
1、为什么要使用压缩单机:磁盘空间的限制Hadoop/HDFS:DN是用来存储数据用的 药对HDFS上的数据进行压缩,减少存储在HDFS上数据所占用的空间1T ==》假如压完 300G3T ==>就是 900GINPUT==>MR==>OUTPUT好处:减少HDFS读写数据量提升网络传输效率2、压缩的使用场景input 数据的进入------》xxxx处理------->output比如离线的:MR/Spark/Flink:HDFS(有界)----〉MR原创 2020-09-12 20:22:34 · 359 阅读 · 0 评论 -
Hadoop3.x新特性及实操
1、如何从官网获取Hadoop3.x新特性JDK Erasure Coding YARN Timeline server v2…https://hadoop.apache.org/docs/r3.0.0/index.html2、Hadoop3.x新特性之JDK8最低要求的Java版本从Java 7增加到Java 8现在已针对Java 8的运行时版本编译了所有Hadoop JAR。仍在使用Java 7或更低版本的用户必须升级到Java 8。3、Hadoop3.x新特性之EC技术详解原创 2020-09-12 20:15:17 · 420 阅读 · 0 评论 -
Hadoop的特性在生产上的使用
1、文件归档及透明访问归档:Hadoop Archives设置归档:hadoop archive -archiveName pksmall.har -p /small /pksmall查看归档:hadoop fs -ls har:////pksmall/pksmall.har执行归档:hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar wordcount har:///pksmall/pksmall.har /harwcount/我们在原创 2020-09-12 19:59:13 · 154 阅读 · 1 评论 -
Hadoop小文件抛析
1、小文件问题Hadoop存储TB甚至更大级别的数据集文件file—》拆分成块back–> 3–>存放在 DN directory–〉这些信息 叫做元数据信息100MB vs 1kb 100MB要加载那 1kb还是要加载元数据这些元数据 加载在NN 的内存中如果文件特别小特别多NN主机的压力就会特别大2、什么是小文件CDH blocksize 2.x 128MB 1.x 64MB 当然这个blocksize是可以调的128MB 一个200MB的文件会被拆分成多少个???原创 2020-09-12 19:58:01 · 142 阅读 · 0 评论 -
Join在MapReduce中的实现
1、ReduceJoin流程分析数据通过Mapper加载过来,然后经过shuffle阶段,在Reduce端完成真正的Join操作2、ReduceJion功能的实现Mapjoin实现原理有些数据比较小,是否有必要经过shuffle,shufflt是大数据中最耗时最耗资源的,能规避shuffle就规避shuffle,也就是说是没有reduce的Mapjoin功能实现...原创 2020-09-12 19:56:54 · 303 阅读 · 0 评论 -
Hadoop 集群部署
Hadoop 集群规划HDFS:NN NameNode组成,这是一个主服务器,它管理文件系统名称空间并控制客户端对文件的访问。此外,还有许多数据节点,通常是群集中每个节点一个,它们管理连接到它们运行的节点的存储,NameNode执行文件系统命名空间操作,如打开、关闭和重命名文件和目录。它还确定块到数据节点的映射。数据节点负责为来自文件系统客户端的读写请求提供服务。DN DataNodes还根据NameNode的指令执行块创建、删除和复制。YARN:RM 全局资源管理器NM NodeMana原创 2020-09-12 19:51:03 · 250 阅读 · 0 评论 -
电商项目实战Hadoop实现
1、用户行为日志概述每一次访问的行为(包括访问,搜索、等)产生的日志历史行为数据 《== 历史订单==》推荐==〉订单的转换率2、为什么要记录用户行为日志根据行为日志分析可以很好的有针对性的对不同用户推荐不同商品,以及不同广告的推送3、日志内容介绍日志产生的渠道有nginx日志、ajax加载的一些动态的图片、位置啊等等信息。本次我们提供了一个电商日志打~/data/trackinfo_20130721.data原始日志说明我们需要的:第二个字段=url、第十四个字段=ip、第十八个字段原创 2020-09-12 15:58:11 · 1918 阅读 · 1 评论 -
YARN资源调度框架
YARN的概述YARN Yet Another Resource Negotiator 的缩写通用的资源管理框架为上层的应用提供统一的资源管理和调度The fundamental idea of YARN is to split up the functionalities of resource management and job scheduling/monitoring into separate daemons. The idea is to have a global Resource原创 2020-09-11 22:21:36 · 122 阅读 · 0 评论 -
Hadoop 流量统计实战之需求
自定义复杂类型access.log第二个字段:手机号倒数第三个字段:上行流量倒数第二个字段:下行流量需求:统计每个手机号上行流量和、下行流量和、总的流量和(上行流量和+下行流量和)Access.java手机号、上行流量、下行流量、总流量既然要求和:就要根据手机号进行分组Mapper 阶段:把手机号 上行流量 下行流量 拆开把手机号作为key, 把Access作为value写出去Reducer:(1371111111,<Access,Access>)流量统计实战之自定原创 2020-09-11 22:04:27 · 274 阅读 · 0 评论 -
Mapreduce 分布式计算框架
源自于Google的MapReduce论文,论文发表于2004年12月Hadoop MapReduce是Google MapReduce的克隆版Mapreduce 优点:海量数据离线处理 /易开发/易运行Mapreduce缺点:实时流数据计算Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-teraby..原创 2020-09-11 21:57:57 · 222 阅读 · 0 评论 -
Hadoop Linux环境介绍以及hadoop环境搭建基础使用API 编程之开发
课程环境介绍:课程录制的系统的事Mac,所以采用linux客户端是mac自带的shell如果你们是win:xshell crt 客户端都可以服务器/linux地址:192.168.1.233连接到Linux环境登陆:ssh hadoop@192.168.1.233登陆成功后:[hadoop@hadoop000 ~]$linux机器:用户名hadoop 密码:123456 hadoopname是hadoop000创建课程中所需要的目录(适合的文件存放在合适的目录)mkdir原创 2020-09-11 21:42:06 · 429 阅读 · 1 评论 -
Hadoop分布式文件系统HDFS
HDFS概述:1、分布式2、commodity hardware 廉价或者通用的机器上3、fault-tolerant 容错4、high throughput 高吞吐5、large date sets 适用于大的数据集HDFS设计目标:Hardware Failure 硬件错误概述:硬件故障是常态而不是例外。HDFS实例可以由数百或数千台服务器组成,每台服务器存储文件系统的一部分数据。事实上,有大量的组件,每个组件都有不小的故障概率,这意味着HDFS的某些组件..原创 2020-09-11 20:50:48 · 335 阅读 · 0 评论 -
Hadoop OOTB环境
OOTB环境的使用1、虚拟机安装 vmware fusion2、用户虚拟机打开hadoop000 虚拟机环境选择里面的hadoop.vmx文件3、用户是hadoop000 密码是1234564、ifconfig 查看ip sudo -i 切换到root用户5、切换到network-scripts目录下 cd /etc/sysconfig/network-scripts/6、删除掉 ifcfg-lo rm ifcfg-lo7、输入 ip add...原创 2020-09-11 20:47:34 · 688 阅读 · 3 评论 -
初识Hadoop
1、hadoop 概述之Hadoop名字的由来Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod JohnsonHadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名Apache 社区的顶级项目官网域名规则:XXX.apache.orghadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org sto...原创 2020-09-11 20:46:42 · 112 阅读 · 0 评论 -
hadoop系列1.1什么是大数据以及大数据4v特性
什么是大数据可能不同的行业不同的人群对于大数据的理解都稍微有所不同那么给予大数据的一些特性还说下什么是大数据(数据量)大这是一方面,也有数据量不大但是具有高度的(多样性和复杂性)从而能衍生出有(高度可分析价值的数据)都是大数据,还有就是(速度)能够快速分析出结果并且加以多方位价值利用也是大数据的衡量标准之一。...原创 2020-07-14 19:30:38 · 562 阅读 · 0 评论