Hadoop生态
文章平均质量分 78
介绍hadoop生态
斑马!
本科和研究生就读于某普通一本院校的计算机科学与技术专业,目前研究生三年级,暑期实习拿到美团,阿里,京东等大厂offer;秋招拿到了美团,京东,小米等大厂offer。方向是大数据开发工程师,主要做的是离线数仓和实时数仓这块。有想一起学习的小伙伴可以通过博客联系我!
展开
-
开发实践中发现group by去重不生效
工作反思原创 2022-12-07 17:00:36 · 1369 阅读 · 0 评论 -
hivesql中case when的基础总结和进阶使用
case when最全总结原创 2022-07-03 14:54:12 · 13863 阅读 · 0 评论 -
HIve压缩和存储
3.8 数据压缩3.8.1 数据压缩的优缺点优点:减少磁盘I/O,减少磁盘存储空间。缺点:增加CPU开销。3.8.2 压缩原则1)运算密集型的Job,少用压缩。2)I/O密集型的Job,多用压缩3.8.3 MapReduce支持的压缩编码LZO可以进行切片,需要建立索引,还需要指定输入格式;Snappy不支持切片,和文本处理一样,不需要修改3.9存储格式介绍3.9.1 TextFile简介......原创 2022-06-03 10:26:09 · 1505 阅读 · 1 评论 -
大数据--hive1--启动/数据定义/数据类型/创建、初级操作
目录一:启动hive二:基本操作三:查询操作四.连接操作五. hive简单编程实践-- wordcount一:启动hive 注意启动hive之前请启动Hadoop如何启动Hadoopcd /usr/local/hadoop/sbin #进入相关目录下面./start-dfs.sh #判断是否启动成功使用jps启动hive:cd /usr/local/hive./bin/hive二:基本操作创建数据...原创 2021-03-03 20:50:32 · 424 阅读 · 1 评论 -
大数据--Hadoop生态--HDFS和Hbase和MapReduce总结
目录一: HDFS1.1 分布式文件系统的结构1.2 分布式系统的目标1.3HDFS主要组件及功能1.4 HDFS 体系结构1.5 HDFS读数据过程1.6 HDFS写数据过程二:Hbase2.1 Hbase介绍2.2 Hbase产生原因2.3 Hbase访问接口2.4Hbase功能组件一: HDFS1.1 分布式文件系统的结构1.2 分布式系统的目标1.3HDFS主要组件及功能1.4 HDFS 体系结构1.5 HD原创 2021-02-15 19:56:43 · 742 阅读 · 0 评论 -
大数据--hive5--建表实战训练/建表代码中涉及的知识点解析
目录一:建表代码二:数据模型三: 范围分区:partition by range四:hash分桶五.其他一:建表代码CREATE TABLE `heheyotubehehe_ads_people_kehuduan_experience_data` (`day` int(11) NOT NULL DEFAULT "0" COMMENT "", `os` varchar(50) NULL COMMENT "", `soft_version` varchar(50) N...原创 2021-04-10 11:23:45 · 474 阅读 · 0 评论 -
大数据--hive3--常用函数总结(窗口/日期/行列转换/条件函数)
一:窗口函数1.1.窗口函数语法over()用于指定分析函数工作时的数据窗口大小,这个数据窗口大小可能随着行的变化而变化。窗口函数的基本语法:<窗口函数> over(partition by <用于分组的列名> order by <用于排序的列名>)上述中窗口函数处可以放两类函数1)专用窗口函数:包括dense_rank(),rank(),row_number()等专用窗口函数2...原创 2021-04-04 21:19:25 · 843 阅读 · 0 评论 -
大数据--hive6--实战训练之获取数据并插入到表中
目录一:获取数据并且插入到表中二.命名空间三.通过set设置一些参数以及负载均衡总结四.分区和concat_ws用法五.cast和coalesce和case when 的用法六.使用explode()和group by配合使用进行分组一:获取数据并且插入到表中use namespace hehe;// 名称set mapred.job.name=v_haha_heheyoutubehehe_ads_people_kehuduan_experience_data_{DAT原创 2021-04-10 15:47:23 · 415 阅读 · 0 评论 -
大数据--hive7--数据倾斜及其解决办法
一:数据倾斜产生原因分类:1)聚合倾斜2)join倾斜分类细节和完整内容请参加我的另一篇博客:https://blog.csdn.net/yezonghui/article/details/115412927二:hive倾斜之group by聚合倾斜2.1产生原因: 1)分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 2)对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的gro...原创 2021-04-10 21:39:34 · 386 阅读 · 0 评论 -
大数据--hive8--hive性能调优
一:具体问题场景以及优化方案1.1 输入为大量小文件,通过调整文件块大小,对未达到阈值的小文件进行合并,减少map数量。问题场景:输入文件数量多,其中很多是远远小于256 M的小文件(hdfs中文件块大小为256M).set mapred.max.split.size = 100000000;set mapred.min.split.size.per.node = 100000000;set mapred.min.split.size.per.rack = 100000000;set h原创 2021-05-02 11:56:10 · 250 阅读 · 0 评论 -
大数据--hive9--实战训练之数据查询与hive中谓词使用细节问题
目录一:代码样例二:多字段分组还是单字段分组三:group by用法细节四:使用concat_ws(',',concat(),concat(),concat())的好处五:对concat_ws连接起来的data_type字段进行切割六:报表的sql逻辑七. max case when ... then ... end八 深度解析case when 条件1 then ... else 0 end的作用九. describe和show表名的区别一:代码样例下面...原创 2021-04-19 14:01:02 · 250 阅读 · 0 评论 -
大数据--hive4--HiveSQL查询语法总结
目录一:Hive SQL与SQL的区别二:Hive表关联条件不支持不等值连接三:桶或者簇四:group by 数据分组五:collect_list和collect_set用法六:根据Hive Sql语句的执行顺序而进行的优化七:SQL的join操作八: UNION和 union all 数据拼接九:其他一:Hive SQL与SQL的区别1)用法上的区别:HQL不支持行级别的增删改,所有数据加载的时候就已经确定,不可更改。 不支持事务 支持分区存储2)h.原创 2021-05-03 14:29:50 · 1163 阅读 · 1 评论 -
大数据--hive10--新增用户指标计算
目录一:新增用户的定义二:计算逻辑三:涉及知识总结一:新增用户的定义 在某日出现的用户,但是在这之前都没有出现过该用户,此用户即为新用户。例如2021年6月6日,用户a首次登陆(2021年6月6日之前都没有用户a的登陆记录,则用户a肯定为新用户) 在有些场景下,我们对新用户的定义可以放松一点:1)除了上述提到了在某日第一次出现该用户即为新用户;2)若某用户已经超过90天没有登陆该系统,然后再次登陆,我们也把该用户视为新用户。二:计算逻辑...原创 2021-05-05 20:00:43 · 916 阅读 · 0 评论 -
hive实战12--时间占比和上一小时逻辑
目录一:已知表结构和字段二:需求1:时间占比三:需求2--目前小时与上一小时比较四:使用窗口函数lag()解决需求三五:只存储电脑每天最后一次更新的时间对应的信息一:已知表结构和字段 某电脑售卖数据表computer,从左至右依次为location,店铺ID,某天,某小时,某分钟,商品是否到期,商品的存量,商品卖出的数量,商品进货数量/location ID pt_day pt_hour pt_minute good_computer ..原创 2021-06-27 19:24:10 · 894 阅读 · 1 评论 -
大数据--hive--经典SQL题目(百度面试SQL题目)
一:题目一:第n多和连续三天思维有一个日志数据解析得到的table 有三个字段:timestamp username user_action1)统计近10天每日行为数量2)行为第三多的用户及其数量3)连续3天有行为的用户?解答:1.1统计近10天每日行为数量1.1.1 答案:-- 统计近10天每日行为数量select pt_dt, count(1)from( select to_date(timest...原创 2021-09-01 17:57:51 · 1304 阅读 · 0 评论 -
大数据--hive11--留存指标的计算
一:留存定义 以天为单位,跨天后再来访问即为留存,例如给定我们的需求:知道指定日期后隔1-14天的留存,如2020-08-01天来的访客,之后1天,2天,3天,....再来人数。注意:我们要清楚留存是针对谁(那个日期)来说的例如用户a25日有记录,26日没有记录,27日有记录。那么我们是针对25日来说的,也就是说25日的用户a,1日留存没有, 有2日留存。 留存率:具体问题具体分析,一般分母都是2020-08-01的人数。二:真实需求,求14日的留存2.1 源数据...原创 2021-06-10 19:11:04 · 505 阅读 · 0 评论 -
数据倾斜产生,原因及其解决方案
目录第七章 数据倾斜7.1 数据倾斜的产生,表现与原因7.1.1 数据倾斜的定义7.1.2 数据倾斜的危害7.1.3 数据倾斜发生的现象7.2 数据倾斜倾斜造成的原因7.3 几种常见的数据倾斜及其解决方案7.3.1 空值引发的数据倾斜7.3.2 不同数据类型引发的数据倾斜7.3.3 表连接时引发的数据倾斜7.3.4 group by分组时候key值分布不均7.3.5 count distinct去重的时候key值分布不均7.3.6 排序过程7.2.原创 2021-11-14 15:43:51 · 12771 阅读 · 4 评论 -
Hive底层原理
目录第六章HIve SQL底层执行原理和源代码解析6.1 HIve底层执行架构6.2 HIve底层执行原理6.3 HIve编译成MapReduce过程6.4 HIve编译成MapReduce原理6.4.1 Join的实现原理6.4.2 Group by的实现原理6.4.3 distinct的实现原理第六章HIve SQL底层执行原理和源代码解析6.1 HIve底层执行架构在Hive这一侧,总共有5个组件: UI:用户界面,可以看作我们..原创 2021-11-12 18:11:27 · 4033 阅读 · 1 评论 -
大数据2--hive--hive介绍
第一章 Hive介绍1.1hive概述1.1.1 hive的简介HIve是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQK查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了,hive可以理解为一个将SQL转换为MapReduce/spark任务的工具。1.1.2 HIve的特点: 可扩展性: Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 ...原创 2021-10-24 16:54:18 · 2130 阅读 · 0 评论 -
hive调优最全总结
目录第八章 数据调优及其原理11/158.1 小问题问题8.1.1 小文件的危害8.1.2 小文件的产生原理8.1.3 小文件的治理方案8.2 数据倾斜问题8.3 减少数据量8.4 参数优化8.5 企业级调优第八章 数据调优及其原理11/158.1 小问题问题小文件过多会占用大量内存,且在初始化时会占用大量计算资源,严重影响性能。对于已经存在的小文件,建议把小文件进行归档;重建表,建表的时候减少reduce数量;通过参数调节,设置map/re...原创 2021-11-19 10:44:05 · 4244 阅读 · 0 评论 -
Hive函数大全
目录第四章 Hive函数4.1 聚合函数4.2 关系函数4.3 数学运算4.4 逻辑运算4.5 数值运算4.6 条件函数4.7 日期函数4.8 字符串函数4.9 字符串截取函数4.10 去空格函数4.11 正则表达式与解析函数4.12 explode函数4.13 行转列与列转行4.14 基础窗口函数与分析函数4.14.1 窗口函数简介4.14.2 窗口的含义4.14.3 窗口函数分类4.14.4 窗口函数的使用4.14.5.原创 2021-11-12 18:08:23 · 8605 阅读 · 0 评论 -
大数据--hadoop生态--hdfs最全总结
目录第二章:HDFS2.1 hdfs主要组件及其功能2.1.1 Hdfs的组成2.1.2 SecondaryNameNode2.2 hdfs数据存储原理2.2.1 冗余数据保存2.2.2 数据存取策略2.2.3 HDFS块的大小2.2.4 数据错误与恢复2.3 hdfs读写数据过程2.3.1 读数据过程2.3.2 写数据过程2.4 DataNode工作机制2.5 hdfs高可用原理2.6 hdfs常用命令命令会导出到当前目录下面)第二章:H原创 2021-10-13 09:33:21 · 462 阅读 · 0 评论 -
大数据--hadoop生态13--查漏补缺
目录一:hdfs组成二:hdfs存储和高可用原理三:hdfs读写数据过程四:MapReduce体系结构和执行流程五:zookeeper介绍六:flume总结七:yarn介绍八:Kafka介绍一:hdfs组成二:hdfs存储和高可用原理三:hdfs读写数据过程四:MapReduce体系结构和执行流程五:zookeeper介绍六:flume总结七:yarn介绍八:Kafka介绍...原创 2021-08-30 21:30:01 · 146 阅读 · 0 评论 -
大数据--hadoop生态8--flume总结
目录一: flume的作用二:flume整体流程三:Flume Agent内部原理四:Flume配置文件解析五:案例一: flume的作用 实时读取服务器本地磁盘的数据,将数据写入到HDFS。二:flume整体流程三:Flume Agent内部原理四:Flume配置文件解析五:案例参考:尚硅谷大数据课程课件...原创 2021-05-02 16:07:16 · 290 阅读 · 0 评论 -
大数据--hadoop生态10--Hbase总结
一:HBase简介 Hbase是一个高可靠,高性能,面向列,可伸缩的分布式数据库。原创 2021-06-02 17:36:43 · 312 阅读 · 0 评论 -
大数据--hadoop生态12--高频知识点总结
一:一个基本的Hadoop集群中的节点主要有•NameNode:负责协调集群中的数据存储 •DataNode:存储被拆分的数据块 •JobTracker:协调数据计算任务 •TaskTracker:负责执行由JobTracker指派的任务 •SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息2.分布式文件系统节点分类: 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为 两类,一类叫“主节点”(Master Node)...原创 2021-04-03 21:49:18 · 1022 阅读 · 1 评论 -
大数据--hadoop11生态--整体框架思维导图
原创 2021-03-27 22:08:20 · 671 阅读 · 0 评论 -
大数据--Hadoop生态9--kafka总结
kafka是一个消息队列,客户端消费queue中有两种方式:1)发布订阅模式;2)点对点模式。 消息队列具有特点:解耦,冗余,扩展性,缓冲,异步通信等。 kafka里面的一些专有名称:生产者,消费者,topic,partition,broker(一个Kafka服务器就是一个broker)一、kafka概述:1、消息队列:1)、原理及其有点:客户端消费Queue中的数据有两种方式: 1、发布/订阅模式...原创 2021-03-14 08:48:00 · 626 阅读 · 0 评论 -
大数据--Hadoop生态6--zookeeper总结
zookeeper是一个分布式的应用程序协调服务,是集群的管理者,监视集群中各个结点的状态,根据各个节点的状态根据节点提交的反馈进行下一步合理操作。 zookeeper的应用在命名服务,配置管理,集群管理,队列管理等方面。 zookeeper的角色分为领导者,跟随者,观察者。 zookeeper的核心是原子广播,保证各个server之间的同步。 1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码...原创 2021-03-14 07:59:53 · 271 阅读 · 0 评论 -
大数据--Hadoop生态5--Yarn总结
目录Yarn的作用ZooKeeper的作用两者相似之处Yarn和ZooKeeper的区别Yarn的作用Yarn是一个分布式资源调度器组件。这个组件的主要作用是在每次接收到请求后,会查看当下的各个子节点的状况,统筹出运算资源的调度方案来保证任务可以顺利执行。通常来说,Yarn所调度的资源常常包括磁盘空间的资源,内存的资源和通讯带宽的资源等。Yarn是Hadoop V2.0开始引入的一个组件,这个组件可以说是针对Hadoop1.0系统所爆露出的计算资源使用不合理等设计上的问题原创 2021-03-19 19:56:19 · 321 阅读 · 0 评论 -
大数据--Hadoop生态7--sqoop总结
一:sqoop简介sqoop是一个高效传输海量数据而设计的工具,一般用于从关系型数据库同步数据到非关系型数据库中。 使用sqoop进行数据的导入,导出,其本质上是运行Mapreduce程序,充分利用了MR的并行化和容错性。 sqoop支持增量更新,将新记录添加到最近一次的导出的数据源上。二:sqoop使用 获取MySQL数据库中数据库名称sqoop list-database -connect 'jdbc:mysql://10.1.96.xx:3306' -username t..原创 2021-03-16 10:27:55 · 386 阅读 · 0 评论 -
大数据--hadoop生态4--MapReduce总结
一:MapReduce模型简介 MapReduce将复杂的,运行于大规模集群上的并行过程高度抽象到两个hanshu原创 2021-06-02 15:08:15 · 347 阅读 · 0 评论 -
大数据--hadoop生态3--HDFS总结
一:HDFS主要组件及其功能原创 2021-06-01 17:12:29 · 751 阅读 · 4 评论 -
大数据--Hadoop生态1--大数据科普及Hadoop介绍
1大数据特点:2.大数据到来引起的思维变化3.大数据技术的不同层次及其功能原创 2021-02-12 19:54:35 · 316 阅读 · 0 评论 -
大数据--hadoop生态2--hadoop总结
目录一:Hadoop特性二:Hadoop 2.x组成三:Hadoop集群的配置和启动四:hadoop1.x和2.x架构一:Hadoop特性 高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux操作系统上,支持多种编程语言。二:Hadoop 2.x组成其中MapReduce将计算过程分为两个阶段:Map和Reduce1) Map阶段并行处理输入数据2)Reduce阶段对Map结果进行汇总三:Hadoop集群的配置和启动配置:1...原创 2021-05-30 10:32:52 · 206 阅读 · 0 评论