自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 大数据面试题 -- 05

1、hive的数据倾斜现象:在执行MR任务的时候,大多数的reduce节点都执行完毕,而只有几个reduce节点运行很慢或者一直卡在99%,导致整个MR任务运行很慢。原因:这是因为某一个或几个key的数据量要比其他key要多很多,导致这一个reduce节点运行很慢key分布不均匀sql语句本身就会倾斜业务导致建表考虑不周解决思路:1、在map阶段解决2、对key进行操作解决方法:1、使用combine方法在map端提前进行一个reduce计算,大大减少到reduce端时的数据量。但

2020-12-22 11:24:36 141

原创 大数据面试题 -- 06

1、数仓分层的作用2、每层的作用3、hive和mysql的区别Hive 和数据库除了拥有类似的查询语言,再无类似之处。1、数据存储位置Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。2、数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3、执行延迟Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。4、数据规模Hive支持

2020-12-19 09:35:32 64

原创 大数据面试题 -- 04

1、hdfs的写流程1、client调用分布式文件系统对象通过RPC协议连接namenode,调用create方法在namenode上创建一个新文件,此时文件中是没有数据的2、namenode会对client进行权限检查,和检查这个文件是否存在,如果通过检查,返回client一个输出流对象,如果没通过则返回IOExceptiion3、通过检查后,client向namenode请求上传节点,namenode根据机架感知策略返回副本数个datanode(一般为3个),client将这些节点连接起来形成一个

2020-12-17 21:35:45 75

原创 StructuredStreaming -- 01 【概述,编程模型,source,sink】

文章目录Structured Streaming1、 回顾1.1、Spark 编程模型的进化过程总结1.2、Spark 的 序列化 的进化过程1.2.1、 什么是序列化和序列化?1.2.2、 在 `Spark` 中的序列化和反序列化的应用场景1.2.3、 RDD 的序列化1.2.4、 DataFrame 和 Dataset 中的序列化总结1.3、Spark Streaming 和 Structured Streaming2、 Structured Streaming 入门案例2.1、需求梳理2.2、 代码实

2020-12-09 21:51:24 218

原创 SparkStreaming -- 03 【window函数,与SparkSQL的整合】

文章目录1、window函数操作1.1、 window函数的简介1.2、 常用的窗口函数1.3、 案例演示:1.3.1、1.3.2、1.3.3、2、sparkStreaming和SparkSQL的整合1、window函数操作1.1、 window函数的简介SparkStreaming提供了滑动窗口的操作。这样的话,就可以计算窗口内的n个micro-batch的数据,进行聚合.窗口有两个参数:窗口大小:指的就是有几个单位时间(time unit)的micro-batch滑动周期:类似于定时器

2020-12-08 19:33:12 249

原创 SparkStreaming -- 02 【SparkStreaming和kafka的整合的offset的维护,常用算子】

文章目录1、SparkStreaming与kafka的整合1.1、 比较1.2、 maven依赖1.3、 案例11.4、 使用0-10的Direct方法的优点1.5 、 两种自动维护offset的说明1.5.1、 0-8的receiver如何自动维护offset的图解1.5.2 、 0-10如何自动维护offset的图解1.6、 使用zookeeper手动维护offset1.7、 使用redis手动维护offset2、SparkStreaming的常用转换算子2.1 、常用算子简介2.1.1、 常用的转换算

2020-12-07 19:37:44 226

转载 Kafka+Spark Streaming管理offset的两种方法

网址

2020-12-07 19:09:26 124

原创 SparkStreaming -- 01 【概述,案例,和hdfs的整合,和kafka的整合】

1、SparkStreaming的概述1.1、什么是流式计算1、流式计算就是对数据流进行处理,是实时计算2、数据流值的是动态的数据,是不断产生的,没有边界,源源不断3、流式计算中的计算逻辑不止计算一次,是要一致循环计算的(计算不能终止,除非停止作业)流式计算又分为准实时和实时准实时:是介于实时和离线之间,每一次处理的数据要比实时的多,比离线的少很多,微批处理实时:指的是一条记录就(一个事件event)启动一次计算常见的流式计算框架storm:第一代流式处理框架,每生成一条记录就提交一次作业

2020-12-07 17:54:03 169

原创 Kafka启动后过一会儿自动挂掉

meta.properties中的broker.id和server.properties中的不一致meta.properties文件位置在自己设置的server.properties中 log.dirs=。。。 的目录下我的设置路径是这个:log.dirs=/usr/local/kafka/data/kafka-logs所以meta.properties在kafka-logs下!...

2020-12-07 17:22:18 744

原创 大数据面试题 -- 03

1、hive开启map端join的参数,以及其他优化参数map端join适合优化小表join大表的情况(写sql时将小表作为驱动表,也就是select a from b join c on b.id=c.id -->b 为小表,写左边)mapjoin优化适合小表join大表set hive.optimize.skewjoin=true; //有数据倾斜时开启负载均衡,默认falseset hive.auto.convert.join=true; //设置自动选择MapJoin,默认是

2020-12-04 18:03:51 101

原创 Redis -- 01 【简介,特点,搭建,shell,数据类型】

1、Redis的简介1.1、NoSqlNoSql 是Not-Only Sql的简写,泛指非关系型数据库关系型数据库不太适合存储非结构化的大数据(现在的非结构化的数据占比90%),所以提出了一个新的数据库解决方案,来存储这样的数据。NoSql的分类键值对模型的NoSQL:Tokyo、Cabinet/Tyrant、Redis、Voldemort、Berkeley DB应用场景:内容缓存,主要用于处理大量数据的高访问负载优势:快速查询劣势:存储的数据缺少结构化列式模型的NoSQL:Cassa

2020-12-03 21:13:23 117

原创 大数据面试题 -- 01

1、讲一下数仓吧。数仓是一个面向主题的,集成的,相对稳定的,反映历史变化的一个数据仓库,主要用于支持管理决策。面向主题:数仓中的数据是按照主题进行存储的,每一个主题都是决策层分析的一个角度。集成的:不管什么来源的数据都会统一放到数仓中。并且格式,单位,名称等要统一。相对稳定:数据一旦进入数仓中一般不会轻易改变。就算改变也不改变原数据,只是会根据需求重新考虑数据的更新策略。反映历史变化的:时间维度是数仓中很重要的一个维度,数仓中的数据时间跨度会很大,可能有几年到十几年,能反映历史变化。2、数仓分层

2020-12-02 20:01:38 336

原创 大数据面试题 -- 02

1、kafka出现消息堆积怎么办?1、最简单的原因:消费者太少,增加消费者来解决2、还有一个原因就是消费者每次poll的数据业务处理时间不能超过kafka的max.poll.interval.ms,该参数在kafka 0.10.2.1 中的默认值是300s,所以要综合业务数据来设置每次poll的数据量。2、kafka如何实现高吞吐?顺序读写在硬盘中采用顺序读写的方式,性能损耗不大零拷贝“零拷贝技术”只用将磁盘文件的数据复制到页面缓存中一次,然后将数据从页面缓存直接发送到网络中(发送给不同的订阅

2020-12-02 20:01:10 93

原创 Kafka -- 03 【主题,生产者,消费者(java/scala)的实现,自定义分区器】

文章目录1、API创建主题1.1、java实现1.2、scala实现2、API创建生产者2.1、java实现2.2、scala实现3、API创建消费者3.1、java实现3.2、scala实现4、自定义分区器4.1、随机分区器4.2、Hash分区器4.3、轮询分区器1、API创建主题1.1、java实现package KafkaDay02;import kafka.utils.ZkUtils;import org.apache.kafka.clients.admin.AdminClient;i

2020-12-01 22:03:58 120 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除