自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Yarn基本知识总结

AM挂掉 RM负责重启 AM会保存已完成的Task AM需要处理内部任务的问题 如Task Failure。NM挂掉之后 如果Task挂掉 AM负责处理 如果AM挂掉 RM重启一个新的container运行AM。但是存在单点故障和限制区群扩充的问题、资源和计算也没有很好的解耦。RM为任务分配一个container,并与NM通信,要求启动AM。负责监控AM 当AM挂掉之后在NM上启动该AM。AM向RM注册 RM就可以直接看到作业的运行状况。AM申请到资源后 和NM通信 请求启动任务。

2022-11-21 20:37:13 142 1

原创 Redis的删除和淘汰策略

周期性的访问redis,才用随机抽样的方式,用过期数据占比来控制删除频率。当数据没有过期或者不带有时效性,全是永久性数据,存储时内存不足会执行淘汰策略。Key设置的有过期时间,当过期了定时任务执行删除。挑选最近最少使用的、最近使用最少的、快要过期的和随机淘汰。redis数据存在内存中,已经过期的数据不会立即删除。CPU压力大,影响服务器的响应时间和吞吐量。内存占用大,如一直不适用一直占用,浪费内存。当过期时不处理,下次访问到的时候处理。挑选最近最少使用的、最近使用最少的和随机淘汰。频度高,拿时间换空间。

2022-11-21 15:44:09 434

原创 Redis的持久化RDB和AOF

AOF中有个重写的概念,AOF采用文件追加文件的方式,文件会越来越大,当超过规定的阈值后会进行压缩,只保留能恢复数据的最小指令集。最后一次持久化后的数据可能丢失,fork的时候内存被克隆一份,需要考虑两倍的膨胀性。已日志的形式来记录操作,所有指令都会记录下来,只许追加文件但是不可以修改文件。redis重启的时候会把日志的指令从前到后执行一次来进行恢复工作。需要对大规模数据进行恢复,并且对数据恢复的完整性不是很敏感。当持久化结束后,用这个文件代替上次持久化的文件。文件大、恢复速度慢、对性能影响大。

2022-11-21 15:26:34 137

原创 关系型数据库和非关系型数据库

非关系型数据库又称为nosql(not only sql),通常以对象的形式存储在数据库中,关系由每个对象自 身的属性来决定。关系型数据库是建立在关系模型基础上的数据库,是由多张能互相连接的表组成的数据库。不节省空间,字段为空也要分配空间。格式多样,可以使kv,文档,图片。扩展性强,高并发,高稳定,成本低。读写能力较差,不适用于海量数据。不支持sql 学习成本高。使用sql语言,使用方便。可以实现数据的分布式处理。功能没有关系型数据库多。表结构固定 灵活性低。关系型数据库和非关系型数据库。

2022-11-21 15:01:17 203

原创 hive的开窗函数

lag(列名,n,默认值) 求窗口往上N行 如果为null时显示默认值 默认值默认是null。里面写 partition by语句 是哦哦哦用一个或者多个原始数据类型的列。可以和标准的聚合函数 count、sum、min、max、avg一起用。row_number 不关心是否相等 直接 1,2,3,4,5。dense_rank 不会留下空位 1,2,2,3,3。rank 关心相等 会留下空位 1,2,2,4,5。可以和分析窗口一起用 rank()over()lead(列名,n,默认值) 求窗口往下N行。

2022-11-19 15:21:33 525

原创 优化sql查询效率的几个方法

6.检查子查询 考虑SQL子查询是否可以用简单连接的方式进行重新书写。2.建表能用char就不用varchar。5.使用union all。1.不用select *3.建立索引不要大量字段。4.善用where筛选。

2022-11-19 14:50:03 439

原创 Kafka高吞吐量的原因

分区 每次操作都是对一小部分进行 并行操作能力强。顺序读写 不需要硬盘磁道的寻道时间 远快于随机读写。批量发送 消息可以缓存在本地 到条件了再发送。数据压缩 支持压缩 可以减轻网络传输压力。零拷贝 跳过用户缓冲区的拷贝。kafka高吞吐量的原因。

2022-11-18 21:13:24 588

原创 HDFS基础知识

NameNode创建HDFS文件时 会计算每个数据的校验并存储 存入新数据后,比较校验的结果。Client与DateNode交互 读取block块的信息 并行读取 最后客户端合并数据。Client获取到位置信息后开始写入DateNode,以package包的形式依次写入。Client向NameNode发送请求,寻找可以写入block块的机器信息。Client向NameNode发送请求,寻找到数据块的位置信息。移动大文件的时候 可以减少网络的拥塞和提高系统的吞吐量。删除的文件会放入 /trash 定时清空。

2022-11-18 15:00:33 648

原创 Cookie和Session

Cookie和Session总结

2022-08-01 20:25:22 53

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除