自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Hadoop优化

Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。(1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数 ,而任务的装载比较耗时 ,从而导致 mr 运行较慢。

2024-06-27 19:55:36 664

原创 Python-if判断和循环

for 遍历获取数据(容器形式的数据)中每个元素数据,字符串,列表,字典,元祖,集合,range方法。可以使用循环语句的语法实现循环运行,可以执行循环条件,当不满足条件后退出循环。生成的范围数据是左闭右开 [0,10) 0可以取到值,10取不到值。可以对循环的数据进行判断,如果符合条件可以进行跳出循环或跳过循环。range(10) 生成0-10范围内的数据 起始从0开始。range的使用,可以根据指定数值生成范围内的容器数据。可以控制判断的执行顺序,进行多次判断。时间段, 成绩的划分,星座判断。

2024-06-23 20:02:15 330

原创 MapReduce和YARN

MapReduce是hadoop三大组件之一,是分布式计算组件Map阶段 : 将数据拆分到不同的服务器后执行Maptask任务,得到一个中间结果Reduce阶段 : 将Maptask执行的结果进行汇总,按照Reducetask的计算 规则获得一个唯一的结果我们在MapReduce计算框架的使用过程中,我们只需要关注,Map任务的规则,和Reduce任务的规则即可MapReduce的核心思想是: 先分(Map)再和(Reduce)思考: MapReduce中hadoop服务帮我们完成了什么???

2024-06-22 19:54:57 726

原创 Python-多任务

运行多个进程或线程执行代码逻辑多个进程或线程同时执行叫做并行执行多个进程或线程交替执行叫做并发执行必行还是并发有cpu个数决定5个进程 cpu核心是3个 计算时时并发执行 5个进程需要抢占cpu资源,谁抢到谁执行代码计算5个进程 cpu核心10个 计算时时并行执行 不需要抢占资源,没个进程都已一个独立的cpu核心使用完成计算多任务在执行计算时,可以执行的同一的计算任务,也可以执行不同的任务进程和线程进程是分配资源的最小单元 线程是执行任务的最小单元实现多任务可以使用多进程或多线。

2024-06-12 20:07:00 265

原创 Python-函数

函数就是代码片段的封装,实现某一特定功能,当程序中需要执行该功能时,可以通过函数调用方式,执行函数中封装的代码片段函数中三要素函数名 必须定义参数 (可选)将数据传递函数中使用返回值 (可选)将函数中的数据传递外部进行使用# 函数的介绍# 功能1def login(name_list,password_list): # 接受参数# 函数作用域# 通过四个空格,来确认函数所执行的逻辑从哪里开始name = input('请输入用户名:')

2024-06-05 16:17:36 596

原创 Python-容器数据

语法格式[数据1,数据2.....]# 列表的定义及取值# 在列表中可以定义指定多个数据内容,尽量保证数据类型一致data_list3 = [1, '张三', 20]# 元组定义​# 元组只有一个元素数据时,需要加逗号data_tuple7 = ('张三',)# 字典定义# 字典中不要重复定义key值,保证key值唯一​# 使用key的下标值进行value部分取值​# 字典下标不支持切片操作# 集合的定义。

2024-05-27 08:59:50 825

原创 MapTask工作机制

当所有数据处理完后 ,MapTask会将所有临时文件合并成一个大文件 ,并保存到文件output/file.out中 ,同时生成。io.sort.factor(默认100)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到。在该函数内部 ,它会将生成的key/value分区(调用Partitioner) ,并写入一个环形内存缓冲区中。注意的是 ,将数据写入本地磁盘之前 ,先要对数据进行一次本地排序 ,并在必要时对数据进行合并、压缩等操作。移量、压缩前数据大小和压缩后数据大小。

2024-05-14 21:07:15 430

原创 Hive优化

当表的数据量比较庞大的时候, 在编写SQL语句后, 需要首先测试 SQL是否可以正常的执行, 需要在表中执行查询操作, 由于表数据量比较庞大, 在测试一条SQL的时候整个运行的时间比较久, 为了提升测试效率, 可以整个表抽样出一部分的数据, 进行测试校验数据的可行性(质量校验)进行统计分析的时候, 并不需要统计出具体的指标, 可能统计的都是一些相对性指标, 比如说一些比率(合格率)问题, 此时可以通过采样处理。

2024-05-10 21:39:14 1095

原创 SQL-窗口函数

窗口函数时8.0版本的mysql中出现的新语法,又叫做开窗函数,可以指定数据的计算范围、格式over() 指定窗口的关键字,默认窗口范围是全表over需要配合其他计算函数一起使用聚合函数 over()sum(字段) over()生成序号函数取值函数over中除了可以指定窗口,还能指定排序,可以在窗口范围内指定排序规则,一般配合生成序号函数一起使用。

2024-05-06 16:31:49 916

原创 数据仓库设计

数据仓库是由一整套体系构成,包含数据采集,数据存储,数据计算,数据展示等数据仓库主要作用对过往的历史数据进行分析处理,为公司决策停供数据支撑。主题是对数据进行归类,每个分类是一个主题主题域根据分析的领域,将联系较为紧密的数据主题的集合在一起主题域下面可以有多个主题,主题还可以划分成更多的子主题,主题和主题之间的建设可能会有交叉现象表命名分层_主题_实体+业务+维度_分区分层 ods,dw,dwd主题 sale(销售主题) user(用户主题)实体+业务+维度示例:mysql中的表名+计算维度。

2024-05-04 20:44:30 1071

原创 Hive-分区与分桶

多表关联,为了提升多表关联的查询效率,可以将关联的表数据按照相同的关联字段,进行分桶,保持分桶个数一致,或是倍数关系,可以将系统数据放在同一个余数文件中,提升了关联效率。使用分桶时,一般都是已经存在了一个原始数据表,为了提升原始数据速度,将原始数据在重新写入一个分桶表。大数据开发数据量较大,在进行数据查询计算时,需要对数据进行拆分,提升的查询速度。无论是分区,还是分桶,本质都是对数据的拆分存储,作用是为了提升查询的效率。3-分区字段是在最后,所以select中的分区数据指定也放在最后。

2024-04-30 18:30:00 220

原创 Yarn的资源调度

分布式资源调度,管理整个hadoop集群的所有服务器资源负责处理所有计算资源申请负责资源空间(container)的创建管理计算任务,只有产生了mapreduce计算才会运行ApplicationMaster负责具体的资源分配map使用多少reduce使用多少1-mapreduce提交计算任务给RM(ResourceManager)2-RM中的applicationmanager负责创建applicationMaster进程。

2024-04-29 19:46:48 610 2

原创 MapReduce的计算过程

2-split切割后的数据传递给对应的map进行处理,会对数据转为kv (张三,1) (张三,1),(李四,1)8-在将每次溢出的数据合并merge在一起,保存同一文件,文件是临时文件,计算后会删除。2-每个reduce从不同的map中fetch获取相同分区的文件数据。4-对缓冲区内的数据进行spill溢出(读取缓冲区内的数据)3-在将fetch后的文件合并,对合并后的数据进行排序。4-reduce对合并后的文件数据进行计算。5-对读取的数据进行分区,将数据拆分多份。7-将拆分的数据写入不同的文件。

2024-04-28 17:35:42 239

原创 HDFS分布式文件存储系统原理

4-secondarynamenode将下载下来的fsimage载入到内存,然后一条一条地执行edits文件中的各项更新操作,使得内存中的fsimage保存最新,这个过程就是edits和fsimage文件合并,生成一个新的fsimage文件即上图中的Fsimage.ckpt文件。4、 client请求3台DataNode中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将整个pipeline建立完成,后逐级返回client;

2024-04-27 06:00:00 1087

原创 python简单编写学生信息操作系统

【代码】python简单编写学生信息操作系统。

2024-04-26 21:06:54 228 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除