自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 数据的清洗

转换构造数据变换是数据清理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。数据转换常见的内容包括:数据类型转换、数据语义转换、数据值域转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据离散化、提炼新字段、属性构造、数据压缩等。删除重复项由于各种原因,数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列)需要做去重处理。对于重复项的判断,基本思想是“排序和合并”,先将数据库中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。

2023-11-23 18:00:27 136

原创 Flink1.17入门

(5)高可用: 本身高可用的设置,加上与K8s,YARN 和 Mesos 的紧密集成,再加上从故障中快速恢复和动态扩展任务的能力,Flink能做到以及少的停机时间7*24全天运行。(2)结果的准确性:Flink提供了事件时间和处理时间语义。对于乱序事件流事件时间,事件时间 语义依然能提供一致且准确的结果。(4)可以连接到最常用的外部系统,如Kafka、Hive、JDBC、HDFS、Redis等。我们处理数据的目标是:低延迟、高吞吐、结果的准确性和良好的容错性。

2023-10-18 19:11:21 99 1

原创 Apche Kudu

Apache Kudu 是由 Cloudera 开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合HDFS和HBase的功能的新组件,具备介于两者之间的新存储组件。局限性是批量读取吞吐量远不如HDFS,不适用于批量数据分析的场景。Kudu支持水平扩展,并且与Cloudera Impala 和 Apache Spark 等当前流行的大数据查询和分析工具结合紧密。以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是无法进行随机的读写。

2023-10-16 17:18:53 68 1

原创 Spark面试题

在一个(K,V)的 RDD 上调用,返回一个(K,V)的RDD,使用定的 reduce 函数,将相同 key 的值聚合到一起,reduce 任务的个数可以通过第二个可选参数来设置。(7)filter:根据指定的规则进行筛选过滤,符合规则的数据保留,不符合的丢弃。(6)groupBy:根据指定的规则进行分组,分区默认不变,数据会被打乱(shuffle)。极限情况下,数据可能被分到同一个分区中。map(func):返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成(每条数据执行一次)。

2023-09-18 20:19:32 147

原创 Spark性能调优

你在提交任务前,一定知道或者可以从运维部门获取到你可以使用的资源情况,在编写submit脚本的时候,就根据可用的资源情况进行资源的分配,比如说集群有15台机器,每台机器为8G内存,2个CPU core,那么就指定15个Executor,每个Executor分配8G内存,2个CPU core。Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的fenpei与性能的提升是成正比的,实现了最优的资源配置后,在次基础上在考虑进行后面论述的性能调优策略。tandalone模式。

2023-09-18 17:32:13 36

原创 Spark内核

函数,Spark查询为懒执行,当执行到action算子时开始反向推算,根据宽依赖进行stage的划分,随后每一个stage对应一个taskset,taskset中有多个task,根据本地化原则,task会被分发到指定的Executor去执行,在任务执行的过程中,Executor也会不断与Driver进行通信,报告任务运行情况。如果有Executor节点发生了故障或崩溃,Spark 应用也可以继续执行,会将出错节点上的任务调度到其他Executor节点上继续运行。3. 跟踪 Executor 的执行情况;

2023-09-17 22:45:57 62 1

原创 虚拟机Linux系统ip突然丢失

如果 ifcfg-ens33 这个文件已经提前编辑过并且已经将 ONBOOT 改为yes,之前还好好的但是现在ip突然就没了。如果失败 (大概率会失败)就执行下边命令。禁用 NetworkManager。1.先尝试重启网络服务。

2023-09-16 17:55:19 1444 2

原创 clickhouse 一战到底

他是使用C++语言编写的,支持SQL实时查询的大型数据管理系统。由于Clickhouse在大型数据集查询处理的高效表现,从2016年开源以来,就吸引了全球的目光,甚至一度登上githubl的关注度头把交椅。相比于OLTP在线事务处理,Clickhouse更关注于对海量数据的计算分析,关注的是数据吞吐、查询速度、计算性能等指标。这个量即包括数据的行数,也包括数据的列数。一个典型的OLAP场景主要是对海量数据进行更新,相比于我们常用的ysq等OLTP数据库,有一些很明显的特征。(4)对事务的要求不是必须的。

2023-09-12 23:31:14 59

原创 Scala函数

方法可以定义多个参数列表,当使用较少的参数列表调用多参数列表参数的方法时,会产生一个新的函数,该函数接收剩余参数列表作为其参数.方法可以具有隐式参数列表,由参数列表开头的implicit关键字标记。implict只能修改最尾部的参数列表,应用于其全部参数。隐式函数也称隐式转换,使用implicit修饰的函数。=>右边为参数列表,=>左边为函数体。Scala可自动传递正确类型的隐式值。指的是不含函数名称的函数。通常与柯理化函数结合使用。即作为参数又作为返回值。Scala中case。

2023-09-11 14:29:25 43

原创 Redis

(2)基于语句追加:只追加变化的数据。是完全开源免费的,遵守BSD协议,是一个高性能(NOSQL)的key-value数据库,Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。,也就是说对于一个具有上百万个元素的lists来说,在头部和尾部插入一个新元素,其时间复杂度是常数级别的,比如用LPUSH在10个元素的lists头部插入新元素,和在上千万元素的lists头部插入新元素的速度应该是相同的。

2023-09-10 21:14:59 47 1

原创 Spark编程

将待处理的数据一分区为单位发送到计算节点进行处理(分区内计算,而分区之间并不能计算),这里的处理是指可以进项任意的处理,可以是过滤数据;先有分区,分区对应task,task给Executo执行,有几个Executor在执行则有多少并行度;Map算子是【分区内】一个数据一个数据的执行,类似于串行操作;将整个分区的数据加载到内存进行引用,处理完的数据不会被释放掉,因为存在对象的引用,只有全部处理完才会释放数据;将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。类似于缓冲流,效率更高;

2023-09-08 20:09:22 36 1

原创 Spark基础知识

RDD 表示只读的分区的数据集, 对RDD 进行改动, 只能通过 RDD 的转换操作,由一个RDD得到一个新的RDD, 新的 RDD 包含了从其他 RDD 衍生所必需的信息.RDDs之间存在依赖, RDD的执行是按照血缘关系延时计算的.如果血缘关系较长,可以通过持久化RDD来切断血缘关系.在RDD进行转换和动作的时候,会形成RDDD的Lineage依赖链,当某一个RDD失效的时候,可以通过重新计算上游的RDD来重新生成丢失的RDD数据.RDD的计算任务如果运行失败,会自动进行任务的重新计算,默认4次.

2023-09-05 19:09:18 122

原创 hive常用函数

它接受三个参数:待提取子字符串的字符串、子字符串的起始位置和要提取的长度。如果只提供两个参数,则第二个参数将被视为起始位置,而长度将默认为从起始位置到字符串的末尾。MONTH函数是一个用于提取日期中的月份的函数。它接受一个日期作为参数,并返回一个整数值,表示该日期的月份。COUNT(1)也会计算表中的行数,并返回该值。但是,它实际上是在计算一个固定值1的行数,而不是计算所有行的数量。函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段。)会计算表中的总行数,并返回该值。

2023-07-30 21:16:09 722 1

原创 【linux系统操作】linux中所有基础命令失效,显示找不到该命令

直接在linux命令行界面输入如下,然后回车(导入环境变量,以及shell常见的命令的存放地址。有可能是之前修改了etc/profile.d目录下的环境变量配置文件导致。如果记得修改了配置文件那个地方,可以将配置文件修改回去,然后再保存更新。如果系统所有命令都不能使用时,可以使用绝对命令vi打开profile。1./bin/vi /etc/profile.d/环境变量文件名。2.# 在系统的配置文件里添加[环境变量]地址。

2023-07-12 11:37:00 5289 1

原创 SpringMvc导出Excel

原文链接:https://blog.csdn.net/liqingwei168/article/details/79162359。原文链接:https://blog.csdn.net/liqingwei168/article/details/79162359。String[] titles = { "用户编号", "用户姓名", "用户地址" };// 2.在webbook中添加一个sheet,对应Excel文件中的sheet。// 4.创建单元格,并设置值表头 设置表头居中。// 5.写入实体数据。

2023-07-09 18:51:41 324 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除