桐桐不懂码
码龄3年
关注
提问 私信
  • 博客:10,080
    10,080
    总访问量
  • 15
    原创
  • 1,683,246
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2022-10-02
博客简介:

x3303208457的博客

查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得10次评论
  • 获得53次收藏
  • 博客总排名1,683,246名
创作历程
  • 15篇
    2023年
成就勋章
创作活动更多

『技术文档』写作方法征文挑战赛

在技术的浩瀚海洋中,一份优秀的技术文档宛如精准的航海图。它是知识传承的载体,是团队协作的桥梁,更是产品成功的幕后英雄。然而,打造这样一份出色的技术文档并非易事。你是否在为如何清晰阐释复杂技术而苦恼?是否纠结于文档结构与内容的完美融合?无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

55人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据的清洗

转换构造数据变换是数据清理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。数据转换常见的内容包括:数据类型转换、数据语义转换、数据值域转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据离散化、提炼新字段、属性构造、数据压缩等。删除重复项由于各种原因,数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列)需要做去重处理。对于重复项的判断,基本思想是“排序和合并”,先将数据库中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。
原创
发布博客 2023.11.23 ·
224 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink1.17入门

(5)高可用: 本身高可用的设置,加上与K8s,YARN 和 Mesos 的紧密集成,再加上从故障中快速恢复和动态扩展任务的能力,Flink能做到以及少的停机时间7*24全天运行。(2)结果的准确性:Flink提供了事件时间和处理时间语义。对于乱序事件流事件时间,事件时间 语义依然能提供一致且准确的结果。(4)可以连接到最常用的外部系统,如Kafka、Hive、JDBC、HDFS、Redis等。我们处理数据的目标是:低延迟、高吞吐、结果的准确性和良好的容错性。
原创
发布博客 2023.10.18 ·
126 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Apche Kudu

Apache Kudu 是由 Cloudera 开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合HDFS和HBase的功能的新组件,具备介于两者之间的新存储组件。局限性是批量读取吞吐量远不如HDFS,不适用于批量数据分析的场景。Kudu支持水平扩展,并且与Cloudera Impala 和 Apache Spark 等当前流行的大数据查询和分析工具结合紧密。以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是无法进行随机的读写。
原创
发布博客 2023.10.16 ·
94 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Spark面试题

在一个(K,V)的 RDD 上调用,返回一个(K,V)的RDD,使用定的 reduce 函数,将相同 key 的值聚合到一起,reduce 任务的个数可以通过第二个可选参数来设置。(7)filter:根据指定的规则进行筛选过滤,符合规则的数据保留,不符合的丢弃。(6)groupBy:根据指定的规则进行分组,分区默认不变,数据会被打乱(shuffle)。极限情况下,数据可能被分到同一个分区中。map(func):返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成(每条数据执行一次)。
原创
发布博客 2023.09.18 ·
180 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark性能调优

你在提交任务前,一定知道或者可以从运维部门获取到你可以使用的资源情况,在编写submit脚本的时候,就根据可用的资源情况进行资源的分配,比如说集群有15台机器,每台机器为8G内存,2个CPU core,那么就指定15个Executor,每个Executor分配8G内存,2个CPU core。Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的fenpei与性能的提升是成正比的,实现了最优的资源配置后,在次基础上在考虑进行后面论述的性能调优策略。tandalone模式。
原创
发布博客 2023.09.18 ·
48 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark内核

函数,Spark查询为懒执行,当执行到action算子时开始反向推算,根据宽依赖进行stage的划分,随后每一个stage对应一个taskset,taskset中有多个task,根据本地化原则,task会被分发到指定的Executor去执行,在任务执行的过程中,Executor也会不断与Driver进行通信,报告任务运行情况。如果有Executor节点发生了故障或崩溃,Spark 应用也可以继续执行,会将出错节点上的任务调度到其他Executor节点上继续运行。3. 跟踪 Executor 的执行情况;
原创
发布博客 2023.09.17 ·
86 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

虚拟机Linux系统ip突然丢失

如果 ifcfg-ens33 这个文件已经提前编辑过并且已经将 ONBOOT 改为yes,之前还好好的但是现在ip突然就没了。如果失败 (大概率会失败)就执行下边命令。禁用 NetworkManager。1.先尝试重启网络服务。
原创
发布博客 2023.09.16 ·
1849 阅读 ·
9 点赞 ·
3 评论 ·
23 收藏

clickhouse 一战到底

他是使用C++语言编写的,支持SQL实时查询的大型数据管理系统。由于Clickhouse在大型数据集查询处理的高效表现,从2016年开源以来,就吸引了全球的目光,甚至一度登上githubl的关注度头把交椅。相比于OLTP在线事务处理,Clickhouse更关注于对海量数据的计算分析,关注的是数据吞吐、查询速度、计算性能等指标。这个量即包括数据的行数,也包括数据的列数。一个典型的OLAP场景主要是对海量数据进行更新,相比于我们常用的ysq等OLTP数据库,有一些很明显的特征。(4)对事务的要求不是必须的。
原创
发布博客 2023.09.12 ·
71 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala函数

方法可以定义多个参数列表,当使用较少的参数列表调用多参数列表参数的方法时,会产生一个新的函数,该函数接收剩余参数列表作为其参数.方法可以具有隐式参数列表,由参数列表开头的implicit关键字标记。implict只能修改最尾部的参数列表,应用于其全部参数。隐式函数也称隐式转换,使用implicit修饰的函数。=>右边为参数列表,=>左边为函数体。Scala可自动传递正确类型的隐式值。指的是不含函数名称的函数。通常与柯理化函数结合使用。即作为参数又作为返回值。Scala中case。
原创
发布博客 2023.09.11 ·
67 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Redis

(2)基于语句追加:只追加变化的数据。是完全开源免费的,遵守BSD协议,是一个高性能(NOSQL)的key-value数据库,Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。,也就是说对于一个具有上百万个元素的lists来说,在头部和尾部插入一个新元素,其时间复杂度是常数级别的,比如用LPUSH在10个元素的lists头部插入新元素,和在上千万元素的lists头部插入新元素的速度应该是相同的。
原创
发布博客 2023.09.10 ·
56 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Spark编程

将待处理的数据一分区为单位发送到计算节点进行处理(分区内计算,而分区之间并不能计算),这里的处理是指可以进项任意的处理,可以是过滤数据;先有分区,分区对应task,task给Executo执行,有几个Executor在执行则有多少并行度;Map算子是【分区内】一个数据一个数据的执行,类似于串行操作;将整个分区的数据加载到内存进行引用,处理完的数据不会被释放掉,因为存在对象的引用,只有全部处理完才会释放数据;将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。类似于缓冲流,效率更高;
原创
发布博客 2023.09.08 ·
57 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Spark基础知识

RDD 表示只读的分区的数据集, 对RDD 进行改动, 只能通过 RDD 的转换操作,由一个RDD得到一个新的RDD, 新的 RDD 包含了从其他 RDD 衍生所必需的信息.RDDs之间存在依赖, RDD的执行是按照血缘关系延时计算的.如果血缘关系较长,可以通过持久化RDD来切断血缘关系.在RDD进行转换和动作的时候,会形成RDDD的Lineage依赖链,当某一个RDD失效的时候,可以通过重新计算上游的RDD来重新生成丢失的RDD数据.RDD的计算任务如果运行失败,会自动进行任务的重新计算,默认4次.
原创
发布博客 2023.09.05 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive常用函数

它接受三个参数:待提取子字符串的字符串、子字符串的起始位置和要提取的长度。如果只提供两个参数,则第二个参数将被视为起始位置,而长度将默认为从起始位置到字符串的末尾。MONTH函数是一个用于提取日期中的月份的函数。它接受一个日期作为参数,并返回一个整数值,表示该日期的月份。COUNT(1)也会计算表中的行数,并返回该值。但是,它实际上是在计算一个固定值1的行数,而不是计算所有行的数量。函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段。)会计算表中的总行数,并返回该值。
原创
发布博客 2023.07.30 ·
903 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【linux系统操作】linux中所有基础命令失效,显示找不到该命令

直接在linux命令行界面输入如下,然后回车(导入环境变量,以及shell常见的命令的存放地址。有可能是之前修改了etc/profile.d目录下的环境变量配置文件导致。如果记得修改了配置文件那个地方,可以将配置文件修改回去,然后再保存更新。如果系统所有命令都不能使用时,可以使用绝对命令vi打开profile。1./bin/vi /etc/profile.d/环境变量文件名。2.# 在系统的配置文件里添加[环境变量]地址。
原创
发布博客 2023.07.12 ·
5816 阅读 ·
1 点赞 ·
1 评论 ·
28 收藏

SpringMvc导出Excel

原文链接:https://blog.csdn.net/liqingwei168/article/details/79162359。原文链接:https://blog.csdn.net/liqingwei168/article/details/79162359。String[] titles = { "用户编号", "用户姓名", "用户地址" };// 2.在webbook中添加一个sheet,对应Excel文件中的sheet。// 4.创建单元格,并设置值表头 设置表头居中。// 5.写入实体数据。
原创
发布博客 2023.07.09 ·
352 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏
加载更多