牧码文-CSDN博客

然而，由于浮点数的特性，它们可能会存在舍入误差和精度损失的问题。接下里就考虑是不是数据本身分布的原因，想想也不合理，最后查看了数据，发现关联键的长度很长，有19位，就开始怀疑是不是两张表的关联键类型不一致，导致了隐式转换，查询了数据类型，果真不一样，一个是bigint类型，一个是string类型。所以问题定位了，因为存在精度损失，所以那么多的key虽然不一样，但是被当作了一样，然后被无情的join在了一起，如果有2个key，就join4次，4个key，就join16次，那可不就倾斜了吗。

2023-11-29 19:43:50 1115

原创 Hive进阶函数：inline() 和 struct() ,一列转多行

最开始提出的问题，将分数按照科目和分数的形式展示，会存在一个问题，列转为行后，对应的科目应该怎么办？上面的方法虽然简单，但是需要把科目和分数拼接起来，然后在外面切割开使用，所以有没有另一种方法，不需要这样处理，直接使用原字段。这样写纵然可以，但是很麻烦，消耗资源，并且不健壮，如果再来几个字段，是不是得一直添加下去，所以需要一个函数的出现。stack函数：可以将多个列的值转为多行，并且搭配lateral view使用时，还可以充当虚拟表。：需要列转行的个数，比如2，就是需要把两个列的值转为行显示。

2023-11-28 21:08:04 1204 1

原创 Hive进阶函数：SPACE() 一行炸裂指定行

把一行数据炸成对应的number行，类似于列传行，列传行常用的函数为explode，但是要传入一个数组，函数会根据数组把列变为行，所以现在如果有一个数组，里面分别有number元素就可以实现上述的例子。假如有一张表，字段有两个，分别是name 和 number，代表含义为名字和名字出现的次数，现在需要把一行数据转为number行。：因为切割时候一个空格会切割为左右两个空串，所以在生成空格时，仅需要number-1个即可。space函数：space函数需要传入一个数值n，则会生成n个数组。

2023-11-28 20:09:55 1436

原创【Python】Selenium模块使用

相反，现在的 Selenium 包含了 WebDriver 类的实现，可以直接与主要的浏览器（如 Chrome、Firefox、Safari等）进行通信，而无需单独安装插件。Selenium 最初是为测试 Web 应用程序而创建的，但随着时间的推移，它已经发展成为一种强大的工具，用于各种自动化任务、数据挖掘和网络爬虫等。它还支持多种定位元素的方式，如按 ID、名称、类名、XPath、CSS 选择器等。它提供了一组用于操作浏览器的 API，可以实现模拟用户在浏览器中的各种行为，如点击、输入文本、提交表单等。

2023-07-06 21:45:04 1502

原创【Kafka】Docker安装kafka&java kafka api

docker依赖于zookeeper，首先安装zookeeper。在启动之前，先指定一个网络。启动zookeeper容器。进入zookeeper。

2023-06-13 21:40:45 1622

原创【TIDB】TIDB数据类型详解

列的长度固定为创建表时声明的长度。当保存 CHAR 值时，不足固定长度的字符串在后面填充空格，以达到指定的长度。M 表示列长度（字符的个数，不是字节的个数）。M 表示最大列长度（字符的最大个数），范围是 0 到 65535。在选择 TEXT 长度时，应当根据最长的行的大小和使用的字符集确定。在选择 VARCHAR 长度时，应当根据最长的行的大小和使用的字符集确定。类似于 TEXT，区别在于最大列长度为 4,294,967,295。类似于 BLOB，区别在于最大列长度为 4,294,967,295。

2023-04-06 21:14:09 3755 1

原创【StarRocks】数据结构和修改表语句大全

创建 index: example_rollup_index2，基于 example_rollup_index（k1, k3, v1, v2）。可以通过 ALTER TABLE 命令可以修改表的 Schema，包括增加列，删除列，修改列类型（暂不支持修改列名称），改变列顺序。向 example_rollup_index 的 col1 后添加一个 key 列 new_col(非聚合模型)。重新排序 example_rollup_index 中的列（设原列顺序为：k1, k2, k3, v1, v2）。

2023-04-06 20:58:34 13020 2

原创【Docker】Docker安装Hadoop分布式集群

hadoop目录安装在：/usr/local/hadoop-2.7.0/etc/hadoop。访问Hadoop102:9870，查看是否能够看到hdfs界面。访问hadoop103:8088，查看能够看到yarn界面。在yarn上可以看到执行情况。

2023-04-06 20:47:16 3313

原创【StarRocks】StarRocks四种数据模型的使用

查询时，主键在聚合之前就能进行过滤，而指标列的过滤通常在多版本聚合之后，因此建议将频繁使用的过滤字段作为主键，在聚合前就能过滤数据，从而提升查询性能。建表时，不支持为指标列创建。在电商订单分析场景中，经常按照日期对订单状态进行统计分析，则可以将经常使用的过滤字段订单创建时间 create_time、订单编号 order_id 作为主键，其余列订单状态 order_state 和订单总价 total_price 作为指标列。：是否持久化主键索引，同时使用磁盘和内存存储主键索引，避免主键索引占用过大内存空间。

2023-04-04 17:55:10 5243

原创【StarRocks】StarRocks系统架构和数据导入

StarRocks 的数据存储、内存中数据的组织方式，以及 SQL 算子的计算方式，都是列式实现的。物理执行单元会在对应的数据存储节点上执行，这样可以实现本地计算，避免数据的传输与拷贝，从而能够得到极致的查询性能。Spark Load 是一种异步数据导入模式，通过外部的 Apache Spark™ 资源实现对导入数据的预处理，提高 StarRocks 大数据量的导入性能并且节省 StarRocks 集群的计算资源。每个 FE 节点都会在内存保留一份完整的元数据，这样每个 FE 节点都能够提供无差别的服务。

2023-03-31 09:35:56 2921

原创【NebulaGraph】Docker安装NebulaGraph及入门案例

NebulaGraph 是一款开源的、分布式的、易扩展的原生图数据库，能够承载包含数千亿个点和数万亿条边的超大规模数据集，并且提供毫秒级查询。

2023-03-29 19:44:30 1654 1

原创【Spark】Spark SQL基础使用详解和案例

Spark SQL是Apache Spark的一个模块，它提供了一种基于结构化数据的编程接口。Spark SQL支持结构化数据的处理，包括数据的读取、转换和查询。它可以将传统的基于表和SQL的操作和Spark的分布式计算相结合，提供强大的数据处理和分析能力。Spark SQL也可以与其他Spark组件集成，如MLlib和GraphX，以支持更广泛的数据处理场景。

2023-03-24 22:51:31 2356

原创【python】pandas模块数据处理小案例

pandas作为数据处理的得力工具，简便了数据开发过程，之前串联了pandas的使用方法，现在用几个小案例巩固一下常用的pandas方法。数据缺少日期，为了模拟数据，需要对每行数据增加一个随机日期，要求：日期范围在2023-01-01 至 2023-01-15之间。假设一行数据如上所示，分别为页面、点击、添加、支付、花费等字段，那么需要实现的功能如下。要求：每个页面的总共点击、添加、支付、花费总量按照点击、添加、支付、花费排序。要求：按照page字段聚合，求click、add、pay的和。

2023-03-21 21:48:35 774

原创【Linux】如何在Linux中自定义定时调度任务以及依赖关系的配置

可以使用标准的Linux定时任务工具Cron来定时调度一个shell脚本。Cron是一个非常强大的工具，它可通过简单的命令来实现一些非常复杂的调度任务，比如每周五下午5点备份数据库，每小时发送一次邮件等。

2023-03-21 19:56:22 1758

原创【Linux】大数据开发中常用的shell命令

其中，condition是一个测试条件，可以是比较操作符（例如“-gt”表示大于）、文件测试操作符（例如“-f”表示文件存在）、逻辑操作符（例如“&&”表示与）、字符串比较操作符（例如“=”，“!总结一下，sort命令是所学shell命令中比较常用也非常实用的一个命令，它可以通过选项的组合来满足不同场景下的排序需求。需要注意的是，在处理日期时，要根据具体的需求来调整date命令的格式和参数，才能正确地获取到所需要的时间信息。find命令是一条强大的搜索命令，可以在指定的目录下查找符合条件的文件或目录。

2023-03-21 19:50:33 568

原创【python】pandas模块使用总结

pands在日常数据处理中的使用方法总结了七大类，如果更详细的使用说明和更全面的函数说明可以浏览官网：https://pandas.pydata.org/使用pandas可以大大提高数据处理的效率和准确性，特别是在数据预处理、建模和报表制作等方面。它是数据科学的核心之一，非常值得学习和掌握。它类似于Excel或SQL表格。pandas中的loc和iloc都是用于选取数据的方法，但两者的使用方式、效果和用途有些不同。在使用pandas时，我们通常需要进行的操作包括读取数据、数据清洗、数据分析和数据可视化等。

2023-03-15 22:51:45 1738

原创【Spark】Spark的DataFrame使用

Spark的DataFrame是一种类似于表格的数据结构，可以进行各种数据处理操作。使用DataFrame可以很方便地处理结构化数据（如CSV、JSON、Parquet等格式的数据）。

2023-03-07 18:48:31 1495

原创【Spark】Spark的常用算子

使用给定的函数对 RDD 的元素进行聚合，seqOp 计算在分区中初始值到中间结果的聚合计算，而 combOp 在节点上对中间结果进行聚合。: 返回对输入 RDD 和参数 RDD 执行联合操作的结果，生成一个新的 RDD，不去重。: 返回对输入 RDD 和参数 RDD 执行交集操作的结果，生成一个新的 RDD。: 返回对输入 RDD 和参数 RDD 执行差集操作的结果，生成一个新的 RDD。: 返回对输入 RDD 和参数 RDD 执行笛卡尔积的结果，生成一个新的 RDD。

2023-03-07 18:03:45 3291 1

原创秋招面经第十三弹：58同城一面-大数据开发工程师

总结：这次面试感觉面试官有点腼腆，问题并不是特别难，对于技术八股问的不多，对于一些网络、操作系统也是没问，但是对于项目和对数据仓库的理解问的比较多，可能面试官比较注重面试者的独自思考能力，问了我对数据域、开发流程的一些自己的见解和觉得不足的地方。写在最前：秋招以来一直在冲，因为事情比较多，对于笔试面试一直没有复盘，现在靠仅存的记忆把面试的一些问题记录下来，尽可能记录出能回忆到的问题，但可能记的不是很全。对于公司的分层，有一些自己的想法吗？存储的数据太大的时候，有什么方法降低存储吗？数据域是怎么划分的？

2022-12-02 06:00:00 802 4

原创秋招面经第十二弹：东方航空一面-数据工程师

总结：虽然这次面试有点摆烂，而且面试行式有点不伦不类的，把技术面和hr面直接放在一起，但是我个人是比较喜欢这种行式的，一次性面完，绝不拖泥带水，不用担心一面结束等二面，二面结束等三面，而且面试的内容感觉来说也还可以接受，虽然是航空公司，但是面试的内容感觉他们确实在做数据开发，和开发岗也比较吻合，虽然hr有些咄咄逼人的感觉，但是技术面试官还是很温和的，不会特别强硬的问问题。hr先介绍了面试流程，说总共四个流程，先自我介绍，在hr问问题，再技术面问题，再由我反问。我回答，回家坐过你们的飞机，其他的不是很了解。

2022-12-01 06:00:00 1097

原创秋招面经第十一弹：沐瞳科技一面-大数据平台开发工程师

总结：因为是平台开发，对于后端开发的能力确实有限，java的问题回答的并不好，但是在问spark源码时候的方式很独特，可以真实的去考虑sql是怎么提交的，比着回答八股文，对了一些灵活性，而且分析代码得出结论的方式更能学到东西，总体来说，虽然java的问题回答的一探糊涂，但是大数据相关的面试经验又多了一些。这种源码的考察方式很独特，编都没法编，就仔细的分析了一下代码，把行动算子和shuffle算子罗列了一下，和面试官说了job和stage的数量，顺遍说了下job和stage底层是怎么划分的，拖延下时间。

2022-11-30 06:00:00 1445

原创秋招面经第十弹：字节跳动二面-大数据开发工程师(电商)

总结：二面的面试官有点老板风范，过程中不知道是在干其他事情，还是在记录我的面试情况，有时候会眼神在屏幕扫荡，面试问题比较针对于真实生产环境，对于没有实习经验的小伙伴可能不太友好，而且对项目问的也比较全面，一大半的时间都在问项目，总之，整体来说难度和体验都还可以。在这里我找到一个诀窍，能写代码的，尽量写代码，因为写代码比着口述，第一是可以让面试官融入自己的情感，知道你的处理逻辑，第二就是写代码就表现的很自信，因为大家都是尽量少些，而你主动去写，反向面试，惊呆面试官。开始死问项目，问的很细，怎么做的？

2022-11-29 06:00:00 943

原创秋招面经第九弹：字节一面-大数据开发工程师(电商)

总结：字节的面试可能是一面的原因，整体感觉还可以，甚至给一种感觉没有一些小公司的难，但考察的面还是挺广的，对于底层的东西和基础的东西字节问的还是比较多，算法出了两个，本人的算法能力巨弱，好在出的比较简单，答得也比较顺利。写在最前：秋招以来一直在冲，因为事情比较多，对于笔试面试一直没有复盘，现在靠仅存的记忆把面试的一些问题记录下来，尽可能记录出能回忆到的问题，但可能记的不是很全。java的内存模型？面试官可能看我比较紧张，说缓解一下我的紧张情绪，下面正式开始，当时听完，更紧张。hive的udf怎么自定义的？

2022-11-28 06:30:00 437

原创秋招面经第八弹：网易二面-数据开发工程师

总结：网易的面试整理来说还是有些难度的，有很多很深的问题，现在实在是想不出来了，只记得当时脑瓜子嗡嗡的，面试官也挺好，开始他做了自我介绍，应该是数据团队的负责人或者组长，当时走神了，全程一直在微笑，也没有不尊重面试者的表现，不像某些面试官期间会做其他的事情，一直等你回答完问题在说话，不会打断你，总之，收获还是挺多的，比较nice。写在最前：秋招以来一直在冲，因为事情比较多，对于笔试面试一直没有复盘，现在靠仅存的记忆把面试的一些问题记录下来，尽可能记录出能回忆到的问题，但可能记的不是很全。

2022-11-27 06:00:00 1054

原创秋招面经第七弹：网易一面-数据开发工程师

总结：网易一面其实还算友好，没有太刁难的问题，面试官也比较和善吧，因为时间太久确实想不起来这个面试的太多问题，可能不是很全，只回忆了几个比较记忆深刻的问题，见谅见谅。写在最前：秋招以来一直在冲，因为事情比较多，对于笔试面试一直没有复盘，现在靠仅存的记忆把面试的一些问题记录下来，尽可能记录出能回忆到的问题，但可能记的不是很全。不同于平常的数据倾斜提问，在我说出来一种加盐处理方式后，问我怎么加盐，我怀疑应该是太多人说这些了，面试官怀疑是背的八股，想看一下是不是真的处理过数据倾斜。项目中用户域是怎么做的？

2022-11-26 06:00:00 665

原创秋招面经第六弹：理想一面-大数据开发工程师

总结：本次面试问的可以说有史以来最全的了，涉及到了很多的大数据相关的问题，而且又会涉及到源码，问的广度和深度都比较深，而且，面试官不是你回答完就结束了，会根据你的回答接着往下问你，总之这次面试之后感触还是很大的，下来把这些问题都整理了一下，这些问题在大数据面试中的出现频率也相当高了。写在最前：秋招以来一直在冲，因为事情比较多，对于笔试面试一直没有复盘，现在靠仅存的记忆把面试的一些问题记录下来，尽可能记录出能回忆到的问题，但可能记的不是很全。spark的执行流程？stage对于task的分发又是怎么做的？

2022-11-25 06:00:00 690

原创秋招面经第五弹：一家上市小公司二面-大数据开发工程师

另外，在反问中了解到，现在公司在做数据仓库和数据开发业务时候，招人标准除了技术之外，想要找一些对业务理解较好的同学，通过这些也感受到了在大数据行业其实业务理解能力也是很重要的一环，在其他的面试中也有感受到，大数据行业除了技术外可能还需要有熟练的业务能力，以后也要多关注这些方面。反问时候问了岗位匹配度和岗位的工作内容，其实这个公司做的数据和政府数据有关，数据体量很大，但是政府部门多半不会用，所以工作内容对接的多是政府数据。这种问题，说一下影响范围较大的，但是结果没有恶劣影响的，而且自己解决的很完美的。

2022-11-24 06:00:00 721

大数据必学框架-Flume.md

大数据框架-ZooKeeper.md

Python必学的NumPy库.md

大数据必学框架-kafka.md

ubuntu下mysql的安装到卸载.md

vscode macOs

mysql-workbench-community_8.0.23-1ubuntu18.04_amd64.deb

jdk1.8.0_144.zip

Sierra-compact-light.tar

Cupertino-Catalina.tar

finalshell.exe

apache-tomcat-10.0.7.tar.gz

nginx-1.16.1.zip

VMware-workstation-full-10.0.4-2249910.exe

空空如也