自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(394)
  • 资源 (13)
  • 收藏
  • 关注

原创 python数据文件处理库-pandas

pandas 是一个 Python提供的快速、灵活的数据结构处理包,让“关系型”或“标记型”数据的交互既简单又直观。

2024-06-06 21:20:17 1097

原创 python图像处理库-PIL(Pillow)

PIL库全称为Python Imaging Library,即Python图像处理库,是一个在Python中用于处理图像的非常流行的库。

2024-06-06 08:25:23 1596

原创 python图像识别库-pytesseract

pytesseract是python的一个用于图像提取的库, 它实际上是对Tesseract OCR引擎的封装。pytesseract使得在Python项目中调用Tesseract变得更加简便,主要用于从图像中提取和识别文本信息。

2024-06-05 20:06:36 998 1

原创 python的网页解析库-bs4(BeautifulSoup)

>BeautifulSoup是一个用于解析HTML和XML文档的Python库,它能够方便地从网页中提取数据。

2024-06-05 09:13:17 1106 1

原创 python的sql解析库-sqlparse

sqlparse 是一个 Python 库,是一个用于 Python 的非验证 SQL 解析器, 用于解析 SQL 语句并提供一个简单的 API 来访问解析后的 SQL 结构。可以帮助解析复杂的 SQL 查询,提取信息,或者对 SQL 语句进行一些基本的分析和操作。

2024-06-04 21:13:34 961

原创 python词云生成库-wordcloud

WordCloud 是一个用于生成词云的 Python 库,它可以根据提供的文本数据创建出美观的视觉化图像,其中文本的大小和频率成比例。同时也提供了丰富的绘制功能, 可以结合 matplotlib 库进行复杂的操作

2024-06-04 06:56:40 1404

原创 python情感分析库-snownlp

SnowNLP 是一个简易的 Python 库,主要用于处理中文文本数据,提供了多种实用的功能。

2024-06-03 20:37:26 365

原创 Python文本分词工具库-jieba

jieba库是一个针对中文文本的分词工具库,广泛应用于自然语言处理(NLP)领域的中文文本预处理阶段。

2024-06-03 09:57:18 572 1

原创 Hive数据倾斜之:数据类型不一致导致的笛卡尔积

然而,由于浮点数的特性,它们可能会存在舍入误差和精度损失的问题。接下里就考虑是不是数据本身分布的原因,想想也不合理,最后查看了数据,发现关联键的长度很长,有19位,就开始怀疑是不是两张表的关联键类型不一致,导致了隐式转换,查询了数据类型,果真不一样,一个是bigint类型,一个是string类型。所以问题定位了,因为存在精度损失,所以那么多的key虽然不一样,但是被当作了一样,然后被无情的join在了一起,如果有2个key,就join4次,4个key,就join16次,那可不就倾斜了吗。

2023-11-29 19:43:50 401

原创 Hive进阶函数:inline() 和 struct() ,一列转多行

最开始提出的问题,将分数按照科目和分数的形式展示,会存在一个问题,列转为行后,对应的科目应该怎么办?上面的方法虽然简单,但是需要把科目和分数拼接起来,然后在外面切割开使用,所以有没有另一种方法,不需要这样处理,直接使用原字段。这样写纵然可以,但是很麻烦,消耗资源,并且不健壮,如果再来几个字段,是不是得一直添加下去,所以需要一个函数的出现。stack函数:可以将多个列的值转为多行,并且搭配lateral view使用时,还可以充当虚拟表。:需要列转行的个数,比如2,就是需要把两个列的值转为行显示。

2023-11-28 21:08:04 499 1

原创 Hive进阶函数:SPACE() 一行炸裂指定行

把一行数据炸成对应的number行,类似于列传行,列传行常用的函数为explode,但是要传入一个数组,函数会根据数组把列变为行,所以现在如果有一个数组,里面分别有number元素就可以实现上述的例子。假如有一张表,字段有两个,分别是name 和 number,代表含义为名字 和 名字出现的次数,现在需要把一行数据转为number行。:因为切割时候一个空格会切割为左右两个空串,所以在生成空格时,仅需要number-1个即可。space函数:space函数需要传入一个数值n,则会生成n个数组。

2023-11-28 20:09:55 742

原创 【Python】Selenium模块使用

相反,现在的 Selenium 包含了 WebDriver 类的实现,可以直接与主要的浏览器(如 Chrome、Firefox、Safari等)进行通信,而无需单独安装插件。Selenium 最初是为测试 Web 应用程序而创建的,但随着时间的推移,它已经发展成为一种强大的工具,用于各种自动化任务、数据挖掘和网络爬虫等。它还支持多种定位元素的方式,如按 ID、名称、类名、XPath、CSS 选择器等。它提供了一组用于操作浏览器的 API,可以实现模拟用户在浏览器中的各种行为,如点击、输入文本、提交表单等。

2023-07-06 21:45:04 1214

原创 【Kafka】Docker安装kafka&java kafka api

docker依赖于zookeeper,首先安装zookeeper。在启动之前,先指定一个网络。启动zookeeper容器。进入zookeeper。

2023-06-13 21:40:45 1301

原创 【TIDB】TIDB数据类型详解

列的长度固定为创建表时声明的长度。当保存 CHAR 值时,不足固定长度的字符串在后面填充空格,以达到指定的长度。M 表示列长度(字符的个数,不是字节的个数)。M 表示最大列长度(字符的最大个数),范围是 0 到 65535。在选择 TEXT 长度时,应当根据最长的行的大小和使用的字符集确定。在选择 VARCHAR 长度时,应当根据最长的行的大小和使用的字符集确定。类似于 TEXT,区别在于最大列长度为 4,294,967,295。类似于 BLOB,区别在于最大列长度为 4,294,967,295。

2023-04-06 21:14:09 2165 2

原创 【StarRocks】数据结构和修改表语句大全

创建 index: example_rollup_index2,基于 example_rollup_index(k1, k3, v1, v2)。可以通过 ALTER TABLE 命令可以修改表的 Schema,包括增加列,删除列,修改列类型(暂不支持修改列名称),改变列顺序。向 example_rollup_index 的 col1 后添加一个 key 列 new_col(非聚合模型)。重新排序 example_rollup_index 中的列(设原列顺序为:k1, k2, k3, v1, v2)。

2023-04-06 20:58:34 6547 2

原创 【Docker】Docker安装Hadoop分布式集群

hadoop目录安装在:/usr/local/hadoop-2.7.0/etc/hadoop。访问Hadoop102:9870,查看是否能够看到hdfs界面。访问hadoop103:8088,查看能够看到yarn界面。在yarn上可以看到执行情况。

2023-04-06 20:47:16 1823

原创 【StarRocks】StarRocks四种数据模型的使用

查询时,主键在聚合之前就能进行过滤,而指标列的过滤通常在多版本聚合之后,因此建议将频繁使用的过滤字段作为主键,在聚合前就能过滤数据,从而提升查询性能。建表时,不支持为指标列创建。在电商订单分析场景中,经常按照日期对订单状态进行统计分析,则可以将经常使用的过滤字段订单创建时间 create_time、订单编号 order_id 作为主键,其余列订单状态 order_state 和订单总价 total_price 作为指标列。:是否持久化主键索引,同时使用磁盘和内存存储主键索引,避免主键索引占用过大内存空间。

2023-04-04 17:55:10 3949

原创 【StarRocks】StarRocks系统架构和数据导入

StarRocks 的数据存储、内存中数据的组织方式,以及 SQL 算子的计算方式,都是列式实现的。物理执行单元会在对应的数据存储节点上执行,这样可以实现本地计算,避免数据的传输与拷贝,从而能够得到极致的查询性能。Spark Load 是一种异步数据导入模式,通过外部的 Apache Spark™ 资源实现对导入数据的预处理,提高 StarRocks 大数据量的导入性能并且节省 StarRocks 集群的计算资源。每个 FE 节点都会在内存保留一份完整的元数据,这样每个 FE 节点都能够提供无差别的服务。

2023-03-31 09:35:56 1801

原创 【NebulaGraph】Docker安装NebulaGraph及入门案例

NebulaGraph 是一款开源的、分布式的、易扩展的原生图数据库,能够承载包含数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。

2023-03-29 19:44:30 869 1

原创 【Spark】Spark SQL基础使用详解和案例

Spark SQL是Apache Spark的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL支持结构化数据的处理,包括数据的读取、转换和查询。它可以将传统的基于表和SQL的操作和Spark的分布式计算相结合,提供强大的数据处理和分析能力。Spark SQL也可以与其他Spark组件集成,如MLlib和GraphX,以支持更广泛的数据处理场景。

2023-03-24 22:51:31 1696

原创 【python】pandas模块数据处理小案例

pandas作为数据处理的得力工具,简便了数据开发过程,之前串联了pandas的使用方法,现在用几个小案例巩固一下常用的pandas方法。数据缺少日期,为了模拟数据,需要对每行数据增加一个随机日期,要求:日期范围在2023-01-01 至 2023-01-15之间。假设一行数据如上所示,分别为页面、点击、添加、支付、花费等字段,那么需要实现的功能如下。要求:每个页面的总共点击、添加、支付、花费总量按照点击、添加、支付、花费排序。要求:按照page字段聚合,求click、add、pay的和。

2023-03-21 21:48:35 507

原创 【Linux】如何在Linux中自定义定时调度任务以及依赖关系的配置

可以使用标准的Linux定时任务工具Cron来定时调度一个shell脚本。Cron是一个非常强大的工具,它可通过简单的命令来实现一些非常复杂的调度任务,比如每周五下午5点备份数据库,每小时发送一次邮件等。

2023-03-21 19:56:22 1096

原创 【Linux】大数据开发中常用的shell命令

其中,condition是一个测试条件,可以是比较操作符(例如“-gt”表示大于)、文件测试操作符(例如“-f”表示文件存在)、逻辑操作符(例如“&&”表示与)、字符串比较操作符(例如“=”,“!总结一下,sort命令是所学shell命令中比较常用也非常实用的一个命令,它可以通过选项的组合来满足不同场景下的排序需求。需要注意的是,在处理日期时,要根据具体的需求来调整date命令的格式和参数,才能正确地获取到所需要的时间信息。find命令是一条强大的搜索命令,可以在指定的目录下查找符合条件的文件或目录。

2023-03-21 19:50:33 374

原创 【python】pandas模块使用总结

pands在日常数据处理中的使用方法总结了七大类,如果更详细的使用说明和更全面的函数说明可以浏览官网:https://pandas.pydata.org/使用pandas可以大大提高数据处理的效率和准确性,特别是在数据预处理、建模和报表制作等方面。它是数据科学的核心之一,非常值得学习和掌握。它类似于Excel或SQL表格。pandas中的loc和iloc都是用于选取数据的方法,但两者的使用方式、效果和用途有些不同。在使用pandas时,我们通常需要进行的操作包括读取数据、数据清洗、数据分析和数据可视化等。

2023-03-15 22:51:45 1350

原创 【Spark】Spark的DataFrame使用

Spark的DataFrame是一种类似于表格的数据结构,可以进行各种数据处理操作。使用DataFrame可以很方便地处理结构化数据(如CSV、JSON、Parquet等格式的数据)。

2023-03-07 18:48:31 1021

原创 【Spark】Spark的常用算子

使用给定的函数对 RDD 的元素进行聚合,seqOp 计算在分区中初始值到中间结果的聚合计算,而 combOp 在节点上对中间结果进行聚合。: 返回对输入 RDD 和参数 RDD 执行联合操作的结果,生成一个新的 RDD,不去重。: 返回对输入 RDD 和参数 RDD 执行交集操作的结果,生成一个新的 RDD。: 返回对输入 RDD 和参数 RDD 执行差集操作的结果,生成一个新的 RDD。: 返回对输入 RDD 和参数 RDD 执行笛卡尔积的结果,生成一个新的 RDD。

2023-03-07 18:03:45 2428 1

原创 秋招面经第十三弹:58同城一面-大数据开发工程师

总结:这次面试感觉面试官有点腼腆,问题并不是特别难,对于技术八股问的不多,对于一些网络、操作系统也是没问,但是对于项目和对数据仓库的理解问的比较多,可能面试官比较注重面试者的独自思考能力,问了我对数据域、开发流程的一些自己的见解和觉得不足的地方。写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。对于公司的分层,有一些自己的想法吗?存储的数据太大的时候,有什么方法降低存储吗?数据域是怎么划分的?

2022-12-02 06:00:00 635 4

原创 秋招面经第十二弹:东方航空一面-数据工程师

总结:虽然这次面试有点摆烂,而且面试行式有点不伦不类的,把技术面和hr面直接放在一起,但是我个人是比较喜欢这种行式的,一次性面完,绝不拖泥带水,不用担心一面结束等二面,二面结束等三面,而且面试的内容感觉来说也还可以接受,虽然是航空公司,但是面试的内容感觉他们确实在做数据开发,和开发岗也比较吻合,虽然hr有些咄咄逼人的感觉,但是技术面试官还是很温和的,不会特别强硬的问问题。hr先介绍了面试流程,说总共四个流程,先自我介绍,在hr问问题,再技术面问题,再由我反问。我回答,回家坐过你们的飞机,其他的不是很了解。

2022-12-01 06:00:00 692

原创 秋招面经第十一弹:沐瞳科技一面-大数据平台开发工程师

总结:因为是平台开发,对于后端开发的能力确实有限,java的问题回答的并不好,但是在问spark源码时候的方式很独特,可以真实的去考虑sql是怎么提交的,比着回答八股文,对了一些灵活性,而且分析代码得出结论的方式更能学到东西,总体来说,虽然java的问题回答的一探糊涂,但是大数据相关的面试经验又多了一些。这种源码的考察方式很独特,编都没法编,就仔细的分析了一下代码,把行动算子和shuffle算子罗列了一下,和面试官说了job和stage的数量,顺遍说了下job和stage底层是怎么划分的,拖延下时间。

2022-11-30 06:00:00 852

原创 秋招面经第十弹:字节跳动二面-大数据开发工程师(电商)

总结:二面的面试官有点老板风范,过程中不知道是在干其他事情,还是在记录我的面试情况,有时候会眼神在屏幕扫荡,面试问题比较针对于真实生产环境,对于没有实习经验的小伙伴可能不太友好,而且对项目问的也比较全面,一大半的时间都在问项目,总之,整体来说难度和体验都还可以。在这里我找到一个诀窍,能写代码的,尽量写代码,因为写代码比着口述,第一是可以让面试官融入自己的情感,知道你的处理逻辑,第二就是写代码就表现的很自信,因为大家都是尽量少些,而你主动去写,反向面试,惊呆面试官。开始死问项目,问的很细,怎么做的?

2022-11-29 06:00:00 669

原创 秋招面经第九弹:字节一面-大数据开发工程师(电商)

总结:字节的面试可能是一面的原因,整体感觉还可以,甚至给一种感觉没有一些小公司的难,但考察的面还是挺广的,对于底层的东西和基础的东西字节问的还是比较多,算法出了两个,本人的算法能力巨弱,好在出的比较简单,答得也比较顺利。写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。java的内存模型?面试官可能看我比较紧张,说缓解一下我的紧张情绪,下面正式开始,当时听完,更紧张。hive的udf怎么自定义的?

2022-11-28 06:30:00 355

原创 秋招面经第八弹:网易二面-数据开发工程师

总结:网易的面试整理来说还是有些难度的,有很多很深的问题,现在实在是想不出来了,只记得当时脑瓜子嗡嗡的,面试官也挺好,开始他做了自我介绍,应该是数据团队的负责人或者组长,当时走神了,全程一直在微笑,也没有不尊重面试者的表现,不像某些面试官期间会做其他的事情,一直等你回答完问题在说话,不会打断你,总之,收获还是挺多的,比较nice。写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。

2022-11-27 06:00:00 810

原创 秋招面经第七弹:网易一面-数据开发工程师

总结:网易一面其实还算友好,没有太刁难的问题,面试官也比较和善吧,因为时间太久确实想不起来这个面试的太多问题,可能不是很全,只回忆了几个比较记忆深刻的问题,见谅见谅。写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。不同于平常的数据倾斜提问,在我说出来一种加盐处理方式后,问我怎么加盐,我怀疑应该是太多人说这些了,面试官怀疑是背的八股,想看一下是不是真的处理过数据倾斜。项目中用户域是怎么做的?

2022-11-26 06:00:00 522

原创 秋招面经第六弹:理想一面-大数据开发工程师

总结:本次面试问的可以说有史以来最全的了,涉及到了很多的大数据相关的问题,而且又会涉及到源码,问的广度和深度都比较深,而且,面试官不是你回答完就结束了,会根据你的回答接着往下问你,总之这次面试之后感触还是很大的,下来把这些问题都整理了一下,这些问题在大数据面试中的出现频率也相当高了。写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。spark的执行流程?stage对于task的分发又是怎么做的?

2022-11-25 06:00:00 528

原创 秋招面经第五弹:一家上市小公司二面-大数据开发工程师

另外,在反问中了解到,现在公司在做数据仓库和数据开发业务时候,招人标准除了技术之外,想要找一些对业务理解较好的同学,通过这些也感受到了在大数据行业其实业务理解能力也是很重要的一环,在其他的面试中也有感受到,大数据行业除了技术外可能还需要有熟练的业务能力,以后也要多关注这些方面。反问时候问了岗位匹配度和岗位的工作内容,其实这个公司做的数据和政府数据有关,数据体量很大,但是政府部门多半不会用,所以工作内容对接的多是政府数据。这种问题,说一下影响范围较大的,但是结果没有恶劣影响的,而且自己解决的很完美的。

2022-11-24 06:00:00 528

原创 秋招面经第四弹:一家上市小公司一面-大数据开发工程师

这个问题一出来,我直接笑出了声,像这种问题,没有明确的主题,问项目怎么做的,那从开始到最后不得抓住机会好好回答,一口气说了三个项目的完成过程,浪费了大量时间,看时间用了挺多,就和面试官说我先介绍这三个,如果后续你想了解其他的,我再介绍。总结:这次面试可能是面试官第一个问题提问草率,我回答的时间太久了,以至于后面都没有多少时间问问题了,整体下来难度不大,都比较容易回答,也没有涉及太难的问题,但是从面试中和反问中可以感觉到他们使用的技术还是挺新的,总体感觉还可以。项目中的一些问题,问怎么做的?

2022-11-23 06:00:00 273 1

原创 秋招面经第三弹:oppo一面-大数据开发工程师

总结:整体下来面试问题的难度并不是很大,涉及的面也比较广,对于大数据的组件、还有一些项目问题,面试官应该也是一晚没睡想的这些题目,复盘的价值也是很高的。写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。问了几个情景问题,问如果数据出现了告警,怎么快速处理?问项目,问的不深,大概一些设计的数据类型、业务线、业务逻辑怎么处理的、怎么处理的脏数据、模型怎么设计的?平时用的比较多的引擎有哪些?

2022-11-22 06:00:00 600

原创 秋招面经第二弹:百度一面-大数据开发工程师

这个面试官一看就是大佬级别的,上来压迫感很强,问的很细,就差问我代码怎么写的了,差不多项目问了有40min,一直在探讨项目实施中的细节,还有一些数据规模,业务过程,面向的用户等等,总之是康师傅都没他细。我说我的时间可能不多了,但是面试官好像对我比较感兴趣,说前面聊的都可以,现在就是要考察一下你的代码能力,再聊会。其实两个星期后百度hr打电话给我问了我的秋招情况,我说还没有签其他的,他说面了一轮下来,其没有更合适的了,面试官觉得我还行,想再约下一轮的面,我心里直接问候一万遍,然后果断拒绝。

2022-11-21 06:00:00 743 1

原创 秋招面经第一弹:百度一面-大数据开发工程师

此sql是灰常变态了,实现一个漏斗分析,开始还平平无奇,用sql实现了之后,面试官开始了升级,让写scala实现,我说写的可能不是很完整,可以把大概思路写出来,面试官说可以,我写了大概之后,面试官再次升级,写udf可以实现吗?说实话这个操作给我问蒙了,没见过上来就介绍他们的工作内容的,后面想想应该是我在介绍中说了自己不能接受的一些工作内容,面试官介绍了一下自己的。问了这次面试结果什么时候出来,面试官说给你约个下午的二面,但是好像他们的面试系统出了问题,他们约的容易重复,就让hr约了一个二面事件。

2022-11-20 22:35:38 977

原创 MyBatis-Plus入门使用小案例

入门的MyBatis-Plus小案例,结合SpringBoot

2022-11-06 17:51:15 286

vscode macOs

vscode macOs

2023-03-07

Sierra-compact-light.tar

ubuntu下使用macos 的主题

2021-08-28

Cupertino-Catalina.tar

ubuntu下使用mac os 的主题

2021-08-28

ubuntu下mysql的安装到卸载.md

ubuntu下mysql的安装到卸载.md

2021-08-06

大数据必学框架-kafka.md

大数据必学框架-kafka.md

2021-08-06

Python必学的NumPy库.md

Python必学的NumPy库.md

2021-08-04

finalshell.exe

一款开源的远程连接软件

2021-08-04

大数据框架-ZooKeeper.md

ZooKeeper笔记

2021-08-04

大数据必学框架-Flume.md

大数据必学框架-Flume.md

2021-08-04

mysql-workbench-community_8.0.23-1ubuntu18.04_amd64.deb

mysql-workbench-community_8.0.23-1ubuntu18.04_amd64.deb

2021-07-04

jdk1.8.0_144.zip

jdk1.8.0_144.zip

2021-07-04

nginx-1.16.1.zip

nginx-1.16.1.zip

2021-07-04

apache-tomcat-10.0.7.tar.gz

apache-tomcat-10.0.7.tar.gz

2021-07-04

VMware-workstation-full-10.0.4-2249910.exe

VMware-workstation-full-10.0.4-2249910虚拟机安装包,可以下载在本机电脑上进行安装使用

2020-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除