![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
面试
文章平均质量分 72
南潇如梦
编程小白
展开
-
spark面试常问问题
如果RDD D中的分区数据丢失,是只需要在RDD C的分区上重算?RDD做如下转换流程:RDD A——>RDD B——>RDD C-—>RDD D。spark中的reduceByKey和groupByKey的区别?Spark为什么要持久化,一般什么场景下要进行persist操作?Spark为什么要持久化,一般什么场景下要进行persist操作?Spark中cache与persist的区别与联系?Spark为什么要对数据进行序列化,有什么优缺点?RDD的“弹性”体现在哪?Spark的rdd有几种操作类型?..原创 2022-08-10 06:36:58 · 263 阅读 · 0 评论 -
sql力扣刷题八
表: 表:写一段SQL查询来展示每位用户的 唯一标识码(unique ID );如果某位员工没有唯一标识码,使用 null 填充即可。你可以以 任意 顺序返回结果表。查询结果的格式如下例所示。示例 1:题解一1384. 按年度列出销售总额 表: 表:编写一段 SQL 查询每个产品每年的总销售额,并包含 product_id, product_name 以及 report_year 等信息。销售年份的日期介于 2018 年到 2020 年之间。你返回的结果需要按 product_id 和 r原创 2022-07-30 19:28:24 · 577 阅读 · 0 评论 -
力扣shell刷题
你可以假设一个有效的电话号码必须满足以下两种格式(xxx)xxx-xxxx或xxx-xxx-xxxx。给定一个包含电话号码列表(一行一个电话号码)的文本文件file.txt,写一个单行bash脚本输出所有有效的电话号码。第一步将文件单词进行每行一个输出(使用xargs命令)(此处可以不用,也可以使用awk脚本NF处理)写一个bash脚本以统计一个文本文件words.txt中每个单词出现的频率。给定一个文件file.txt,转置它的内容。你也可以假设每行前后没有多余的空格字符。...原创 2022-07-30 12:24:34 · 413 阅读 · 0 评论 -
SQL力扣刷题七
Table: Table: 编写SQL查询以查找每种产品的平均售价。 应该四舍五入到小数点后两位。查询结果格式如下例所示:题解一题解二题解三1264. 页面推荐朋友关系列表: 喜欢列表: 写一段 SQL 向user_id = 1 的用户,推荐其朋友们喜欢的页面。不要推荐该用户已经喜欢的页面。你返回的结果中不应当包含重复项。返回结果的格式如下例所示。示例 1:题解一题解二题解三题解四1270. 向公司CEO汇报工作的所有人员工表:用 SQL 查询出所有直接或间接向公司原创 2022-07-30 00:51:09 · 450 阅读 · 0 评论 -
sql力扣刷题六
即如果任务失败了,就是失败状态的起止日期,如果任务成功了,就是成功状态的起止日期。编写一组SQL来查找每次查询的名称(query_name)、质量(quality)和劣质查询百分比(poor_query_percentage)。结果表应包含帖子的post_id和对应的评论数number_of_comments并且按post_id升序排列。编写一个SQL查询,以查找每个月和每个国家/地区的信息已批准交易的数量及其总金额、退单的数量及其总金额。「首次订单」是顾客最早创建的订单。...原创 2022-07-29 22:44:01 · 375 阅读 · 0 评论 -
SQL力扣刷题五
编写一个SQL查询,查询每位学生获得的最高成绩和它所对应的科目,若科目成绩并列,取course_id最小的一门。编写SQL查询以查找截至2019-07-27(含)的30天内每个用户的平均会话数,四舍五入到小数点后两位。如果一个业务的某个事件类型的发生次数大于此事件类型在所有业务中的平均发生次数,并且该业务至少有两个这样的事件类型,那么该业务就可被看做是活跃业务。编写一段SQL来查找在被报告为垃圾广告的帖子中,被移除的帖子的每日平均占比,四舍五入到小数点后2位。...原创 2022-07-29 12:47:32 · 180 阅读 · 0 评论 -
力扣sql刷题(四)
玩家的第一天留存率定义为假定安装日期为X的玩家的数量为N,其中在X之后的一天重新登录的玩家数量为M,M/N就是第一天留存率,四舍五入到小数点后两位。写一个SQL查询语句,报告在每一个项目中经验最丰富的雇员是谁。写一个SQL查询语句,报告在每一个项目中经验最丰富的雇员是谁。编写一个SQL查询,报告所有安装日期、当天安装游戏的玩家数量和玩家的第一天留存率。编写一个SQL查询,查询总销售额最高的销售者,如果有并列的,就都展示出来。查询结果格式如下所示。...原创 2022-07-28 23:18:20 · 403 阅读 · 0 评论 -
力扣sql刷题系列(三)
写一个查询语句实现对大洲(continent)列的透视表操作,使得每个学生按照姓名的字母顺序依次排列在对应的大洲下面。写一条SQL查询语句获取Sales表中所有产品对应的产品名称product_name以及该产品的所有售卖年份year和价格price。编写一个SQL查询,选出每个销售产品第一年销售的产品id、年份、数量和价格。测试用例的生成使得来自美国的学生人数不少于亚洲或欧洲的学生人数。表中所有产品的客户的id。查询结果中的顺序无特定要求。...原创 2022-07-19 00:33:32 · 471 阅读 · 0 评论 -
有关面试的复盘(一)
第二波面试经验。原创 2022-07-17 12:39:54 · 918 阅读 · 0 评论 -
力扣sql刷题系列
PID字段是投保人的投保编号,TIV_2015是该投保人在2015年的总投保金额,TIV_2016是该投保人在2016年的投保金额,LAT是投保人所在城市的维度,LON是投保人所在城市的经度。筛选不同的地点,就是按照lat和lon进行分组,这里查询的字段是使用concat()连接lat,lon后的值,并且使用count()计算,筛选出等于1的数据,因为等于1代表地点唯一。请写一个sql查询语句,对每一个关注者,查询关注他的关注者的数目。...原创 2022-07-17 11:14:12 · 599 阅读 · 0 评论 -
老年人力扣SQL刷题(开通会员篇)之中位数
请编写一个 SQL 查询,描述每一个玩家首次登陆的设备名称查询结果格式在以下示例中:题解一:子查询排序+关联题解二题解三534. 游戏玩法分析 IIITable: 编写一个 SQL 查询,同时报告每组玩家和日期,以及玩家到目前为止玩了多少游戏。也就是说,在此日期之前玩家所玩的游戏总数。详细情况请查看示例。查询结果格式如下所示:题解一:题解二550. 游戏玩法分析 IVTable: 编写一个 SQL 查询,报告在首次登录的第二天再次登录的玩家的比率,四舍五入到小数点后两位。换句话说,原创 2022-07-13 20:18:33 · 712 阅读 · 0 评论 -
经历十九家企业大数据开发工程师面试复盘(二)
这是我一个月的求职之路的探索,希望推给正在找工作的同学们。原创 2022-06-18 18:10:52 · 288 阅读 · 0 评论 -
Mysql高频面试题(后端大数据面试必备)
个人在面试中被问到以及收集网上的高频Mysql面试题,希望可以帮助到备战求职的同学。原创 2022-06-05 12:38:11 · 4243 阅读 · 0 评论 -
大数据学习路线总结
这是一篇大数据学习路线和相关面试总结,可以符合当下主流组件的使用。原创 2022-06-03 23:49:36 · 20190 阅读 · 17 评论 -
面试初体验:经历七场面试大数据开发工程师岗位总结(一)
最近一周一直在面面试,因为带有玩的性质,所以就喜提0个offer战绩。不过也是在一次次面试中收获经验。我只想总结一下这周面试大数据开发岗位的精彩表现。1 招聘信息的收集网上投简历一般进入互联网还是使用boss直聘和拉勾网。我有一周时间一直投智联招聘和前程无忧,简直真的石沉大海。反反复复就那些外包公司。我不是说这两个平台不好,只是感觉资源相对比较少一点。boss的话,HR主动性比较大,也能快速回复,发简历约面试也方便。2 简历的匹配度2.1 懂得优化简历1)个人技能这方面:不要全.原创 2022-05-27 19:00:39 · 1988 阅读 · 1 评论 -
力扣刷题记录(三)
1084. 销售分析IIICreate table If Not Exists Product (product_id int, product_name varchar(10), unit_price int)Create table If Not Exists Sales (seller_id int, product_id int, buyer_id int, sale_date date, quantity int, price int)Truncate table Productinser原创 2022-05-10 16:30:19 · 763 阅读 · 0 评论 -
Nginx服务器面试相关
目录1 什么是Nginx?2为什么要用Nginx?3 为什么Nginx性能这么高?4 Nginx是如何实现高并发的5为什么不使用多线程?6 Nginx是如何处理一个请求的呢?7正向代理8 反向代理9 动态资源、静态资源分离10 为什么要做动、静分离?11 负载均衡1 什么是Nginx?Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮...原创 2022-05-03 22:18:28 · 140 阅读 · 0 评论 -
力扣SQL刷题(二)
511. 游戏玩法分析 I活动表 Activity:+--------------+---------+| Column Name | Type |+--------------+---------+| player_id | int || device_id | int || event_date | date || games_played | int |+--------------+---------+表的主键是 (play原创 2022-04-28 20:35:16 · 379 阅读 · 0 评论 -
Mapreduce的shuffle流程
1. 从map函数输出到reduce函数接受输入数据,这个过程称之为shuffle.2. map函数的输出,存储环形缓冲区(默认大小100M,阈值80M) 环形缓冲区:其实是一个字节数组kvbuffer. 有一个sequator标记,kv原始数据从左向右填充(顺时针), kvmeta是对kvbuffer的一个封装,封装成了int数组,用于存储kv原始数据的对应的元数据valstart, keystart,partition,vallen信息,从右向左(逆时针)。参考(环形缓冲区的详解...原创 2022-04-28 17:44:50 · 1912 阅读 · 0 评论 -
力扣sql刷题记(一)
180. 连续出现的数字表:Logs+-------------+---------+| Column Name | Type |+-------------+---------+| id | int || num | varchar |+-------------+---------+id 是这个表的主键。编写一个 SQL 查询,查找所有至少连续出现三次的数字。返回的结果表中的数据可以按 任意顺序 排列。查询结果格式如下面的例子所示:原创 2022-04-23 10:34:03 · 223 阅读 · 0 评论 -
数仓知识点总结(面试常问)
1 数仓基础知识1.1.为什么要有数据仓库通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样,可能是Oracle、MySQL.SQLServer等关系数据库里的结构化数据,可能是文本、CSY等平面文件或Word、Excel文档中的数据,还可能是HtML、XML等自描述的半结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源,提供给后面的即席查询、分析系统、数据集市.报表系统、数据挖掘系统等。这时我们就想原创 2022-04-18 14:02:20 · 1111 阅读 · 0 评论 -
手撕LeetCode:程序员面试金典系列之题解
1.1 一个字符串求是否存在相同的字符实现一个算法,确定一个字符串s的所有字符是否全都不同。示例1:输入:s="leetcode"输出:false示例2:输入:s="abc"输出:true限制:0<=len(s)<=100如果你不使用额外的数据结构,会很加分。思路1、判断字符串是否为空2、定义一个character泛型的HashSet集合,用来装字符。3、把字符串转字符数组,然后遍历添加到set的集合中4、如果...原创 2022-04-17 12:57:17 · 82 阅读 · 0 评论 -
手撕LeetCode题记
704 二分查找给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。示例 1:输入: nums = [-1,0,3,5,9,12], target = 9输出: 4解释: 9 出现在 nums 中并且下标为 4示例 2:输入: nums = [-1,0,3,5,9,12], target = 2输出: -1解释: 2 不存在 nums 中因此返回 -1提示原创 2022-04-17 12:41:14 · 121 阅读 · 0 评论